Laži, proklete laži i statistike
Da bismo adekvatno konzumirali statističke informacije iz medija, potrebno je više znanja i odgovornosti novinara, ali i mnogo više matematičke, naučne i statističke pismenosti među samim građanima, koji padaju ničice pred brojevima i procentima kao pred faraonima
Jedna od nuspojava koronavirusa je i porast broja ljudi koji – prate i čitaju statistike. Dakle, razne brojeve i procente, odnosno grafikone, tabele i krive u vezi sa COVID-19. A najveći broj građana tada se o statistikama obolelih, preminulih, oporavljenih itd., pre svega informiše – iz medija.
Međutim, u medijima neretko postoje i mnoge varljive i prevarne statistike i dezinformacije. Dok iskrivljeno ili kvarno baratanje brojevima i grafikonima može da iskrivi našu percepciju, doprinese pogrešnom zaključivanju, te rizičnom ponašanju građana usred krize po javno zdravlje.
A možda je sve to i otkrivanje tople vode. Naime, jedna od najpoznatijih knjiga tim povodom bila je Kako lagati uz pomoć statistike još iz davne 1954. godine. U pitanju je popularno napisan i ilustrovan priručnik o najčešćim greškama u prikupljanju, interpretaciji i izveštavanju o brojevima, postocima i proporcijama u javnosti. Prodat je u par miliona primeraka, a služio je i kao udžbenik za uvodne časove statistike na mnogim fakultetima. Zanimljivo je da autor ove knjige, Darel Haf, uopšte nije bio akademski statističar, već – novinar.
Mark Tven je čuveno izjavio sledeće: „Postoje tri vrste laži: laži, proklete laži i statistika.“ Međutim, da li je zaista tako? Zato što je, ironično, ova rečenica takođe – laž. Mark Tven ovo nikada nije zaista rekao, već je tu izreku pripisao britanskom premijeru Bendžaminu Dizraeliju. A koji je takođe nikada nije izrekao
I sad, premotajmo 66 godina unapred. Problem ostaje, ili je čak infodemijski akutniji i veći. Naravno, najpoznatije laganje uz pomoć statistike jeste ono kada se brojevi ili procenti naprosto – izmisle. Na primer, kada nadrimediji koji su skloni vlasti i/ili opoziciji u predizbornoj kampanji propagandno i neistinito prenesu da ta-i-ta politička stranka ili taj-i-taj kandidat imaju podršku od 18, 28 ili 48 odsto biračkog tela. Pa će ova biračka tela, konformirajuća kakvim ih je evolucija prirodnom selekcija dala, tada požuriti da na izborima glasaju poput popularne većine. Ili, kada se statistički podaci, npr. o obolelima i preminulima od koronavirusa, iz političkih razloga friziraju, prikrivaju i namerno umanjuju.
Ali u ovom tekstu nas pre svega interesuju one nešto suptilnije, dubinske i gotovo strukturne metode dezinformisanja statistikom. Spomenuti primeri su, uostalom, samo ona uobičajena ili prokleta laž, zar ne? Suština je u tome da je statistikom moguće obmanjivati javnost čak i bez eksplicitne i zadnje namere.
Po pravilu, i novinari su i ljudi od krvi i mesa, i mahom pristižu sa društveno-humanističkih fakulteta. Gde obično dobijaju veoma malo ili skoro nimalo naprednog matematičkog i statističkog znanja. A tek je medijska javnost ili publika statistički nepismena, i obično pada ničice pred brojevima i procentima kao pred faraonima ili mandarinima.
Iz tih razloga, ovo su četiri osnovna problema na koje valja obratiti pažnju kada se medijski izveštava o statističkim podacima – kako za novinare, tako i za konzumente medija.
1. Problem definisanja
Krenimo od nazad ili od vremenske prognoze sa kraja TV Dnevnika.
Vest glasi: „Vreme sutra: 74% šanse za kišu u Beogradu.“
Okej, ali šta je tačno „Beograd“? Da li je to površina uže oblasti grada (oko 360 kvadratnih kilometara) ili čak deset puta veća administrativna oblast (oko 3.222 kilometara kvadratnih)?
Ili – šta je tačno „kiša“? Da li je nekoliko kapi iz oblaka koje su pale na asfalt u Mirijevu dovoljno da u pitanju bude – kiša?
Problem uopšte nije naivan. Koliko tačno kapi vode treba da padne, na koliko veliku oblast, i u trajanju od koliko tačno vremena, da bismo pouzdano rekli prostu rečenicu da je – „u Beogradu pala kiša“?
Kada u apsolutnim brojevima upoređujemo preminule od koronavirusa u Kini, Belgiji, Sjedinjenim Državama, Italiji, Brazilu, Indiji, Švedskoj, Sloveniji, Hrvatskoj ili Srbiji, sa toliko različitim brojem i gustinom stanovnika, to nisu „babe i žabe“, već „žirafe i stiropori“ po tome koliko se međusobno razlikuju kao države i društva
Problem se dodatno komplikuje kada je reč o onim društvenim ili ekonomskim pojmovima ili temama sa početka ili iz sredine TV Dnevnika.
Uzmimo samo „statističku“ vest o tome da je u Srbiji, na primer, „u porastu broj beskućnika“. Ali ko su tačno „beskućnici“? Da li su to samo nesrećni ljudi koji spavaju među kartonima na pločniku na ulici? Neki od ovih „beskućnika“ u strogo vlasničkom smislu možda i poseduju kuću ili stan (pa ne ulaze u „statistiku“), ali iz nekog razloga tamo ne žive.
Šta je sa ženama koje zbog nasilja u porodici žive u sigurnim kućama? A sa ženama koje uopšte nemaju stambenu imovinu, jer patrijarhat? Isteranima na ulicu od strane sudskih izvršitelja, jer kapitalizam?
Da li su „beskućnici“ i podstanari koji su napustili dotadašnji stan, pa spavaju na kauču kod prijatelja ili srodnika dok ne iznajme novi? A studenti iz provincije nerešenog stambenog pitanja u univerzitetskim gradovima?
Zato što nemamo jasne kriterijume ili definicije, postaje moguće da npr. Politika izvesti da u Srbiji živi 20.000 beskućnika – a RTV da u Srbiji živi čak 900.000 beskućnika, i što je brojka koja je čak 45 puta veća!
Isto ili još više problematično jeste kada se u medijima statistički izveštava o broju zaposlenih, nezaposlenih, siromašnih, abortusa, razvoda braka, zavisnika od alkohola i droga, pa i o broju obolelih, izlečenih i preminulih od neke bolesti poput COVID-19. Bilo je mnogo kritike na račun računanja preminulih od koronavirusa, i sećamo se opaske „Udario me autobus“ premijerke Ane Brnabić. Ali u pitanju jeste realan metodološki problem definisanja koji može da iskrivi statistiku.
Upravo zbog treniranja strogoće u definicijama, oni pažljivi medijski izveštaji obično će napomenuti da je „stvaran broj mnogo veći“. Jer ko su sve ili tačno siromašni, nezaposleni, zavisnici ili bolesni u nekom društvu? Sve su to krajnje fluidne kategorije i definicije, čak i ako nam se čini da instinktivno znamo ili osećamo šta tačno predstavljaju.
2. Problem proseka
Prosek je omiljena statistička tehnika u medijima. Redovno se izveštava o prosečnim platama, prosečnoj ceni dizela, prosečnom životnom veku, prosečnim temperaturama itd., jer nam famozni prosek omogućuje da gomiletinu podataka i hrpetinu informacija svedemo na jedan prost broj. Ipak, svaki prosek je i jedna neobično komplikovana ili nimalo prosta stvar. Kada profesionalni statističari govore o proseku, oni obično misle na najmanje tri vrednosti – (aritmetičku) sredinu, modus i medijanu. Koje mogu biti veoma različite, te otkrivati (ili sakrivati) krajnje različite stvari.
O tome svedoče i popularni vicevi o delu populacije koji jede isključivo meso i delu populacije koji jede isključivo kupus, pa zbog čega stanovništvo „zapravo“ ručava sarmu. Ali je stvarnost mnogo manje komična od ovako bajatih viceva. Na primer, statističku preponu od 500 evra prosečne plate u Srbiji moguće je dosegnuti i tako što će broj od samo nekoliko desetina hiljada ljudi i Dušana Bajatovića imati mesečnu platu od oko 30.000 evra, dok sedam miliona ostalih građana tavori sa 300 evra plate. A da li je to plutokratsko društvo u kojem želimo da „u proseku živimo“?
Prosečni životni vek u srednjem (ali i u osamnaestom i devetnaestom!) veku bio je oko 38 godina. Međutim, to ne znači da 1850. godine nije bilo pedesetogodišnjaka i šezdesetogodišnjaka na ulici (Volter je preminuo u 83, Kant u 79, Darvin u 73, a Paster u 72. godini života), kao što bismo pogrešno pretpostavili čitajući ovu statistiku u novinama. Već „samo“ da je tada postojala izuzetno visoka smrtnost novorođenčadi i dece, pa je ona bila „spustila“ prosečni životni vek ljudi na oko 40 godina. Uostalom, ljudi u proseku imaju po jedan testis. Zato što jedna polovina ljudskih bića (muškarci) obično imaju dva, a jedna polovina (žene) imaju nula, pa ljudi u proseku zaista imaju po jedan dotični organ među nogama. A da li to odgovara realnosti, iako je ovo statistički tačno i čini zgodnu naslovnu stranu?
3. Problem uzorka
Astrogeolozi uzorkuju Mesečevo kamenje umesto da analiziraju ceo Mesec. Lekari biopsijom uzorkuju komadiće tkiva umesto da ljudima čupaju i analiziraju čitave organe. A društveni naučnici i istraživači javnog mnjenja analiziraju samo isečak društva, stavova i mišljenja populacije. Zato nikada ne smemo zaboraviti ili zanemariti sledeću činjenicu. Sa izuzetkom popisa stanovništva (jednom u deset godina!), svaka statistika o kojoj čitamo u medijima zasniva se na – uzorku. Dok u tim medijima mnogo manje čitamo o veličini, sadržaju ili uopšte karakteru tog uzorka. A upravo oni su ključni za svaku adekvatnu statistiku, pošto isuviše mali ili pak nereprezentativni uzorak može beskrajno iskriviti i podatke i zaključke.
Bilo je mnogo kritike na račun računanja preminulih od koronavirusa, i sećamo se opaske „Udario me autobus“ premijerke Ane Brnabić. Ali u pitanju jeste realan metodološki problem definisanja koji može da iskrivi statistiku. Upravo zbog treniranja strogoće u definicijama, oni pažljivi medijski izveštaji obično će napomenuti da je „stvaran broj mnogo veći“
Za svaku dobru statistiku o ljudskom zdravlju u uzorak moramo da uključimo i ljude koji su visoki, niski, mršavi, žgoljavi, vitki, debeljuce, debeli, bodibilderi, pušači, nepušači, trezvenjaci, i one koji rado popiju jedno ili dva piva previše. Za pitanja koja se tiču npr. politike, moramo uključiti i muškarce i žene (i one između), i one sa sela i one iz grada (i centra i periferije), i mlade i sredovečne i stare, i gej i bi i strejt, i etničke većine i manjine, i bogate i siromašne, i radnike i seljake i sitnu i krupnu buržoaziju, i studente i zaposlene i penzionere, i oženjene, udate, samce i udovce, i neobrazovane i one sa srednjom stručnom, i fakultetlije i magistre i doktore, i rokere i repere i narodnjake, i tako u doslovno nedogled.
A da li najčešći uzorci od oko 1.000 ispitanika zaista reprezentuju sve ove ljudske razlike? Tkivo modernog društva je neobično i krajnje raznovrsna stvar. Osmisliti onaj „pravi“ isečak društva zato jeste veština, nauka i patnja za sebe – koja je veća i od biopsije prostate.
Jer, ako istraživanje vršimo telefonom, u uzorku su nam oni koji uopšte imaju (ili se javljaju na) fiksni telefon (dakle, sredovečni i penzioneri). Ukoliko ga obavljamo internetom, onda obuhvatamo samo one koji imaju i koriste kompjutere (dakle, mlađi i obrazovaniji). A ako odlučimo da tabanamo od vrata do vrata, u uzorku su nam oni koji su baš tada kod kuće, a ne na poslu ili drugde (dakle, nezaposleni i dokoni).
Uz to, valja znati i da je većina zaključaka iz istraživanja društvenih nauka (a posebno ljudske psihologije) o kojima čitamo u medijima zasnovana na krajnje „neobičnom“ ili tzv. WEIRD uzorku (što je akronim za Western, Educated, Industrialized, Rich, Democratic). Drugim rečima, na „prigodnom“ ili zgodnom uzorku studenata psihologije sa Harvarda, Stanforda, Prinstona, Berklija, Kolumbije, Jejla, Oksforda, Kembridža itd. I koji su sve samo ne reprezentativni uzorak ili komadić ljudske populacije.
4. Problem poređenja baba i žaba
Statistike u medijima vole i da upoređuju stvari. Na primer, u crnoj hronici u vestima mogli smo da čujemo da je 2014. bila godina sa najviše avionskih nesreća u istoriji. Te godine dogodile su se dve čuvene nesreće Malezija erlajnsa, te padovi aviona u Maliju, Tajvanu, Iranu itd., sa ukupno 1.183 ljudske žrtve.
Da li su to onda letovi avionom postali opasniji? Ne, nisu. Zato što je nemoguće prosto uporediti 2014. i npr. 1955. (560 žrtava) ili 1984. godinu (676 žrtava). Sve to zato što, prvo, danas ima neuporedivo više komercijalnih letova nego ranije. I, drugo, zato što su danas sami avioni po kapacitetu putnika mnogo veći (pa broje i više poginulih ako im se dogodi kvar ili ruska raketa).
Po pravilu, i novinari su i ljudi od krvi i mesa, i mahom pristižu sa društveno-humanističkih fakulteta. Gde obično dobijaju veoma malo ili skoro nimalo naprednog matematičkog i statističkog znanja. A tek je medijska javnost ili publika statistički nepismena, i obično pada ničice pred brojevima i procentima kao pred faraonima ili mandarinima
Prosti brojevi žrtava 1950-ih i 2000-ih zato su one poslovične „babe i žabe“ u komparaciji. S tim u vezi, umesto apsolutnih brojeva, mnogo je suvislije upoređivati broj smrti na milion putnika (ili na milion pređenih milja). Ovo je već statistika koja pokazuje da su letovi avionom i te kako postali bezbedniji nego ranije.
Prisetimo se toga ako danas upoređujemo broj obolelih ili umrlih od španskog gripa i od COVID-19. U pitanju su babe i žabe zato što je svet izgledao sasvim drugačije 1918. i 2020. godine, po broju stanovnika, stopama globalne trgovine, saobraćaja i ostalog.
Isto je i kada po medijima upoređujemo broj preminulih od npr. kancera ili dijabetesa (1,6 miliona smrti 2016. godine) sa preminulima od koronavirusa (700 hiljada 2020. godine). Jedno su hronične, a drugo je zarazna bolest, dakle, opet statističke babe i žabe.
Ili, kada u apsolutnim brojevima upoređujemo preminule od koronavirusa u Kini, Belgiji, Sjedinjenim Državama, Italiji, Brazilu, Indiji, Švedskoj, Sloveniji, Hrvatskoj ili Srbiji, sa toliko različitim brojem i gustinom stanovnika. Ovo nisu „babe i žabe“, već „žirafe i stiropori“ po tome koliko se međusobno razlikuju kao države i društva.
***
Mark Tven je čuveno izjavio sledeće: „Postoje tri vrste laži: laži, proklete laži i statistika.“
Međutim, da li je zaista tako? Zato što je, ironično, ova rečenica takođe – laž. Mark Tven ovo nikada nije zaista rekao, već je tu izreku u svojoj autobiografiji (1907) pripisao britanskom premijeru Bendžaminu Dizraeliju. A koji je takođe nikada nije izrekao, te je bio „slagao“ i novinar Tven.
Kome onda verovati? Ako već ne možemo verovati seksi citatima sa Fejsbuka, da li možemo verovati brojkama i procentima u medijima? Ili je to statistika zaista poput bikinija – pokazuje mnogo, a ne otkriva ništa?
Naravno da nije. Uostalom, „statistika“ je samo (sjajna) tehnika ili sredstvo, a ne i činjenica ili istina po sebi. Kao i uvek, osnovni problem je u ljudskim umovima. Koji, čim ugledaju nekakav broj ili procenat, odmah pomisle da su u pitanju hladne, tvrde i čvrste činjenice, nasuprot nekakvim rečima, pričama i filozofijama. Uz to, preciznost nije isto što i istinitost. Ako u medijima pročitamo da je rast BDP u Srbiji „5,23 odsto“, ova informacija uopšte ne mora da bude istinita samo zato što je precizna i ima neku decimalu. Statistički podaci jednostavno nisu nekakve bogom ili prirodom date činjenice koje tada samo treba prikupiti kao trešnje sa drveta.
Da bismo adekvatno konzumirali statističke informacije iz medija, potrebno je više znanja i odgovornosti novinara, ali i mnogo više matematičke, naučne i statističke pismenosti među samim građanima. Dobra preporuka, za početak, jeste da valja dvaput razmisliti o spomenutim problematikama – definisanja, proseka, uzorka i baba i žaba one statistike koju nam serviraju.
I da nikada ne smemo smetnuti s uma banalno sledeće: ljudi su ti koji prikupljaju statistiku. Živi ljudi, koji su takođe satkani od krvi, mesa, kože, masti, te svojih političkih i ideoloških pristrasnosti, oni su koji odabiraju kako će tačno, neprecizno ili kvarno definisati, uprosečiti, uzorkovati i uporediti sve ono što – broje, sabiraju, oduzimaju, množe i (sa nama) dele u medijima.
Autor: Aleksej Kišjuhas /Izvor: Cenzolovka