(BRICK 101/Flickr. CC-BY-NC 2.0.)
Jos olet perehtynyt tieteelliseen tutkimukseen, olet varmaankin törmännyt p-arvon käsitteeseen ja siihen, kuinka niitä ei oikeastaan pitäisi käyttää. Jos aihe ei satu olemaan ennestään tuttu, tiivistettynä kyse on vuosikymmeniä jatkuneesta kränästä, joka menee osapuilleen näin:
— Tilastotieteilijät: Älkää käyttäkö p-arvoja, ne ovat valheellinen ja epäpätevä mittari!
— Kokeelliset tutkijat: Antaa kuulua parempi tapa.
Tietenkään asia ei ole ihan näin yksinkertainen. Sen ymmärtämiseksi pitää perehtyä siihen, kuinka tiedettä oikein tehdään. Minä tietenkin olen teoreettisena opiskelijana harvinaislaatuisen huono opas, muttei anneta sen haitata, kunhan pidetään mielessä, että kyseessä on yksinkertaistus!
Osa 1: Mikä ihmeen p-arvo?
Löydät netistä etäisesti uutista muistuttavan jutun, jonka mukaan maailmalla kiertää kirottuja kolikkoja. Moiset lantit paitsi värähdyttelevät energiakenttiä viidennessä ulottuvuudessa ja erittävät ektoplasmaa täydenkuun aikaan, myös laskeutuvat aina kruunalle. Taskussasi sattuu olemaan kolikko... voisiko se olla kirottu? Pikku tutkijana otat asian selvitettäväksesi.
Tutkimus lienee helpoin aloittaa heittämällä kolikkoa. Rennolla ranneliikkeellä paiskaat kolikon ilmaan, seuraat sen putoamista, ja... kruuna. Kas, nettijuttu taisi olla oikeassa! Tiede on helppoa!
No, esikoululainenkin lätkäisisi moiseen tutkimusraporttiin kirkuvanpunaisen HYLÄTTY-leiman. Ei vaadi mitään raamatullista ihmettä, että tuiki tavallinenkin kolikko laskeutuu kruunalle.
Koulussa on tullut vastaan semmoinen sana kuin hypoteesi. Nyt se pistetään tositoimiin, ja vielä kaksin kappalein. Yksi: jos kolikko on ihan normaali, kruuna tulee keskimäärin joka toinen kerta. Kaksi: jos kolikko on kummallinen, näin ei olekaan vaan jompikumpi tulee toista useammin. Ykköstä kutsutaan nollahypoteesiksi ja kakkosta vastahypoteesiksi. Tismalleen yksi näistä on tosi, ja nyt selvitetään kumpi.
Nollahypoteesin avulla saadaan järkevä määritelmä p-arvolle: kyseessä on todennäköisyys, jolla tutkimustulos saadaan nollahypoteesin ollessa tosi. Yksittäinen kruuna saadaan tutusti 50 % todennäköisyydellä, joten $p=0.50$.
Säädetäänpä koeasetelmaa vähäsen. Heitetäänkin kolikkoa kahdesti. Eikö ole ilmiselvää, että kahden kruunan saaminen on paljon vahvempi todiste väitteen puolesta? Tämä näkyy myös p-arvossa: jos kolikko on täysin tavallisen satunnainen, kaksi kruunaa saadaan todennäköisyydellä $0.5 \cdot 0.5 = 0.25$. Tarvitaan siis edellistä suurempi sattuma, jotta tulee pelkkiä kruunia.
Säädetään vielä vähän ja heitetäänkin kolikkoa kymmenesti. Mitä jos kolikko putoaa nyt kymmenesti kruunalle? No, alkuoletuksen mukaan tämän todennäköisyys on $0.5^{10} \approx 0.001$ eli suunnilleen tuhannesosan luokkaa. Juu, edelleenkin mahdollista, mutta hiljalleen jo vähän vaikeasti uskottavaa, että kolikko olisi tasapuolinen... Vaikuttaa siis siltä, että pienemmät p-arvot tarkoittavat vahvempia todisteita.
Yleensä tutkijat valitsevat jonkin rajapyykin, jonka alapuolelle menevä todennäköisyys riittää. Kaikkein klassisin valinta on $0.05$, ja koska äskeinen tuloksemme on tätä pienempi, voimme julistaa kolikossa olevan jotain mätää. Ei sen vaikeampaa! (No, olisi vaikeampaa jos kyseessä ei olisi näin räikeän keinotekoinen esimerkki.)
Ikävä kyllä tämä oli liiankin helppoa.
Osa 2: Miksi ne ovat peestä?
Ihan ensimmäiseksi voidaan kyseenalaistaa, mistä tuo $0.05$ putkahti. Vastaus: Ei mistään. Tyhjästä. Vedetty stetsonista. Heiluteltu käsiä.
Kyseisen luvun käyttö oli tietenkin myös oma valintani. Vaikka yleisönosastoille kirjoittelevat tuntuvat joskus toisin luulevan, yleisesti ottaen tutkijat eivät ole typeriä. Ihmistieteissä voi olla vaikeaa alittaa edes viiden prosentin rajaa, joten suuremmatkin luvut hyväksytään. Hiukkasfysiikassa miljardi mittauspistettä ei ole mitään, joten vaaditaan pilkun jälkeen aika monta nollaa, jotta tutkijoiden kulmakarvat kohoavat lupaavasti. Asiayhteys määrää sopivan rajan, mutta viisi prosenttia on yleisin.
Onko raja silloinkaan sopiva? Mitä jos täysin epäuskottava väite, luokkaa "Celine Dion auttaa akuuttiin ripuliin", saa yhdessä tutkimuksessa p-arvon $0.03$? Toisaalta entä jos todellinen mutta vaikeasti mitattava ilmiö saa arvon $0.051$?
Ongelmana tämä on todellinen. Jos tutkimuksen julkaiseminen riippuu yksinomaan tiukasta kynnyksestä p-arvolle, herää houkutus pilkkoa dataa osa-aineistoiksi tai yrittää mittauksia uudelleen. Vaihtoehtona olisi heittää pitkä työ hukkaan ympäristössä, jossa asenne on "julkaise tai kuole" — tutkijan ansioluettelossa julkaisumäärillä on valitettavan suuri painoarvo. Harmi vain, että pilkotut tulokset eivät enää ehkä olekaan päteviä. (Puhumattakaan niistä häpeäpilkuista, jotka väärentävät tulokset sopiviksi.)
Toinen ongelma on, että p-arvot ymmärretään helposti väärin. Ne eivät kuvaa, kuinka voimakas ilmiö on: jos kolikko laskeutuu 51 % kerroista kruunalle, tarpeeksi monen toiston jälkeen p-arvo laskee alle minkä tahansa rajan. Ne eivät myöskään kuvaa väärän positiivisen todennäköisyyttä: kymmenen kruunaa putkeen tuottava kolikko ei ole kirottu (tai väärennetty) 95 % todennäköisyydellä — muuten rahajärjestelmässä olisi melkoisen paha ongelma.
P-arvo kertoo ainoastaan, kuinka hyvin havainnot vastustavat nollahypoteesia. Jos kolikko tuottaa kruunia parillisina ja klaavoja parittomina päivinä, yhtenä päivänä tehty mittaus todistaa väitteemme ja toisena tehty ei.
Yksikään näistä vioista ei ole matemaattinen. Kaikki ovat inhimillisiä virheitä, jotka johtuvat pakottavasta tarpeestamme puristaa isoja kokonaisuuksia yhteen lukuarvoon. (Numerothan eivät koskaan valehtele.) Siinä sivussa kyseisen lukuarvon todellinen merkitys hämärtyy.
P-arvojen ongelmaan on ratkaisuja. Yhden luvun sijasta tuloksiin voidaan liittää kaikenlaisia kuvaajia ja luottamusvälejä. Ja mitä tulee mittariin siitä, onko väite nyt todella vahvistettu... no, jatketaan yhdellä sellaisella torstaina.
Ei kommentteja:
Lähetä kommentti
Kommentit ovat moderoituja — yritän hyväksyä kommenttisi mahdollisimman pian. Voit kirjoittaa kommenttiin LaTeX-koodia tai yksinkertaista HTML-merkintää: lue lisää Kommentointi-sivulta.