Big Data on tämän hetken kuuma juttu, jossa on valtavasti potentiaalia hyvään. Jonkin aikaa sitten esimerkiksi uutisoitiin Helsingin ja Uudenmaan sairaanhoitopiirin kokeilemasta mallista, joka ennustaa keskosten verenmyrkytyksiä ihmistä aiemmin. (Ylen uutinen.) Valtavista tietomääristä kuvioita louhimalla voidaan saada aikaan paljon hyvää ja pelastaa ihmishenkiä.
Samalla kehityksellä vain on kääntöpuolensa. Yksityisyyttään varjelevat älähtivät jo siitäkin, kun S-ryhmä halusi kerätä yksityiskohtaisempia ostotietoja. (Yle.) Tämä kirja esittelee paljon vaarallisempia malleja, jotka vaikuttavat hyviltä, mutta todellisuudessa lisäävät eriarvoisuutta ja osuvat sivullisiin. Ne ovat joukkotuhoaseita — matikkatuhoaseita.
Kirja on Cathy O'Neilin Weapons of Math Destruction (Penguin Books, 2016). Tämä vinkkaus on siksikin ajankohtainen, että juuri näihin aikoihin kirja ilmestyy suomeksi nimellä Matikkatuhoaseet (suom. Kimmo Pietiläinen, Terra Cognita). En ole suomennosta vielä nähnyt, mutta kustannusyhtiön tuntien se lienee hyvä, mitä nyt ei koreilla kansilla tai laajalla saatavuudella pilattu.
Kirjassaan O'Neil, liike-elämässä algoritmien tuhovoiman nähnyt matemaatikko, tarkastelee hyvin kriittisesti eräitä malleja. Vaikka näkökulma painottuu Yhdysvaltoihin, samat riskit täytyy tiedostaa myös säännellymmässä yhteiskunnassa.
Eräs esimerkki kirjan alkupuolelta liittyy rikollisuuteen. Suuressa osassa Yhdysvaltoja käytetään mallia, joka ennustaa riskin syyllistyä uuteen rikokseen. Tätä varten tuomittu täyttää kyselyn, joka kerää monenlaista tietoa; vastaukset syötetään algoritmiin, joka on oppinut eri vastausten suhteen uusimisriskiin, ja ulos tulee todennäköisyys rikoksen uusimiseen. Tätä tietoa voidaan käyttää tuomion pituuden hienosäätöön: olisihan tuhlausta pitää vankilassa henkilöä, joka on oppinut läksynsä. Kaikki hyvin?
No ei. Kuvittele, että oikeussalissa tuomari julistaisi: "Koska serkkusi on koko ajan pulassa poliisin kanssa, tuomiotasi kovennetaan kahdella kuukaudella." Oikeusvaltiossa olisi sangen outoa, että sukulaisia tai postinumeroa käytettäisiin todisteina syytettyä vastaan. Algoritmi voi kuitenkin tehdä niin, koska se on musta laatikko. Se ei perustele päätöksiään, vaan antaa ainoastaan lukuarvon. Ja numerothan eivät valehtele koskaan.
Iloisena lisämausteena malli toimii. Kun rikoksenuusijaksi leimattu tuomitaan pidempään rangaistukseen, hänellä on huonommat mahdollisuudet työllistyä vapauduttuaan. Luultavasti hän sekaantuu syvemmin ei-toivottuihin porukoihin. Ennustus siis toteuttaa itse itsensä. Yksilö kärsii, koska malli pitää häntä ulkoisesti muistuttavia ihmisiä uhkana.
O'Neil esittää matikkatuhoaseelle kolme kriteeriä:
- Läpinäkymättömyys: malli on musta laatikko eivätkä uhrit tiedä sen toiminnasta.
- Vaikuttavuus: osa uhreista kärsii suhteettomasti mallin seurauksena.
- Skaalautuvuus: malli voi laajentua alkuperäisen vaikutusalueensa ulkopuolelle.
Yleensä matikkatuhoaseita yhdistää myös se, että ne keräävät tietoa lukemattomista lähteistä, olivat tiedot luotettavia tai eivät, ja niputtavat yksilöt massoiksi. Vaikkapa rikosmallissa asuinpaikka kertoo välillisesti jotain lähipiiristä, mutta se on kaukana tarkasta: huonolla alueella asuu myös hyviä ihmisiä ja toisin päin. Osa korrelaatioista on siis kaukana tarkasta. Yllättävää kyllä, vähemmän tietoa voikin olla parempi.
Huono malli ei myöskään opi. Se käyttää aina samoja oletuksia, tuli niillä hyviä tuloksia tai ei. Vielä huonompi tapaus on tietenkin se, jossa malli toteuttaa itse itseään ja oppii siitä — myös tällaisesta kierteestä on esimerkkejä kirjassa. Syy on usein siinä, että kehitys vaatii investointia ja mallikritiikkiä. Googlella on varaa testata pienimpiäkin muutoksia hakusivuunsa; entä kaikilla niillä, jotka nyt hankkivat kuumia algoritmeja?
Kaikkein pahinta on, jos mallia pidetään erehtymättömänä: että luvut ja laskukaavat eivät kärsi inhimillisistä virheistä; että "54,7 %" on vertailukelpoisempi kuin "keskitasoinen". Näin ei tietenkään ole. Jokainen malli kantaa rakenteessaan ja lähtödatassaan ennakkoluuloja ja virheitä. Malleja täytyy osata tulkita. Esimerkkinä kirjassa on opettajien arviointiin käytetty malli, joka oli käytännössä satunnaislukugeneraattori. Silti sillä tehtiin päätöksiä siitä, ketkä saivat kenkää.
Kirja ei anna yhtä ratkaisua ongelmaan, eikä sellaista olekaan. Tärkeää olisi hidastaa tahtia ja arvioida malleja kriittisesti. Tilastotieteelliselle osaamiselle ja ymmärrykselle on tarvetta yhteiskunnan kaikilla tasoilla. Ennen kaikkea pitää välttää ajattelutapaa, josta Andrew Lang kirjoitti jo sata vuotta sitten:
Jotkut käyttävät tilastoja kuten humalainen lyhtypylvästä — tuekseen valaisun sijasta.
Weapons of Math Destruction on hyvä, kriittinen kirja. Se ei yritäkään antaa koko kuvaa tai kertoa kaikesta siitä hyvästä, jonka iso data mahdollistaa. Siksi juuri se onkin niin tärkeää luettavaa.
Ei kommentteja:
Lähetä kommentti
Kommentit ovat moderoituja — yritän hyväksyä kommenttisi mahdollisimman pian. Voit kirjoittaa kommenttiin LaTeX-koodia tai yksinkertaista HTML-merkintää: lue lisää Kommentointi-sivulta.