Soms zou je willen dat mensen geen meningen uiten over iets waar ze geen verstand van hebben. Iedereen die iets wil bijdragen aan een discussie over algoritmes zou bijvoorbeeld alleen mogen meedoen na het lezen van ten minste een pagina van Donald Knuth.
Algoritmes krijgen de laatste tijd van alles de schuld. Ze houden je in de gaten, ze weten alles van je, ze kennen je beter dan je jezelf, ze schenden je privacy, ze weten je pincode, ze zijn ‘weapons of math destruction’, ze zijn ondoorzichtig en Facebook en Google gebruiken ze om alles over je te weten te komen.
Soms zou je het uit medelijden voor het algoritme op willen nemen. Maar voordat je het weet is er iemand je voor en beweert dat algoritmes de uitkomst voor onze democratie. (van Oenen – NRC 9 juni) Omdat ‘ze ons beter kennen dan wij ons zelf.’ …Je kunt ook doorslaan.
Laat ik eerst uitleggen wat een algoritme is, om vervolgens te kunnen beweren dat het algoritme de laatste jaren juist minder, niet meer belangrijk is geworden. Een algoritme is een stappenplan om een bepaald probleem op te lossen. Het allereerste algoritme dat ik tijdens mijn studie moest opschrijven betrof het plakken van een lekke fietsband. Schrijf al de handelingen en keuzes die je bij het bandplakken moet doen maar eens op. Als je dat in detail doet heb je een algoritme opgeschreven. Een programmeur kan op basis van een algoritme vervolgens een programma maken, ongeveer zoals een kok een recept volgt. (Niet iedereen komt tot hetzelfde resultaat.)
Het gaat in de discussie die van Oenen start, uiteindelijk niet om algoritmes maar om voorspellingen op basis van data. Algoritmes (gevoed door data) worden gebruikt om modellen te maken, en op basis van modellen kunnen voorspellingen worden gedaan. Hoe goed kun je voorspellen dat iemand jouw product gaat kopen, je film goed vindt, op je politieke partij stemt, radicaliseert, een aanslag pleegt of aan een ziekte lijdt? De data die gebruikt wordt speelt vaak een veel grotere rol dan het algoritme.
Van Oenen (NRC 9 juni) meent dat de overheid algoritmes kan inzetten om de burger meer inspraak te geven. Hij ziet hoe ‘Google’s algoritme’ feilloos kan voorspellen waar wij naar op zoek zij en hij meent in de toepassing van deze technologie de brug te zien die straks over de kloof tussen overheid en woeste burgers komt te liggen. Het algoritme als hoop in bang dagen.
Wie in de ICT werkt, kent waarschijnlijk de hypecyclus van adviesbureau Gartner. Deze cyclus laat zien hoe een nieuwe technologie eerst tot een hype wordt opgeklopt, waarbij verwachtingen onrealistisch tot in de hemel reiken. Deze piek van aandacht wordt gevolgd door een periode van grote teleurstelling en veel vernietigende kritiek. Na verloop van tijd worden de opvattingen minder extreem, realistischer en meer bepaald door bewezen resultaten dan geloof of dromen. De kans dat medestanders van Oenen in ‘het algoritme’ zullen worden teleurgesteld lijkt me aanzienlijk.
Van Oenen denkt onterecht dat Google weet wat straks hij in zal tikken. (Ik vermoed zelf dat hij binnenkort ‘Donald Knuth’ zal intypen.) Google gebruikt wel statische modellen om te proberen te voorspellen wat iemand intikt. Het algoritme om een model te maken dat dergelijke voorspellingen doet is helemaal niet zo ingewikkeld. Googles kracht ligt niet zozeer in de intelligentie van hun algoritmes maar in het gebruik van zeer veel data, intelligente modellen en het vermogen om grote hoeveelheden data snel en efficiënt te verwerken. Hoe ze hun voorspellingen precies doen, is grotendeels onbekend, maar waarschijnlijk controleren ze voortdurend of hun voorspellingen ook uitkomen. Dat laatste is iets waar de overheid van nature niet goed in is. Om één voorbeeld te noemen: de voorspelde geluidsoverlast van Lelystad airport op basis van een computermodel werd pas gecontroleerd toen een actiegroep met vraagtekens het nieuws haalde.
Het idee dat je met ‘een algoritme’ en een berg data tot onvermoede inzichten kan komen is een verhaal dat past in de opgeblazen verwachtingen rond de Big Data hype. In de praktijk komt Big Data-analyse neer op het vinden van statistische verbanden in grote hoeveelheden data. Het interpreteren van dergelijke uitkomsten is niet iedereen gegeven. Politici zijn er slecht in en journalisten niet veel beter. ‘The Media has a probability problem’ kopte Nate Silver september vorig jaar op de website fivethirtyeight.com. Zijn boodschap: opiniepeilingen worden subjectief geïnterpreteerd, voorspellingen verdraaid en onzekerheidsmarges… men weet helemaal niet wat onzekerheidsmarges zijn.
Silver, laat in zijn prachtige boek The signal and the noise en op zijn website telkens weer zien hoe je op basis van data inzicht kunt verkrijgen, of het nu om het weer, de economie, de politiek of aardbevingen gaat. Hij laat ook zien hoe ingewikkeld het voorspellen op basis van data is. De kunst is om het signaal van de ruis te onderscheiden en dat wordt vaak door de groeiende hoeveelheid data alleen maar moeilijker, niet makkelijker. Voorspellingen worden doorgaans beter naar mate we beter begrijpen wat er aan de data ten grondslag ligt. Het geloof in magische zwarte dozen is niet productief. Algoritmes zijn gereedschap bij data-analyse. Men moet ze niet verwarren met een heilige graal of een Noord Koreaanse raket. Voorspellingen zijn uiteindelijk een afspiegeling van inzicht, van begrip. Als het begrip ontbreekt, wees dan op je hoede.
—
Machiel Jansen blogt voor Tirade incidenteel over zaken die ‘Big Data’ raken. Hij leidt het Scalable Data Analytics-team bij SURFsara Amsterdam. Machiel is gepromoveerd op Knowledge Engineering en heeft in 2007 bij verschillende bedrijven en universiteiten aan SURFsara gewerkt.