Verantwoord omgaan met data
De stormachtige ontwikkelingen rond het verzamelen en analyseren van digitale data brengen ons zowel kansen als gevaren. Ook de Nederlandse datawetenschappers zijn niet blind voor de potentiële schaduwzijde van hun vakgebied. Onder leiding van TU/e-hoogleraar Wil van der Aalst is daarom het consortium Responsible Data Science opgezet, dat moet bijdragen aan een betrouwbare, transparante, en eerlijke datawetenschap met respect voor de privacy.
De hoeveelheid digitale data die beschikbaar is voor analyses neemt exponentieel toe. Tegelijkertijd komen er steeds betere technieken beschikbaar om uit al die gegevens zinnige conclusies te trekken. Zo kan de datawetenschap bijdragen aan betere gezondheidszorg, efficiëntere bedrijven en overheden, en nieuwe wetenschappelijke inzichten. Tegelijkertijd bestaan er grote zorgen over privacyschendingen, en angst voor algoritmen die op basis van ondoorzichtige criteria bepalen of je een hypotheek krijgt en op sollicitatiegesprek mag komen.
Die bezwaren zijn begrijpelijk en niet onterecht, vindt Wil van der Aalst, wetenschappelijk directeur van het Data Science Center Eindhoven. Onzorgvuldige of onethische toepassing van datawetenschap vormt daarnaast ook een bedreiging voor zijn eigen vakgebied, legt hij uit. “Het gevaar bestaat dat mensen door negatieve ervaringen zich zo tegen het gebruik van data keren dat er een soort algeheel verbod komt op het handelen op basis van data. Op basis van feiten, dus eigenlijk. Dat zou desastreus zijn.” Met enige apocalyptische overdrijving wordt in dat kader wel de term ‘Data Science Winter’ gebruikt.
Argwaan tegenover datawetenschap kan leiden tot een ‘Data Science Winter’
Binnen Europa zie je volgens de informaticus al een trend naar restrictieve wetgeving. “Vanaf 2018 kunnen bedrijven die onzorgvuldig met gevoelige data omgaan daarvoor gestraft worden. De boete voor het niet naleven van de Europese General Data Protection Regulation kan oplopen tot twintig miljoen euro, of vier procent van de jaarlijkse wereldwijde omzet indien dat laatste bedrag hoger is. Voor een multinational heb je het dan over gigantische bedragen. Het probleem hierbij is dat zulke wetten in de praktijk vaak moeilijk te interpreteren zijn; de digitale ontwikkelingen zijn lastig in wetgeving te vangen.” Het is daarom belangrijk om de potentiële nadelen van datawetenschap op een positieve manier aan te pakken, legt hij uit, om te voorkomen dat het kind met het badwater wordt weggegooid.
Met dit doel is onder de noemer Responsible Data Science (RDS) het neusje van de zalm van de data-gerichte Nederlandse wetenschap verzameld, waaronder internetjuristen uit Tilburg, statistici uit Leiden, ethici uit Delft, privacy-specialisten uit Nijmegen, media-experts en taalkundigen uit Amsterdam (respectievelijk van UvA en VU). Ook zijn diverse academische ziekenhuizen vertegenwoordigd - bij uitstek organisaties die kunnen profiteren van ‘verantwoorde’ datawetenschap.
De Eindhovense bijdrage wordt gevormd door de datavisualisatie-experts uit de groep van Jack van Wijk en de groep Architecture of Information Systems van Van der Aalst zelf. Als hoofdaanvrager van een Zwaartekrachtssubsidie stond hij aan de wieg van RDS, en hoewel inmiddels duidelijk is dat die megasubsidie er niet komt, betekent dit volgens hem geenszins het einde van het consortium. “We hebben regelmatig gezamenlijke bijeenkomsten in Amsterdam, en ik verwacht zeker nog succesvolle projecten op deelgebieden binnen RDS, bijvoorbeeld binnen JADS (Jheronimus Academy of Data Science, een samenwerking tussen de TU/e en Tilburg University, red.). De problemen die wij willen aanpakken, worden ook uitgebreid benoemd in de Nationale Wetenschapsagenda.”
Het werkveld van Responsible Data Science wordt kernachtig samengevat in het acroniem FACT (Fairness, Accuracy, Confidentiality, Transparency). Hierin staat Fairness voor eerlijke conclusies op basis van data, bijvoorbeeld bij een hypotheekaanvraag of een sollicitatie. “Je wilt natuurlijk niet dat minderheden of vrouwen benadeeld worden door het algoritme dat bepaalt of zij kredietwaardig zijn, of geschikt voor een bepaalde baan. Je moet in ieder geval huidskleur en geslacht geen rol laten spelen in de analyse, maar dat is vaak niet voldoende. Als iemand wordt afgewezen omdat hij in een bepaald postcodegebied woont, is dat ook niet eerlijk.”
Daarom moet bij dergelijke automatische analyses volgens Van der Aalst vooraf duidelijk zijn wat onder een eerlijke beoordeling wordt verstaan. “Als je niet wilt dat een bepaalde bevolkingsgroep wordt bevoordeeld of benadeeld, dan kun je het algoritme zo bijstellen dat dit niet meer gebeurt. Dit kun je testen op historische gegevens, voordat je het toepast op nieuwe data.”
Accuracy draait voor een groot deel om statistiek. “Het moet duidelijk zijn hoe betrouwbaar de conclusies zijn die je op basis van data trekt. Als je op een bepaalde dataset veel verschillende hypotheses loslaat, vind je er altijd wel eentje die door de data lijkt te worden ondersteund. Je kunt namelijk net zo lang doorgaan met analyseren tot je een regel vindt die toevallig waar is voor de data die je onderzoekt.” Er bestaat zelfs een speciale website die verbanden zoekt tussen in principe ongecorreleerde datasets, vertelt Van der Aalst. Daar kun je bijvoorbeeld vinden dat het aantal echtscheidingen in de Amerikaanse staat Maine sterk gecorreleerd is met de hoeveelheid geconsumeerde margarine per hoofd van de bevolking. (Meer voorbeelden? Ga naar tylervigen.com.)
Onder het kopje Confidentiality valt de bekende discussie over privacy. De essentie van dat probleem is volgens Van der Aalst dat ‘anonieme’ data vaak eenvoudig is te herleiden tot een bepaald persoon. “Stel dat er sprake is van een 44-jarige vrouwelijke hoogleraar aan de TU/e. Dat kunnen er niet veel zijn, lijkt me. We hebben ooit gewerkt met anonieme data van een pensioenfonds, en een van onze medewerkers had zichzelf binnen een minuut gevonden aan de hand van zijn trouwdatum en nog een ander kenmerk.”
Daarom moeten er methoden en technieken worden ontwikkeld om data beter te anonimiseren, legt hij uit. “Daar bestaan al oplossingen voor, bijvoorbeeld homomorphic encryption: hierbij versleutel je de data op zo’n manier dat je het alleen voor een specifieke toepassing kunt gebruiken. Als je met data van het CBS het gemiddelde inkomen van bepaalde groepen wilt berekenen, dan kun je met deze methode de data zo versleutelen dat je van een serie getallen alleen de som kunt berekenen, terwijl je de individuele getallen niet kunt zien.”
Een algoritme als rechter zal nooit geaccepteerd worden
Transparency gaat om inzicht in hoe processen en algoritmes tot een bepaalde conclusie leiden. “De hele keten moet transparant zijn, van het vergaren van data, het opschonen hiervan, de berekeningen die erop worden losgelaten en tot slot de interpretatie van de uitkomsten.” Steeds meer algoritmes zijn zelflerend, legt Van der Aalst uit, waardoor op een gegeven moment niemand meer weet wat ze precies doen - behalve dat ze zinnige resultaten opleveren.
“Dat is voor veel toepassingen geen probleem, maar dat wordt anders als je algoritmen bijvoorbeeld wilt gebruiken om recht te spreken. Een rechter moet zijn vonnis kunnen motiveren. Als een algoritme dat niet kan - zelfs als je kunt empirisch bewijzen dat hij een betrouwbaarder oordeel velt dan een rechter van vlees en bloed - dan zullen we dat niet accepteren. Zulke algoritmes zullen we voor dit soort dingen om die reden nooit kunnen gebruiken.”
Discussie