AI-systemen zijn zo goed als de data die je ze geeft

Door je in de kunstmatige intelligentie te richten op data in plaats van alleen op het model, kun je betere resultaten behalen. Daar kwamen de studenten Asfandyar Azhar en Nidhish Shah van de AI honors track achter toen ze een datagerichte AI-wedstrijd wonnen. Ze zijn zo enthousiast over data-centric AI, dat ze er een vak over willen opzetten aan de TU/e.

door
foto screenshot meeting Andrew Ng

Data, het is een onmisbaar onderdeel van kunstmatige intelligentie, maar de meeste mensen die zich met AI bezighouden richten zich liever op het ontwikkelen van modellen. Dat is zonde, vinden de studenten Asfandyar Azhar (Data Science) en Nidhish Shah (Computer Science), want door voor een goede dataset te zorgen behaal je soms betere resultaten dan wanneer je het AI-model aanpast.

Dat ondervonden de studenten zelf toen ze afgelopen september meededen aan de virtuele Data-Centric AI Competition, een wedstrijd waarbij deelnemers met een vast AI-model moeten werken en alleen de data mogen aanpassen. Azhar en Shah pasten tal van methodes toe om de kwaliteit van de data te verbeteren. Een daarvan was het handmatig doorspitten van de tienduizend afbeeldingen in de dataset. Een saaie klus, dat valt niet te ontkennen, zegt Shah. “Niemand denkt ’s ochtend bij het opstaan: ik ga vandaag data opschonen en het wordt een leuke dag.”

Onder de indruk

Andere methodes waren interessanter, vertelt Azhar. “We hebben bijvoorbeeld active learning gebruikt." Het model identificeert daarbij welke data nuttig is om van te leren. De studenten schreven zelf een algoritme, dat aan het bestaande model vroeg of een afbeelding nuttig was of niet. Was dat het geval, dan werd die afbeelding geselecteerd voor de uiteindelijke dataset.

Saai of niet saai, de resultaten logen er niet om. De studenten wisten door het opschonen van de dataset de nauwkeurigheid van het model met twintig procent te verbeteren. “In de echte wereld zou dat enorm veel zijn”, zegt Shah. “We waren er zo van onder de indruk dat we besloten verder te gaan op het gebied van datagerichte AI.”

En dat zouden meer mensen moeten doen, vindt Shah. “Bijna al het onderzoek op het gebied van AI gaat over het verbeteren van bestaande modellen. Daar pompen we dan gewoon terabytes aan data in. Maar er valt niet veel meer te verbeteren aan de modellen, we zitten zo goed als aan de grens.” Op het gebied van data valt daarom nu relatief veel meer resultaat te behalen.

Andrew Ng

De studenten wisten met hun inzending de derde plaats te behalen en mochten daarom digitaal in gesprek met Andrew Ng, professor aan de Stanford University en organisator van de wedstrijd. “We vroegen aan het eind van het gesprek of we hem mochten toevoegen op LinkedIn. Dat mocht, ondanks de 26.000 verzoeken die hij nog had staan.” Azhar lacht: “Het is als een stamp of approval.”

Computerwetenschapper Ng is een grote inspiratiebron voor Azhar en Shah, die met zijn Deep Learning course hun eerste stappen in de AI wereld zetten. “Ik heb altijd het idee dat ik langzamer leer dan andere studenten. Door zijn manier van uitleggen maakte hij het makkelijk voor me”, vertelt Azhar. “Ik had nooit verwacht dat ik me met AI bezig zou gaan houden, ik dacht dat het te complex voor me was.”

Keuzevak

Geïnspireerd door Ng willen de studenten nu zelf graag een keuzevak over datagerichte AI opzetten aan de TU/e. “Online is er wel het een en ander over te vinden, maar er is geen volledige cursus die zich toespitst op dit onderwerp”, zegt Azhar. Het gaat erom dat studenten niet eens weten dat ze naar data-centric AI kunnen zoeken, vult Shah aan. De belangrijkste reden voor hen om het vak op te zetten is dan ook om studenten kennis te laten maken met datagerichte AI.

“We hebben een ruwe opzet, maar krijgen nog niet echt voet aan de grond. Docenten zijn wel enthousiast en zien er de noodzaak ook van in, maar helaas zijn zij niet de besluitvormers over nieuwe cursussen. Die moeten we te pakken zien te krijgen”, zegt Azhar.

Deel dit artikel