Sluitstuk | Computers als mensen leren kijken

TU/e-onderzoeker Bart Smets promoveerde cum laude met zijn proefschrift op het gebied van automatische beeldverwerking

Om computers in staat te stellen scheurtjes in bruggen of kanker in medische beelden op te sporen, moeten ze leren kijken zoals mensen. Promovendus Bart Smets combineerde neurale netwerken met traditionele wiskundige methodes en ontwikkelde een model dat efficiënter beelden kan analyseren.

“Ik was al bijna dertig toen ik aan mijn bachelor begon”, vertelt Smets – nu bijna veertig – met een onmiskenbaar Vlaams accent. Na de middelbare school startte hij met studeren in Leuven (“zoals iedereen bij ons doet”), maar dat beviel hem niet. Hij stopte en ging aan het werk in de logistiek. “Handenwerk. Ik werkte als heftruckchauffeur, in het magazijn, in de distributie - dat soort dingen.”

Een radicale bocht

Toen zijn dertigste verjaardag naderde, begon hij zich af te vragen: wil ik dit de rest van mijn leven blijven doen? “Op je dertigste kun je nog een radicale bocht maken”, vertelt Smets. Hij schreef zich in voor de studie wiskunde aan de TU/e, en nu, tien jaar later, promoveert hij cum laude met een proefschrift op het gebied van automatische beeldverwerking. “Ik had dit tien jaar geleden nooit gedacht.”

Het was zijn begeleider, TU/e-onderzoeker Remco Duits, die hem enthousiast maakte voor geometrie en – meer specifiek - beeldverwerking. Smets leerde Duits kennen tijdens zijn bachelor-eindproject, schreef zijn masterthesis onder diens begeleiding en begon uiteindelijk ook zijn promotieonderzoek bij hem. “Ik zie mijn carrière hier niet als een aparte bachelor-, master- en PhD-fase, maar als één doorlopende periode waarin ik met Remco heb gewerkt”, zegt hij lachend. En als het aan hem ligt, blijft die samenwerking na zijn promotie voortduren. “Ik heb net gesolliciteerd voor een UD-positie (universitair docent, red.) in zijn groep.”

Veel toepassingsgebieden

Image processing, oftewel beeldverwerking, is een breed vakgebied dat zich richt op het analyseren en manipuleren van beelden. “Denk aan toepassingen zoals gezichtsherkenning om je telefoon te ontgrendelen, nummerplaatherkenning op parkeerplaatsen of allerlei veiligheidssystemen met camera’s”, legt Smets uit.

Ook in de industrie is er veel vraag naar nauwkeurige beeldanalysemethoden. “Bij de productie van complexe chips kunnen kleine fabricagefouten optreden. Die fouten willen we niet handmatig opsporen, dus proberen we dat te automatiseren”, zegt hij. Rijkswaterstaat kan met vergelijkbare technieken scheurtjes in bruggen detecteren.

Daarnaast speelt automatische beeldanalyse een cruciale rol in de medische sector, zoals bij het vroegtijdig diagnosticeren van ziektes als diabetes. “Computers moeten in staat zijn om beelden nauwkeurig te analyseren en complexe informatie, zoals de vertakkingen en kruisingen van bloedvaten op een scan, correct te interpreteren”, licht de promovendus toe.

Smets richt zich niet op concrete toepassingen, maar op de ontwikkeling van technieken die toegepast kunnen worden in diverse domeinen. “We werken aan verbeterde methodes voor automatische beeldherkenning die breed inzetbaar zijn”, zegt hij. “Technisch gezien is het detecteren van een scheurtje in een stalen brug hetzelfde als het vinden van een bloedvat in een netvlies (retina, red.).”

PDE's en neurale netwerken

Voor automatische beeldverwerking worden twee belangrijke methodes gebruikt. Ten eerste zijn er de wiskundige methodes gebaseerd op zogeheten partiële differentiaalvergelijkingen (ook wel partial differential equations of PDE’s in het kort). “Dit zijn wiskundige vergelijkingen die, wanneer je ze toepast op een beeld, een goed gedefinieerde bewerking uitvoeren”, legt Smets uit. “Deze vergelijkingen kunnen eenvoudig zijn, maar je kunt ze ook combineren om complexe beeldverwerkingsoperaties uit te voeren.”

“Het mooie van PDE’s is dat je door de vergelijkingen te bestuderen precies kunt voorspellen wat er met een beeld gebeurt, ook al heb je dat beeld nog nooit gezien”, vervolgt hij. “De wiskundige methode is daardoor zeer betrouwbaar en voorspelbaar.”

Een andere belangrijke methode is gebaseerd op neurale netwerken die getraind worden met een grote hoeveelheid data. “Het voordeel van neurale netwerken is dat je ze vrij makkelijk hele complexe taken kunt laten uitvoeren zoals objectherkenning”, zegt Smets. Door het model te trainen met duizenden foto’s, kan het leren om bijvoorbeeld alle afbeeldingen van een hond of een auto te herkennen. “Maar een nadeel is dat je hiervoor veel data van hoge kwaliteit nodig hebt, die niet altijd beschikbaar zijn, bijvoorbeeld in de medische sector.”

Daarnaast zijn neurale netwerken vaak enorm groot en vergen ze veel rekenkracht en energie. “Omdat neurale netwerken black box-modellen zijn, weet je bovendien nooit precies hoe het model tot een bepaalde conclusie komt, en dat maakt het moeilijk om de betrouwbaarheid van de resultaten te beoordelen.”

Equivariantie

In zijn onderzoek combineerde Smets de voordelen van beide methodes en ontwikkelde hij een nieuwe techniek: PDE-G-CNN. Deze methode vervangt bepaalde operaties in het neurale netwerk door PDE’s. “Het idee is dat dit gecombineerde model beter presteert dan de afzonderlijke methodes”, legt Smets uit.

Een belangrijk probleem in beeldverwerking is het principe van equivariantie. Dit betekent dat wanneer je een transformatie op een beeld toepast, zoals een verschuiving, rotatie of schaling, de output op een consistente manier moet veranderen. Smets laat een reeks foto's van dezelfde appel zien. Op de tweede foto is de appel gedraaid, en op de derde is de appel vergroot. Mensen herkennen direct dat het dezelfde appel is, maar voor een neuraal netwerk is dat niet vanzelfsprekend. “Als het model alleen foto’s van rechtopstaande appels heeft gezien, zal het de gedraaide appel niet als zodanig herkennen”, zegt Smets.

In zijn model heeft Smets PDE’s ingebouwd om het neurale netwerk te leren omgaan met zulke transformaties. “We moesten beslissen welke vergelijkingen we zouden gebruiken en hoe we ze in het netwerk zouden integreren. Door dit te doen, kunnen we wiskundige bewijzen leveren dat het netwerk op een bepaalde manier zal reageren.”

Betere prestaties, minder parameters

Smets testte zijn model en vergeleek het met bestaande neurale netwerken. De nauwkeurigheid van de resultaten was iets beter, maar het grote voordeel lag in het aantal parameters dat nodig was. “De parameters zijn als de knoppen van het netwerk waar je aan moet draaien om het te optimaliseren”, legt Smets uit. “Het is natuurlijk eenvoudiger om 3.000 parameters af te stellen dan 300.000.”

Met de nieuwe methode kunnen dezelfde resultaten worden behaald met aanzienlijk minder parameters, wat de efficiëntie van het model sterk verbetert. “De nauwkeurigheid blijft gelijk, maar we bereiken dat nu veel efficiënter”, aldus Smets.

Daarnaast is de interpreteerbaarheid van de resultaten verbeterd, wat van groot belang is in gevoelige toepassingen, zoals zelfrijdende auto's. “Als je je telefoon 99% van de tijd ontgrendelt, is dat prima, maar een auto die slechts 99% van de tijd voor een rood licht stopt, is onacceptabel”, zegt Smets. “Voor zulke toepassingen moet je harde garanties kunnen geven over hoe het systeem functioneert in onbekende situaties.” Het PDE-G-CNN-model is een stap vooruit omdat het betere garanties kan bieden, dankzij de ingebouwde PDE's die zorgen voor meer inzicht in hoe het netwerk werkt en wat de resultaten betekenen.

PhD in the picture

Wat staat er op je proefschriftkaft?

“De patronen op het plafond van de Wells Cathedral in Engeland, een voorbeeld van de mooie geometrie in klassieke kathedralen. Daarnaast zie je op de afbeelding de overgang van het gedetailleerde naar een meer gesimplificeerd beeld; dat is iets wat ook met PDE’s wordt gedaan.”

Je bent op een verjaardagsfeestje. Hoe leg je uit wat je onderzoekt?

“Als ik humoristisch wil doen, dan zeg ik ‘dit is een pen (hij houdt een pen in de lucht, red.), maar dit is ook een pen’ (hij draait de pen, red.). Voor ons is dat evident, maar voor een computer niet, dus ik ontwikkel wiskundige methodes om dit aan computers te leren.”

Hoe blaas je naast je onderzoek stoom af?

“Ik ben een autofan, dus als ik stoom wil afblazen, pak ik mijn auto en ga ik racen op een circuit.” 

Welk advies had je graag willen krijgen toen je aan je PhD begon?

“Met Remco en mijn co-promotor Jim Portegies vormen wij echt een goed team. Als je dat hebt, dan gaat alles heel fijn en vlot. Ik denk dat dat de sleutel is tot een goede PhD.”

Wat is je volgende hoofdstuk?

“Ik heb tijdens mijn PhD een vak opgezet dat ik twee jaar heb gegeven aan masterstudenten. Dat vond ik echt heel leuk en wil ik graag blijven doen. Ik hoop dus dat ik als UD op de TU/e kan blijven, verder kan gaan met mijn onderzoek en de methodes kan verbeteren door de 'lessons learned' te implementeren.”

Deel dit artikel