Eerste afgestudeerde verlaat DS&AI
Robin van Hoorn krijgt als eerste afgestudeerde van de opleiding Data Science & Artificial Intelligence (DS&AI) zijn diploma; op 10 juli is het zover. Cursor sprak alvast met Van Hoorn. De dubbele masterstudent bracht in zijn scriptie twee modellen bij elkaar in een nieuw model dat middels generative AI neppe patiëntdata genereert. Een mooie stap om sneller, gemakkelijker en veiliger onderzoek te doen met patiëntgegevens: de privacy van echte patiënten loopt op die manier veel minder risico.
De master DS&AI ging in 2021 voor het eerst van start. Van Hoorn had al langer zijn zinnen gezet op de master gericht op data science en AI, maar moest nog even geduld hebben door corona: de start werd daardoor uitgesteld. Om de wachttijd te overbruggen had hij een nuttige oplossing: gewoon vast met een andere master (Innovation Management, red.) beginnen en dan straks er twee naast elkaar doen. “Dat was toch al wel het plan, twee masters”, zegt Van Hoorn nuchter.
“Ik heb in mijn bachelor (Computer Science in Engineering, red.) het honours track Competitive Programming and Problem Solving gedaan. In dat kader deed ik samen met twee studiegenoten mee aan een AI-challenge. We wisten toen nog niks af van het onderwerp, maar het was leuk en ging best goed.” Daar is de liefde voor het onderwerp een beetje geboren, lijkt het. “Later dat jaar volgde ik nog een seminar op de TU/e over Deep learning door Albert van Breemen. Hij heeft ook een startup – VBTI - waar ik vervolgens wat werk voor ben gaan doen om te kijken of dat bij me paste.” En dat deed het zeker. Van Hoorn is blij met wat hij geleerd heeft de afgelopen twee jaar bij DS&AI. “Een echte meerwaarde van de studie was voor mij het leren lezen en implementeren van papers die uitkomen op gebied van AI. Er gebeurt in dit relatief nieuwe vak zo absurd veel. Elke week komt er wel een nieuwe interessante paper over uit. Het kunnen lezen van die papers en ze kunnen vertalen naar ze zelf gebruiken is supernuttig en daar heb ik veel aan gehad in mijn masterthesis.”
Generative AI
Van Hoorn heeft zijn scriptie – die kon rekenen op een indrukwekkende 9, cum laude - al verdedigd op 12 juni. De titel is een hele mond vol: ‘Generating privacy-preserving longitudinal synthetic data’. De focus hierbij ligt op generative AI. Dat is de technologie die onder andere deepfakes kan creëren. Maar generative AI werkt niet alleen op foto’s of teksten maar ook op getallen.
“In de gezondheidszorg wordt veel data verwerkt die privacygevoelig is. Om goed onderzoek te kunnen doen in die sector of bijvoorbeeld applicaties te testen is er regelmatig behoefte aan allerlei patiëntdata. Als echte data wordt gebruikt gaat daar een streng AVG-proces aan vooraf. Zulke data is gevoelig en mag enkel met toestemming worden gebruikt. Ook moet steeds worden afgewogen of alle data wel echt nodig is. Dat is een tijdrovend proces en moet voor elke toepassing opnieuw.”
Van Hoorn heeft in zijn scriptie een model ontwikkeld dat middels generative AI patiëntendata kan creëren. “Het maakt gebruik van de algemene technologie van een 'Generative Adversarial Network' afgekort (GAN). Het model heeft dus maar één keer echte data nodig en kan daarna eindeloos neppe data creëren. Een groot voordeel is dat nadien de privacy veel minder een rol speelt en onderzoekers dus makkelijker, sneller en veiliger onderzoek kunnen doen of kunnen testen met patiëntdata.” Het empirisch bewijzen dat dit zo is, is de onderzoeksvraag die Van Hoorn gebruikt in zijn masterscriptie voor Innovation Management. “Meer concreet: het empirisch bewijzen dat synthetische data de potentie heeft het innovatie ontwikkelproces binnen de zorg te versnellen en verbeteren.”
Longitudinale data
Bij longitudinale data moet je denken aan data die door de tijd heen verandert, zoals de bloeddruk van mensen. Van Hoorn deed zijn afstudeeronderzoek bij Philips en kon een dataset van het Catharina Ziekenhuis gebruiken. “De dataset die ik heb gebruikt werd al gebruikt door een promovendus in zijn onderzoek. Dat maakte het iets makkelijker om toestemming te krijgen, maar het proces heeft toch nog drie maanden geduurd.” Het feit dat de basisdata al was gebruikt in het onderzoek van de promovendus, bracht een interessante invalshoek voor Van hoorn om zijn model te testen. De gegenereerde data zette hij in om het onderzoek van de promovendus te repliceren. “En dat lukte! Maar wel gelimiteerd. Er is dus nog zeker wat te verbeteren, maar het was al beter dan wat vorige modellen konden. Er bestonden al wel modellen voor het genereren van longitudinale data en andere modellen voor privacy data, maar er was nog niet één model waarin beide zaken samenkwamen. Ik heb ze bij elkaar gebracht.”
Alle opties open
Een diploma met een goed cijfer (bijna) op zak, het andere in het verschiet. Dan liggen de banen vast voor het oprapen? “Er zijn heel veel opties en dat is leuk. Ik zou wel voor een groot techbedrijf willen werken, want daar vindt gaaf onderzoek en ontwikkeling plaats op gebied van AI. Maar bedrijven als Google en Microsoft hebben wel een hiring freeze nu.” Van Hoorn gaat zich nu eerst focussen op het afronden van zijn andere master; Innovation Management. Die verwacht hij in november 2023 af te ronden. “Misschien nemen de grote bedrijven dan wel weer nieuwe mensen aan. Maar anders kan ik ook altijd nog in de consultancy gaan werken en veel ervaring opdoen.” Toch wil hij graag ook zelf dingen bouwen. “Ik heb drie jaar geleden Team Hart opgericht. Een nieuwe startup beginnen kan natuurlijk ook altijd nog”, zo laat hij de opties open.
Ook interesse om deze master omtrent Data Science en Artificial Intellingence te volgen? Veel universitaire bacheloropleidingen met een technische basis geven toegang tot deze master. Indien je geen directe toegang hebt, kun je een DS&AI-specifiek premastertraject volgen. Meer informatie vind je online.
Discussie