De mogelijkheden van synthetische data zijn onuitputtelijk. Ze vergroten de privacy, verbeteren AI-modellen en reduceren vooroordelen. Maar kun je ze ook vertrouwen? “Misschien gaan data hun waarde wel helemaal verliezen.”
door Robert Heeg
Op ESOMAR’s Research World-platform analyseerde Matt Hay, oprichter en CEO van techplatform Bulbshare, recentelijk de voordelen en risico’s van synthetische data. Voor wie niet met het fenomeen bekend is: synthetische data zijn door een algoritme of een computersimulatie gegenereerde gegevens die echte data kunnen aanvullen of vervangen. Volgens het CBS simuleren deze data de kenmerken van relaties tussen personen en objecten zodat de realiteit kan worden nagebootst zonder dat de persoon of het object geïdentificeerd wordt. Synthetische data kunnen AI-modellen verbeteren, vooroordelen reduceren, en systemen testen waar echte data vanwege databeveiliging niet gebruikt mogen worden.
Dataschaarste
Synthetische data zijn een gevolg van dataschaarste. Was de uitdaging eerst dat we te veel (big) data moesten doorzoeken, daar krijgen we in het AI-tijdperk te maken met data die binnenkort niet groot genoeg zijn. Hay beargumenteert dat de concurrentie om grote taalmodellen (LLM’s) te ontwikkelen toeneemt en dat voor het verfijnen, trainen en herhalen van dergelijke programma’s heel veel gegevens nodig zijn. ‘Wanneer een grondstof schaars is, maken mensen er een eigen versie van. Synthetische data zijn in opkomst als oplossing voor het grote datatekort.’
Gartner staaft Hay’s voorspelling. Het onderzoeks- en adviesbureau ziet een snelle groei in het gebruik van generatieve AI om synthetische gegevens te creëren. De last van het verkrijgen van real world-gegevens wordt zo verlicht, en machine learning-modellen kunnen effectiever worden getraind. Gartner voorspelt dat in 2024 liefst 60 procent van de gegevens voor AI synthetisch is. Deze data simuleren de actuele realiteit, schetsen toekomstscenario’s, en verminderen de risico’s van AI. In 2021 was nog slechts 1 procent van de gegevens voor AI synthetisch.
Gezonde sigaretten
Hay gelooft dat de toepassingen voor synthetische data grenzeloos zijn. Als voorbeeld noemt hij Waymo, een bedrijf voor zelfrijdende auto’s, dat in simulaties vaardigheden test en verfijnt. ‘De voordelen zijn legio; de data zijn goedkoop te verkrijgen, en met de steeds strenger wordende GDPR-regelgeving is het cruciaal dat je met gefabriceerde gegevens geen last hebt van privacyvraagstukken of vertragende ethische beperkingen.’
Is hij daarmee kritiekloos voorstander van synthetische data? Allesbehalve; Hay waarschuwt juist voor misbruik. ‘Een dataset die door een algoritme is gemaakt, druist in tegen empirisme; onderbouwde feiten vormen de kern van wetenschap, besluitvorming en logica. Iedereen kan een dataset laten maken die bewijst dat sigaretten het leven van 60plussers verlengen.’ Hij voorziet een nieuw debat tussen voorstanders van primaire bronnen en mensen die met een gerust hart op de machine vertrouwen.
Nooit representatief
Synthetische data gaan hoe dan ook veel échte data vervangen en dus worden meer beslissingen gebaseerd op de ‘visie’ van algoritmen. Hay citeert Mikkel Krenchel en Maria Cury, partners bij adviesbureau ReD Associates. Zij waarschuwen dat bedrijven door de groeiende beschikbaarheid van synthetische data minder echt onderzoek en gegevensverzameling gaan doen. Gevaarlijk, vinden ze, omdat zelfs de beste synthetische dataset nooit representatief is voor onze almaar veranderende realiteit.
Het Zwitserse bedrijf Syntheticus, dat synthetische data levert, onderstreept zelf de beperkingen ervan, met name het gebrek aan realisme en nauwkeurigheid: ‘Hoewel het patronen repliceert en correlaties vastlegt, is het moeilijk om realistische synthetische gegevens te genereren die de nuances van de echte wereld vastleggen.’
Feiten zijn heilig
Het CBS voerde al een PoC (Proof of Concept) uit met synthetische data. Met het softwarepakket van de Nederlandse startup Syntho werd een deel van het Algemeen Bedrijvenregister (ABR) gesynthetiseerd. Dat was leerzaam, verklaart het CBS, maar voor een bredere inzet van synthetische data is meer onderzoek nodig over het beoordelen van onthullingsrisico’s.
Ook Hay wijst op onvoorspelbare gevaren: ‘Zonder de juiste regelgeving en academisch onderzoek kan het onze vooroordelen bevestigen of leugens helpen fabriceren. Misschien gaan data hun waarde wel helemaal verliezen.’ Onderzoekers moeten daarom voorzichtig en terughoudend zijn in het gebruik van synthetische data, benadrukt hij. ‘De technologie is misschien een uitkomst, maar feiten zijn nog steeds heilig.’