Haystack vult ontbrekende beoordelingen in sensorisch onderzoek aan met synthetische data

Wat doe je als een expertpanellid niet komt opdagen? Haystack Consulting ontwikkelde een machine-learningmodel dat ontbrekende beoordelingen in sensorisch onderzoek aanvult. Het is een van de eerste toepassingen van synthetische data binnen dit type onderzoek. Maar hoe ver kun je gaan zonder de kwaliteit uit het oog te verliezen?

Tijdens DDB Live presenteerde Stefan Peters, Strategic Growth Enabler bij Haystack Consulting, een toepassing die de vraag naar synthetische data tastbaar maakt. Haystack voert sensorisch onderzoek uit voor voedsel- en cosmeticafabrikanten. Getrainde experts beoordelen producten op tientallen kenmerken, van bitterheid tot textuur. Die experts zijn schaars en niet altijd beschikbaar. Als een panellid wegvalt, ontstaat een gat in de data.

Het model dat Haystack ontwikkelde, vult dat gat op door op basis van historische beoordelingsdata te voorspellen wat het ontbrekende panellid waarschijnlijk zou hebben gescoord. Elk panellid heeft een eigen referentiepunt. De een scoort consistent iets hoger op bitterheid, de ander lager op zoetheid. Die individuele tendensen zijn over tijd zichtbaar en worden door het model meegenomen.

Geen LLM, maar machine learning

Voor deze toepassing koos Haystack bewust voor machine learning, niet voor een taalmodel. De methode die het bureau gebruikt, Random Forest, combineert meerdere beslisbomen tot één voorspelling. Het model wordt getraind op de historische data van het panel. Om te valideren haalt Haystack één panellid tijdelijk uit de dataset en kijkt het of het model diens beoordelingen kan nabootsen.

Op basis van die validatie claimt Haystack een kwaliteitsniveau te behalen dat vergelijkbaar is met de werkelijke beoordelingen. Of dat in de praktijk standhoudt, hangt af van de stabiliteit van het panel en de complexiteit van het product. Hoe meer afwijkingen er in de originele data zitten, hoe lastiger de voorspelling.

Nieuwe informatie of herhaling van wat er al bekend is?

Tijdens de sessie stelde een aanwezige een vraag die de kern raakt van het debat rond synthetische data. Creëert dit model werkelijk nieuwe informatie, of herhaalt het alleen wat er al in de data zit? Peters was daar helder over. Het model genereert geen nieuwe inzichten, maar vult ontbrekende waarden aan op basis van bewezen individuele tendensen. De toegevoegde waarde zit in volledigheid, niet in verrijking.

Eén toepassing van een groter vraagstuk

Wat Peters presenteerde, is een begin, geen afronding. Synthetische data duikt op in steeds meer onderdelen van het onderzoeksproces, van het aanvullen van ontbrekende respondenten tot het simuleren van volledige doelgroepen. Haystack geeft met deze toepassing een aanzet. Maar de discussie over waar synthetische data ophoudt en fictie begint, is nog maar net begonnen.