“AutoML ondersteunt datawetenschappers bij het optimaliseren van hun werk”
Automated machine learning (AutoML) maakt een snelle groei door. Wat is de reden voor deze opkomst? En wat zijn de voor- en nadelen van de technologie?
Door Robert Heeg
AutoML automatiseert het bouwen van machine learning-modellen en het toepassen ervan op gegevens, luidt de omschrijving van Microsoft. Het is een specifieke subset binnen AI. Met behulp van een gegevensset kan AutoML worden ingezet om diverse gegevenstransformaties, machine learning-algoritmen en hyperparameters te herhalen en zo het beste model te selecteren.
Volgens marktonderzoeker P&S Intelligence genereerde de AutoML-markt in 2023 een omzet van ruim 866 miljoen dollar. Het verwachte jaarlijkse groeipercentage tot 2030 is 52,8 procent. Grote leveranciers van AutoML zijn marktleider IBM, H20.ai, Microsoft, SAS Institute, dotData en Determined AI.
Simpel beginnen
De groei wordt mede bepaald door de laagdrempeligheid. AutoML maakt het niet-experts makkelijker om machine learning-modellen te ontwikkelen. Het biedt een eenvoudige, gebruiksvriendelijke interface waarmee modellen getraind en geïmplementeerd kunnen worden, zelfs door mensen die niet of nauwelijks ervaring hebben in datawetenschap en geen expertise hebben op gebieden als programmeren, statistiek en domeinkennis.
Toch adviseert techblogger Ashesh Anand op Analytics Steps: ‘AutoML-nieuwkomers kunnen het beste beginnen met een eenvoudig probleem dat makkelijk kan worden opgelost met bestaande machine learning-technieken. Dit helpt je vertrouwd te raken met de AutoML-tools en leert je begrijpen hoe ze werken voordat je complexere problemen aanpakt.’
Hoe het werkt
Het proces van AutoML begint meestal met het voorbereiden van de data, waaronder het opschonen van de gegevens, het omzetten van variabelen en het identificeren van features die relevant zijn voor het model. Vervolgens wordt een algoritme geselecteerd op basis van de dataset en de doelstellingen van de analyse. AutoML kan verschillende algoritmen uitproberen en evalueren om het meest geschikte model te vinden. Na het selecteren van het algoritme, wordt het model automatisch getraind en geoptimaliseerd. Dit omvat het afstemmen van hyperparameters en het evalueren van de prestaties van het model met behulp van technieken zoals kruisvalidatie. Tot slot wordt het beste model geselecteerd en ingezet voor voorspellingen of analyse.
Snelle groei
Er zijn tal van AutoML-toepassingen in marktonderzoek en analytics. Het kan bijvoorbeeld worden gebruikt om automatisch klantsegmenten te identificeren op basis van demografische gegevens, aankoopgeschiedenis en gedrag. Dit stelt bedrijven in staat om gerichte marketingcampagnes te ontwikkelen en gepersonaliseerde aanbiedingen te doen aan verschillende klantgroepen. AutoML kan ook worden gebruikt om modellen te ontwikkelen voor vraagvoorspelling, omzetprognoses en voorraadoptimalisatie.
Volgens machine learning-platform H2O.ai gebruiken marketingbureaus en merken AutoML voor het maken van marktvoorspellingen, optimale advertentieplaatsing, investeringsmogelijkheden, gerichte leadgeneratie, up- en cross-selling, trechtervoorspellingen en klantsegmentatie.
Te complex
Hoewel AutoML veel voordelen biedt, worden er ook potentiële nadelen genoemd, zoals een beperktere controle over het proces (de keuze van algoritmen of de afstemming van hyperparameters), mogelijke overfitting (het model wordt te veel afgestemd op de trainingsgegevens), beperkte ondersteuning voor complexe of gespecialiseerde problemen, en het ontbreken van domeinkennis (en daardoor geen begrip van context).
Ook produceren sommige huidige AutoML-platforms dermate complexe modellen dat ze moeilijk te interpreteren zijn. Bij alle genoemde nadelen kunnen handmatige benaderingen nog steeds superieur zijn, omdat ze meer flexibiliteit en expertise vereisen. En daarmee is de volgende vraag eigenlijk al beantwoord…
Gaat AutoML datawetenschappers vervangen?
‘Nee’, blogt Suzy Maddah, zelf datawetenschapper bij Eiffage, Europees marktleider in bouw, energiesystemen en infrastructuur. Ze beschrijft hoe een fabrikant van betonblokken de problemen in een productieproces wilde oplossen. De metingen leverde tegenstrijdige data op, waarover diverse experts veel overleg moesten plegen. En dus concludeert Maddah: ‘AutoML ondersteunt datawetenschappers op dit moment uitstekend bij het optimaliseren van hun werk. Daardoor kunnen zij meer tijd besteden aan besprekingen met domeinexperts en het bedenken van een goede aanpak. Maar AutoML kan een datawetenschapper nog niet volledig vervangen.’
Volgens Anand is het belangrijk om te beseffen dat AutoML geen one-size-fits-all-oplossing biedt en moet worden gebruikt in combinatie met domeinexpertise en menselijke intuïtie om de beste resultaten te bereiken. ‘Door de voor- en nadelen van AutoML te begrijpen en strategisch te gebruiken, kunnen organisaties de sterke punten ervan benutten en de zwakke punten verminderen. Zo verbeteren zij hun machine learning-workflows en vergroten ze hun bedrijfswaarde.’