-

Machine Learning voor maximaal bedrijfsresultaat: vermijd de valkuilen

De waarde van Machine Learning-modellen zit niet in het bouwen ervan, maar in de positieve effecten op je bedrijfsactiviteiten. Klinkt logisch, maar als je niet oplet heb je weinig profijt van een model of levert de toepassing juist problemen op. Vier aandachtspunten en de concrete vragen die je moet stellen.

Stel: het datateam van je organisatie heeft net een uiterst nauwkeurig Machine Learning (ML)-model ontwikkeld. Heeft het model dan al echte waarde? Eerlijk gezegd: nee. Je kunt namelijk geen zakelijke waarde plakken op een ML-model dat niet in een draaiend bedrijfssysteem wordt ingezet om de zakelijke besluitvorming te ondersteunen. Of het nu gaat om een model voor fraudedetectie of hypotheekverstrekking in de financiële sector dan wel een model voor klantenwerving in de telecomwereld (of welke sector dan ook): eindgebruikers moeten in staat zijn om data snel op te vragen, visualiseren en benutten.

Hoe kunnen data scientists dat laatste stukje overbruggen naar die ongrijpbare eindbestemming, dat draaiende bedrijfssysteem (ook wel productieomgeving genoemd)? Hoe kun je het ontwikkelde ML-model op efficiënte wijze optimaliseren? In de praktijk is dit voor veel organisaties een forse uitdaging. Bovendien kunnen er voor de implementatie verschillende wegen worden bewandeld. Vier belangrijke aandachtspunten zijn bepalend voor de keuze van beste weg:

  • Bronnen van data
  • Meten van succes
  • In bedrijf nemen van het model
  • Externe beperkingen
Bronnen van data

Om met databronnen te beginnen: stel een aantal vragen. Is het de bedoeling dat dezelfde data in dezelfde structuur in de productieomgeving beschikbaar zijn? En welk model wordt gebruikt voor het genereren van voorspellingen? Zo zullen modellen die vóór de coronacrisis zijn ontwikkeld bijvoorbeeld ingrijpend moeten worden bijgewerkt alvorens ze beschikbaar worden gesteld in productieomgevingen. De marktsituatie is immers significant veranderd.

Heeft het ML-framework toegang tot de computersystemen waaraan de databron en de bestemming voor voorspellingen is gekoppeld? Een van de meest voorkomende struikelblokken in grootschalige omgevingen is een combinatie van gebrek aan toegangsrechten voor het netwerk, trage verbindingen en langdurig rondreizen van data. Het verhelpen van deze problemen kan de nodige tijd en middelen kosten. Het is daarom zaak om ruim van tevoren te plannen, te testen en de IT-afdeling bij het project te betrekken.

Is het storage-systeem compatibel met de dataconnectoren die binnen het ML-platform beschikbaar zijn? En kan het goed genoeg overweg met het datamodel? Het lijkt niet zoveel werk om de weergave en locatie van je datasets te wijzigen wanneer je met testdata werkt, maar dat verandert zodra de datavolumes toenemen. Is het ML-framework voldoende opgewassen tegen de omvang van de datasets? Vaak wordt wel geclaimd dat men klaar is voor big data, maar valt dat in werkelijkheid nog behoorlijk tegen. Hoe krachtig de ML-technologie die je gebruikt ook mag zijn, zorg ervoor dat je geen grotere datalast op je schouders neemt dan strikt noodzakelijk voor het scoringsproces.

Het meten van het succes

Je moet de mogelijkheid hebben om successen van mislukkingen te onderscheiden. Objectieve maatstaven zijn daarom essentieel. Kun je het succes van het model vertalen in zakelijke maatstaven? En ben je in staat om niet-technische gebruikers van je ML-modellen uit te leggen wat precies de verwachtingen zijn?

Het testen van modellen is van cruciaal belang voor het meten van succes. Op basis van de behoeften van de organisatie en de aard van de dataset moet de juiste validatiestrategie voor de ML- modellen worden gehanteerd, inclusief keuze voor de juiste evaluatiemaatstaven en segmentatie van de datasets. De stabiliteit, gevoeligheid en interpreteerbaarheid van het model moeten eveneens deel uitmaken van de meetbare resultaten.

De IT-afdeling moet waken voor het verouderen van een model. Iedereen wil natuurlijk toegang tot het meest actuele model in de productieomgeving. Maar actualiteit dien je af te wegen tegen de rompslomp die met actualisering gepaard kan gaan.

  • Hoe snel neemt de nauwkeurigheid van je modellen af, en in welke mate is dat van invloed op je business case?
  • Hoeveel zou het kosten om het model opnieuw te trainen en opnieuw te implementeren?
  • Ben je in staat om het oude model te vervangen door een nieuw model zonder het hele systeem plat te leggen? En zo niet, wat kost het dan om het model te onderhouden?
  • Hoe vaak zou je data uit je systemen kunnen ophalen om modellen opnieuw te trainen?
  • Hoe groot is de kloof in de historische data tussen ‘nu’ en het tijdstip waarop het laatste datapunt werd verzameld?

De kosten die komen kijken bij het werken met een actueel model in de draaiende bedrijfssystemen moeten dus altijd zakelijk worden afgewogen.

Het stagen en monitoren van het model zijn eveneens belangrijk, omdat je een model wilt ontwerpen dat optimaal tot zijn recht komt in de productieomgeving. In de testfase moet je de kwaliteit van het model meten en criteria op basis van een nulmeting definiëren en bijhouden. Daarmee kun je bepalen of er echt een werkend model is ontwikkeld dat toegevoegde waarde biedt. En om ervoor te zorgen dat het model naar wens blijft presteren in de productieomgeving moet je dezelfde parameters bewaken als je in het R&D-lab zoud doen. Een model herkent alleen patronen op basis van de data waarmee het is getraind. En de patronen in de data en de waarde ervan zullen onvermijdelijk veranderen. Wat voor impact heeft dat op de kwaliteit van de resultaten die het model oplevert?

Naast het meten van wat eruit komt moeten we ook meten wat voor infrastructuur nodig is. Gedegen asset management betekent: het monitoren van het verbruik van IT-middelen zoals rekenkracht, geheugen en opslagcapaciteit. Het verbruik van deze middelen loopt erg uiteen en is sterk afhankelijk van de specifieke casus.

In bedrijf nemen van het model

Veel bedrijven bedienen meerdere afnemers van de resultaten van het model tegelijkertijd. Het is dan belangrijk om een onderscheid te maken tussen toepassingen waarbij meerdere klanten baat hebben bij een gemeenschappelijk ML-model (getraind op basis van een samengevoegde dataset), en gevallen waarbij een dergelijke aanpak juist tot inferieure resultaten zou kunnen leiden.

Net als met alle andere IT-activa is het belangrijk om een archief van oude modellen bij te houden, compleet met versiebeheer. Je kunt zo antwoord geven op vragen over de keuzes rond de opbouw van het model dat aan bepaalde bedrijfsprocessen in het verleden ten grondslag lag. Mogelijk vragen managers om een interne audit of moet een model ‘teruggedraaid’ worden naar de laatst bekende correcte versie. Vergeet ook niet de metadata op te slaan die een beschrijving geven van het model, zijn parameters en structuur en de toepassing ervan in de productieomgeving. Voor het experimenteren met nieuwe ideeën is het gebruik van methoden zoals A/B-testen, het (automatisch) hertrainen van het model en versiebeheer voor de modellen en hun KPI’s van onschatbare waarde.

Het is lastig om te voorspellen waar je precies tegenaan gaat lopen bij de integratie van het model. Het onderschatten van een adequate planning voor de integratie heeft er, ook bij uitstekende ML-modellen, al voor gezorgd dat de ingebruikname aanzienlijk langer duurt dan de ontwikkeling van de modellen zelf.

Externe beperkingen

Simpel gezegd: wat in het R&D-lab nog wel kan, kan in de bedrijfsomgeving ernstige problemen opleveren. Zo kan de ontdekking van een foutje ertoe leiden dat speciale toegangsrechten tot het model nodig zijn, of dat de afhankelijkheden van de runtime van het scoringproces geherconfigureerd moeten worden. Dat kan een onoplosbaar probleem zijn, of op zijn minst  behoorlijk wat tijd vergen. Misschien is er vanwege de toegang tot gevoelige data een hermetisch gesloten omgeving nodig zonder toegang tot het internet of andere bronnen van afhankelijkheden. Als je dan niet kunt beschikken over lazily resolved afhankelijkheden of implementatieprocessen die werken zónder afhankelijkheid van het internet, dan kunnen er zo maar de nodige deadlines worden gemist tijdens de pogingen om het probleem te verhelpen.

Conclusie: voor meerwaarde zorgen

Uit al deze overwegingen en vragen kunnen we dus het volgende destilleren: tenzij een model effectief binnen de organisatie wordt ingezet voor het aansturen van de besluitvorming, kunnen alle inspanningen van je datateam om het juiste ML-model voor je onderneming te ontwikkelen een verspilling van tijd en energie blijken. Werk dus een strategie uit die een oplossing biedt voor de problemen die zich tijdens het gekozen implementatietraject kunnen voordoen. Doe dat in bewoordingen waar het management mee uit de voeten kan. Alleen dan krijgt de waarde van het machine learning-datamodel vleugels binnen de organisatie en heeft het maximale positieve impact op de het bedrijfsresultaat.

Over de auteur: Mark Bakker is AI Strategist EMEA bij H2O.ai.

Op de hoogte blijven van het laatste nieuws binnen je vakgebied? Volg Emerce dan ook op social: LinkedInTwitter en Facebook.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond