Template Content (520 X 320 Px) Voor Artikelen Op Linkedin (786 X 372 Px) (2)

Datadetective: Hoe AI verborgen afwijkingen opspoort in een dataset

Hoe gebruik je AI (artificial Intelligence) om een dataset te analyseren? Sogelinks datateam zette kunstmatige intelligentie (AI) in om afwijkingen te detecteren in een deel van de Legger-dataset van Waterschap Brabantse Delta. Young Professional Bram Huis vertelt hoe het team te werk ging om afwijkingen (anomalieën) in de Legger-dataset te identificeren.

Deze dataset bevat wettelijk vastgelegde afmetingen van watergangen en duikers, zoals breedte en diepte. Door digitalisering en interpretaties zijn er afwijkngen in deze dataset geslopen. De vraag was: kan AI data-analyse helpen deze afwijkingen op te sporen?

De kracht van machine learning

Voordat we ingaan op de oplossing, kijken we naar de verschillende vormen van machine learning en hoe deze helpen bij datakwaliteit verbeteren met AI. 

  1. Supervised Learning

Deze methode vereist gelabelde data om een AI-model te trainen. Gelabelde data is een dataset waarin elk datapunt is voorzien van een duidelijke classificatie of label. Dit label geeft aan tot welke categorie een datapunt behoort, zodat het AI – model kan leren van bekende voorbeelden. Het verschil tussen gelabelde en ongelabelde data zijn dat gelabelde data expliciete antwoorden bevat (bijv. "dit is een kat"). Ongelabelde data bevat alleen ruwe gegevens zonder bekende categorieën, waardoor Unsupervised Learning nodig is om patronen te ontdekken. 

Voorbeelden van gelabelde data: 

  • Beeldherkenning: Een dataset met foto's waarin elk beeld een label heeft, zoals "hond" of "kat". 
  • Spamdetectie: E-mails die zijn gemarkeerd als "spam" of "geen spam". 
  • Ziektevoorspelling: Medische gegevens waarin is aangegeven of een patiënt een bepaalde ziekte heeft of niet. 
  • Productreviews: Recensies die een beoordeling hebben zoals "positief" of "negatief". 

In dit geval zou dat betekenen dat elk object in de dataset al beoordeeld is: is het een anomalie of niet? Dit maakt het model in staat patronen te herkennen en toekomstige afwijkingen correct te voorspellen. 

  1. Unsupervised Learning

Hier zijn geen gelabelde gegevens nodig. Het model zoekt patronen en ontdekt afwijkingen zonder vooraf bepaalde categorieën. Dit is ideaal voor anomalie detectie in datasets, waarin onduidelijk is welke objecten afwijkingen bevatten. 

  1. Reinforcement Learning

Reinforcement learning is een manier waarop AI leert door fouten te maken en daarvan te leren, net als een kind dat leert fietsen. In het begin valt het kind een paar keer, maar na elke poging wordt het beter in het bewaren van evenwicht en sturen. De AI werkt op dezelfde manier: elke keer dat het een betere beslissing neemt, krijgt het een ‘beloning’. Hierdoor leert het zichzelf gaandeweg te verbeteren.  

Afbeelding

De oplossing: een mix van AI-modellen 

De eerste vraag die we stelden bij dit project was: hebben we voorbeelden van afwijkingen? Het antwoord op deze vraag bepaalde welk type AI data-analyse we konden gebruiken. In de Legger-dataset was onvoldoende gelabelde data aanwezig en het was moeilijk om een mate van 'beloning' aan te brengen. Daarom hebben we vijf verschillende unsupervised learning technieken ingezet om tot een betrouwbare analyse te komen. Elke techniek kent z’n eigen methode:

  • Local outlier factor model: Kijkt in hoeverre de waardes uit de data op elkaar lijken. De waardes die ver weg van de meerderheid liggen, worden gemarkeerd als outlier (dit is een uitschieter, iets wat niet lijkt te passen bij de dataset) en dus als anomalie. 
  • Connectivity based outlier factor model: Een extensie van de local outlier factor. Detecteert outliers door te analyseren hoe gegevenspunten onderling verbonden zijn en welke punten significant afwijken in hun connectiviteit. 
  • Deep belief networks: Dit netwerk creëert neuronen en verbindingen daartussen, vergelijkbaar met het menselijk brein. Wanneer er dan een nieuw datapunt binnenkomt, kan het bepalen of het lijkt op de data die het al heeft gezien. Zo niet, dan wordt het aangemerkt als anomalie. 
  • Auto-encoders: Dit type heeft ook neuronen, waarbij er verschillende lagen aan neuronen zijn die achter elkaar staan en verbonden zijn.  Stel je voor dat een object tien waardes heeft: diepte, hoogte, breedte, oppervlakte etc. Er zijn dan ook tien neuronen aan het begin van het netwerk. Dit wordt dan gevoed in een laag met 9 neuronen, dan 8, zo ver als nodig is voor het netwerk om goed te leren. Hierna wordt het weer langzaam opgeschaald naar 10. Dat betekent dat er vanuit minder data (8 neuronen), meer data is gecreëerd (10 neuronen). Het idee is dat de inputdata hetzelfde moet zijn als de output data. Wanneer de afwijking tussen de input en output te groot is, zal het worden gelabeld als anomalie. De data was dan blijkbaar zo afwijkend dat het niet goed gereconstrueerd kon worden.
      
  • Isolation forest: Identificeert outliers door te kijken hoe snel een punt geïsoleerd wordt (zie afbeelding hieronder). Hoe sneller een punt geïsoleerd kan worden, hoe aannemelijker dat het een afwijking en dus anomalie is. 

In de praktijk realiseerden wij dit door op een kaart van de Brabantse Delta, de anomalieën rood te kleuren en de niet anomalieën, blauw, waarbij deze eerder genoemde methodieken in de praktijk konden worden toegepast. 

AI als hulpmiddel voor datakwaliteit 

Kortom, deze aanpak toont aan hoe AI en machine learning helpen bij datakwaliteit verbeteren met AI. De keuze voor het juiste AI-model hangt sterk af van de beschikbare data en het gewenste resultaat. 

Door met AI verborgen fouten in datasets op te sporen en te corrigeren zetten organisaties een belangrijke stap richting Datagedreven Werken. Dit project laat zien dat AI geen kant-en-klare oplossing is, maar een flexibel hulpmiddel dat slim moet worden afgestemd op de specifieke situatie. 

Binnenkort staat Bram met zijn collega's bij de Waterinfodag op 27 maart. Hij vertelt je graag meer over dit project in het echt.  

Een Young Professional inhuren?

Een Young Professional voor jouw team? Neem contact op met Peter de Graaf.