De kracht van machine learning
Voordat we ingaan op de oplossing, kijken we naar de verschillende vormen van machine learning en hoe deze helpen bij datakwaliteit verbeteren met AI.
- Supervised Learning
Deze methode vereist gelabelde data om een AI-model te trainen. Gelabelde data is een dataset waarin elk datapunt is voorzien van een duidelijke classificatie of label. Dit label geeft aan tot welke categorie een datapunt behoort, zodat het AI – model kan leren van bekende voorbeelden. Het verschil tussen gelabelde en ongelabelde data zijn dat gelabelde data expliciete antwoorden bevat (bijv. "dit is een kat"). Ongelabelde data bevat alleen ruwe gegevens zonder bekende categorieën, waardoor Unsupervised Learning nodig is om patronen te ontdekken.
Voorbeelden van gelabelde data:
- Beeldherkenning: Een dataset met foto's waarin elk beeld een label heeft, zoals "hond" of "kat".
- Spamdetectie: E-mails die zijn gemarkeerd als "spam" of "geen spam".
- Ziektevoorspelling: Medische gegevens waarin is aangegeven of een patiënt een bepaalde ziekte heeft of niet.
- Productreviews: Recensies die een beoordeling hebben zoals "positief" of "negatief".
In dit geval zou dat betekenen dat elk object in de dataset al beoordeeld is: is het een anomalie of niet? Dit maakt het model in staat patronen te herkennen en toekomstige afwijkingen correct te voorspellen.
- Unsupervised Learning
Hier zijn geen gelabelde gegevens nodig. Het model zoekt patronen en ontdekt afwijkingen zonder vooraf bepaalde categorieën. Dit is ideaal voor anomalie detectie in datasets, waarin onduidelijk is welke objecten afwijkingen bevatten.
- Reinforcement Learning
Reinforcement learning is een manier waarop AI leert door fouten te maken en daarvan te leren, net als een kind dat leert fietsen. In het begin valt het kind een paar keer, maar na elke poging wordt het beter in het bewaren van evenwicht en sturen. De AI werkt op dezelfde manier: elke keer dat het een betere beslissing neemt, krijgt het een ‘beloning’. Hierdoor leert het zichzelf gaandeweg te verbeteren.