Hoe nauwkeurig is een chatbot?
De chatbot is in staat nieuwe tekst te genereren, kan leren en kan redeneren, maar heeft geen begrip van de betekenis en vertrouwt op statistische patronen en de gebruikte datasets. Onjuiste informatie in de gebruikte dataset kan leiden tot onnauwkeurige en onjuiste antwoorden.
Datasets
De keuze van datasets hangt af van het specifieke doel en de toepassing van de chatbot. Het is essentieel dat de gebruikte datasets van goede kwaliteit zijn, nauwkeurige informatie bevatten en representatief zijn voor de gewenste taak van de chatbot.
MC4 dataset
Veel bedrijven geven niet prijs welke bronnen ze gebruiken voor het trainen van hun chatbots. Google heeft uit 2,5 miljoen unieke Nederlandse en Belgische websites teksten verzameld voor de MC4 dataset. Dit is een veelgebruikte dataset voor chatbots.
Onderzoek naar de meest gebruikte Nederlandse dataset*
De Groene Amsterdammer heeft samen met Data School onderzoek gedaan naar websites uit de MC4 dataset. Uit het onderzoek is geconcludeerd dat de meest gebruikte Nederlandse websites voor het trainen van chatbots overlopen van auteursrechtschendingen, privégegevens en nepnieuws.
Volgens het onderzoek zou Docplayer.nl de voornaamste bron zijn voor chatbots, een hostingsite die documenten verzamelt, waaronder bestanden met persoonsgegevens als sollicitatie-evaluaties, belastingaangiftes en AIVD rapporten (docplayer.nl was lange tijd een feest voor hackers als het ging om het opsporen van privacygevoelige data).
Opvallend ook is dat een "neonazistische complotwebsite" genaamd Stormfront in de top 200 staat, slechts één plaats lager dan RTL Nieuws. Conclusie hieruit kan zijn dat de chatbots van beide sites ongeveer evenveel kunnen leren.
Zorgwekkend is ook dat websites als Marktplaats en eBay in de lijst voorkomen waar gebruikers hun telefoonnummer achterlaten en deze gegevens worden gekoppeld door een systeem dat ervan wil leren en nieuwe teksten wil genereren.
Als de databron van een chatbot niet betrouwbaar is, kan er verkeerde informatie worden verspreid, zonder dat deze tot de oorspronkelijke bron is te herleiden.
*) Bron: Onderzoek De bronnen van ChatGPT - De Groene Amsterdammer