< Terug naar nieuws
Het vermogen van NLP-modellen om goed te generaliseren is een van de belangrijkste desiderata van het huidige NLP-onderzoek. Er is momenteel echter geen consensus over wat 'goede generalisatie' inhoudt en hoe het moet worden geëvalueerd. De ruwe definitie is het vermogen om representaties, kennis en strategieën uit eerdere ervaringen succesvol over te dragen naar nieuwe ervaringen. Het kan dus bijvoorbeeld betekenen dat een model in staat is om voorspellingen op basis van een bepaalde dataset op een robuuste, betrouwbare en eerlijke manier toe te passen op een nieuwe dataset. Maar verschillende onderzoekers gebruiken verschillende definities. Ook zijn er momenteel geen gemeenschappelijke normen om generalisatie te evalueren. Als gevolg hiervan worden nieuw voorgestelde NLP-modellen meestal niet systematisch getest op hun vermogen om te generaliseren.
GenBench
Vijf assen
Dit artikel is gepubliceerd op de website van de Universiteit van Amsterdam.


10 november 2023
Nieuwe taxonomie wil generalisatie onderzoek in NLP verbeteren
Natural Language Processing - het deelgebied van de computerwetenschap dat zich bezighoudt met het vermogen van computers om menselijke taal te 'begrijpen' en te 'genereren' - heeft de afgelopen tien jaar een enorme vlucht genomen.
Het grote publiek is inmiddels op de hoogte van NLP door de opkomst van tools als klantenservicechatbots op websites en ChatGPT. Ondertussen gaat het onderzoek naar hoe je NLP-modellen verder kunt verbeteren door. In een artikel in Nature Machine Intelligence biedt een internationaal team van wetenschappers, waaronder onderzoekers van de Universiteit van Amsterdam, een raamwerk om een aspect van NLP-modellen, generalisatie genaamd, te verbeteren.
Het vermogen van NLP-modellen om goed te generaliseren is een van de belangrijkste desiderata van het huidige NLP-onderzoek. Er is momenteel echter geen consensus over wat 'goede generalisatie' inhoudt en hoe het moet worden geëvalueerd. De ruwe definitie is het vermogen om representaties, kennis en strategieën uit eerdere ervaringen succesvol over te dragen naar nieuwe ervaringen. Het kan dus bijvoorbeeld betekenen dat een model in staat is om voorspellingen op basis van een bepaalde dataset op een robuuste, betrouwbare en eerlijke manier toe te passen op een nieuwe dataset. Maar verschillende onderzoekers gebruiken verschillende definities. Ook zijn er momenteel geen gemeenschappelijke normen om generalisatie te evalueren. Als gevolg hiervan worden nieuw voorgestelde NLP-modellen meestal niet systematisch getest op hun vermogen om te generaliseren.

Deze infographic toont de vijf assen van de taxonomie. Credit: GenBench/UvA
GenBench
Om dit probleem te verhelpen heeft een internationaal team van onderzoekers, waaronder meerdere onderzoekers van het Institute for Logic, Language and Computation (ILLC) van de Universiteit van Amsterdam, nu een analyse gepubliceerd in Nature Machine Intelligence. In het artikel presenteren ze een taxonomie voor het karakteriseren en begrijpen van generalisatieonderzoek in NLP. De publicatie is het eerste resultaat van het grotere project GenBench, geleid door UvA-ILLC alumna Dieuwke Hupkes.
Vijf assen
Hoofdauteur Mario Giulianelli (UvA-ILLC) licht toe: 'De taxonomie die we in onze Analyse voorstellen is gebaseerd op een uitgebreid literatuuronderzoek. We hebben vijf assen geïdentificeerd waarlangs generalisatiestudies kunnen verschillen: hun belangrijkste motivatie, het type generalisatie dat ze willen oplossen, het type dataverschuiving dat ze beschouwen, de bron waardoor deze dataverschuiving is ontstaan en de locatie van de verschuiving binnen de moderne NLP-modelleerpijplijn. Vervolgens hebben we onze taxonomie gebruikt om meer dan 700 experimenten te classificeren. We hebben deze resultaten gebruikt om een diepgaande analyse te presenteren die de huidige staat van generalisatieonderzoek in NLP in kaart brengt en we doen aanbevelingen voor welke gebieden in de toekomst aandacht verdienen.
Project website
NLP-onderzoekers die geïnteresseerd zijn in het onderwerp generalisatie kunnen ook de GenBench website bezoeken. De website biedt meerdere tools voor degenen die geïnteresseerd zijn in het verkennen en beter begrijpen van generalisatiestudies, waaronder een evoluerende enquête, visualisatietools en, binnenkort, een generalisatie leaderboard. De eerste GenBench workshop vindt plaats tijdens de EMNLP 2023 conferentie, op 6 december.
Dit artikel is gepubliceerd op de website van de Universiteit van Amsterdam.
Vergelijkbaar >
Vergelijkbare nieuwsitems

21 mei 2025
Van datamaker tot datagebruiker: afstand bepaalt vertrouwen en hergebruik
Nieuw onderzoek aan de Universiteit van Amsterdam laat zien dat fysieke, institutionele en sociale afstand invloed hebben op het vertrouwen in data, en dus op het hergebruik ervan.
Lees meer >

21 mei 2025
Max Welling benoemd tot lid van de Koninklijke Nederlandse Akademie van Wetenschappen
UvA-hoogleraar Max Welling is benoemd tot lid van de KNAW, een erkenning voor zijn toonaangevende werk op het gebied van machine learning en kunstmatige intelligentie.
Lees meer >

21 mei 2025
Hoe het brein leert zien – en wat AI daarvan kan leren
Het nieuwe onderzoeksproject Mastering Vision onderzoekt hoe zoogdieren visuele informatie zo efficiënt verwerken, en wat AI daarvan kan leren.
Lees meer >