Geef AI-modellen menselijke aanmoedigingen

Gepost op: 22-11-2023 om 19:11

Google DeepMind introduceert een nieuwe techniek genaamd OPRO om de wiskundekennis van AI-taalmodellen te verbeteren door middel van menselijke aanmoediging.

Google DeepMind verbetert wiskundebegrip in AI-modellen met menselijke aanmoediging

man moedigd zijn computer aanGoogle DeepMind heeft recent een nieuwe techniek ontwikkeld die de wiskundekennis van AI-taalmodellen, zoals ChatGPT, kan verbeteren. De methode? Ze gebruiken een andere vorm van AI om de zogenaamde 'prompts' te verbeteren! Deze instructies leggen het AI-model uit wat het moet doen en blijken vele malen effectiever te zijn met een beetje menselijke aanmoediging.

OPRO: een nieuwe manier van optimaliseren

In een paper genaamd "Large Language Models as Optimizers" introduceerde het team van DeepMind een nieuwe methode genaamd Optimization by PROmpting (OPRO). OPRO verbetert de werking van grootschalige taalmodellen zoals die van OpenAI en Google, en gebruikt dagelijkse menselijke taal (in plaats van complexe wiskundige definities) om de AI te instrueren en te begeleiden bij het oplossen van problemen.

Partnerschap tussen AI-modellen

In OPRO spelen twee grootschalige taalmodellen ieder een eigen rol: één model scoort de kwaliteit van elke oplossing terwijl een ander model nieuwe mogelijke oplossingen genereert gebaseerd op eerdere resultaten en een natuurlijke taalbeschrijving. Door deze samenwerking kunnen de modellen de beste oplossingen identificeren, die vervolgens meegenomen worden in de volgende rondes van optimalisatie.

De invloed van specifieke zinnen

Het meest intrigerende deel van de studie? Specifieke zinnen bleken een verbluffende impact te hebben op de resultaten. Zinnen als "laten we stap voor stap nadenken" zorgden ervoor dat de AI-modellen nauwkeuriger resultaten produceerden wanneer ze werden getest op wiskunde datasets. De meest effectieve prompt bleek echter: "Haal diep adem en werk stap voor stap aan dit probleem". Het gebruik van deze zin zorgde voor een nauwkeurigheidsscore van maar liefst 80,2% bij het oplossen van de problemen.

Hoewel het bizar is dat zulke menselijke aanmoedigingen een AI-model zouden beïnvloeden, blijkt de methode verrassend effectief. Door het gebruik van OPRO, kunnen we effectievere prompt-zinnen ontdekken die helpen om nauwkeurige resultaten uit taalmodellen te krijgen.

Op naar de toekomst, en misschien moeten we allemaal een beetje meer menselijk met onze AI omgaan.