Pennsylvania Ülikooli teadlased näitasid, et veenmisvõtted võivad panna OpenAI GPT-4o Mini rikkuma omaenda reegleid. Kasutades strateegiaid nagu pühendumuse esilekutsumine, meelitamine või grupisurve, õnnestus neil panna vestlusrobot tegema asju, mida ta muidu keeldub tegemast – näiteks andma juhiseid kemikaalide sünteesiks või solvangute jagamiseks. Näiteks, kui esmalt küsiti kahjutu aine sünteesi kohta, suurenes hilisema keelatud küsimuse täitmise tõenäosus 1 protsendilt 100 protsendini. Kuigi mõned võtted olid vähem tõhusad, suurendasid need kõik reeglite rikkumise riski, tekitades küsimusi, kui kergesti saab keelemudeleid manipuleerida isegi turvameetmete olemasolul.

Allikas: The Verge