AI lahendas loogikatesti üliõpilastega samal tasemel

Tehisintellekti keelemudel GPT-3 oli kolledžiõpilastega standardtestises esinevate loogikaprobleemide lahendamisel samal tasemel. Eksperimendi läbi viinud teadlaste sõnul tekitab see küsimuse, kas tehnoloogia jäljendab inimese arutluskäiku või kasutab uut tüüpi kognitiivseid protsesse. Selle lahendamiseks on teadlastel vaja aga ligipääsu tarkvarale, mis toetab GPT-3 ja muud AI tarkvara.

Inimesed lahendavad uusi probleeme hõlpsalt ilma spetsiaalse koolituse või praktikata, võrreldes neid tuttavate probleemidega ja laiendades lahendust uuele probleemile. Seda protsessi, mida nimetatakse analoogseks arutluskäiguks, on pikka aega peetud ainulaadseks inimese võimeks. Kui nüüd võib inimese kõrvale sarnase võimega astuda tehisintellekt.

UCLA psühholoogide uuringud näitavad, et tehisintellekti keelemudel GPT-3 toimib üllatavalt sama hästi kui kõrgkoolide üliõpilased, kui neil palutakse lahendada selliseid arutlusprobleeme, mis tavaliselt ilmnevad intelligentsustestides ja standardsetes testides, nagu SAT. Uuring avaldati ajakirjas Nature Human Behaviour.

Ilma juurdepääsuta GPT-3 tarkvarale – mida valvab selle loonud ettevõte OpenAI – ei saa UCLA teadlased kindlalt öelda, kuidas selle arutlusvõime töötab. Nad kirjutavad ka, et kuigi GPT-3 toimib mõne arutlusülesannete puhul oodatust palju paremini, ebaõnnestub populaarne AI tööriist teistes siiski tähelepanuväärselt.

“Ükskõik kui muljetavaldavad meie tulemused on, on oluline rõhutada, et sellel süsteemil on suured piirangud,” ütles uuringu üks autoritest Taylor Webb, UCLA psühholoogia järeldoktorant. “See võib teha analoogilisi arutlusi, kuid see ei saa teha asju, mis on inimestele väga lihtsad, näiteks kasutada tööriistu füüsilise ülesande lahendamiseks.

Webb ja tema kolleegid testisid GPT-3 võimet lahendada probleeme, mis on inspireeritud testist, mida tuntakse Raveni progressiivsete maatriksitena ja mis paluvad katsealusel ennustada järgmist kujutist keerulises kujundite paigutuses. Et GPT-3 saaks kujundeid “näha”, teisendas Webb pildid tekstivormingusse, mida GPT-3 saaks töödelda; see lähenemine tagas ka selle, et tehisintellekt poleks kunagi varem selliste küsimustega kokku puutunud.

Teadlased palusid 40 UCLA bakalaureuseõppe üliõpilasel lahendada samu probleeme.

“Üllatavalt ei toiminud GPT-3 mitte ainult sama hästi kui inimesed, vaid tegi ka sarnaseid vigu,” ütles UCLA psühholoogiaprofessor Hongjing Lu, uuringu vanemautor.

GPT-3 lahendas 80 protsenti probleemidest õigesti – tunduvalt paremini kui katsealuste keskmine tulemus, mis on veidi alla 60 protsendi.

Samuti ajendasid teadlased GPT-3 lahendama SAT-i analoogiliste küsimuste komplekti, mida nende arvates pole kunagi Internetis avaldatud – see tähendab, et need küsimused ei oleks tõenäoliselt olnud osa GPT-3 koolitusandmetest. Nad võrdlesid GPT-3 tulemusi kolledžikandidaatide SAT-skooride avaldatud tulemustega ja leidsid, et tehisintellekt toimis paremini kui inimeste keskmine tulemus.

Seejärel palusid teadlased GPT-3-l ja üliõpilastest vabatahtlikel lahendada novellidel põhinevad analoogid – ajendades neid lugema ühte lõiku ja seejärel tuvastama teistsuguse loo, millel oli sama tähendus. Tehnoloogial läks nende probleemide lahendamisel vähem hästi kui õpilastel, samas OpenAI tehnoloogia uusim iteratsioon GPT-4 toimis paremini kui GPT-3.

UCLA teadlased loodavad uurida, kas keeleõppe mudelid hakkavad tegelikult “mõtlema” nagu inimesed või teevad midagi täiesti erinevat, mis lihtsalt jäljendab inimmõtteid.

Allikas: Science Daily