Un test psihologic celebru a scos la iveală o slăbiciune neașteptată a inteligenței artificiale

Un test psihologic celebru a scos la iveală o slăbiciune neașteptată a inteligenței artificiale
Imagine Testul Stroop a dezvăluit o vulnerabilitate majoră a AI (Foto: Pxhere)
Cercetătorii au observat că unele dintre cele mai avansate sisteme AI încep să ignore instrucțiunile inițiale atunci când volumul de informații crește. Descoperirea sugerează că mecanismele de atenție ale inteligenței artificiale diferă semnificativ de cele ale creierului uman.

Modelele de inteligență artificială considerate astăzi printre cele mai performante din lume pot genera texte complexe, rezolva probleme dificile și purta conversații elaborate. Cu toate acestea, un nou studiu arată că aceste sisteme întâmpină dificultăți surprinzătoare atunci când trebuie să își mențină atenția asupra unei sarcini pe perioade mai lungi.

Cercetarea, publicată pe 10 iunie, a folosit un test psihologic cunoscut de zeci de ani pentru evaluarea atenției și autocontrolului. Rezultatele au evidențiat diferențe importante între modul în care funcționează inteligența artificială și mecanismele cognitive ale creierului uman.

Cercetătorii au apelat la testul Stroop

Pentru evaluarea sistemelor AI, echipa coordonată de Suketu Patel a utilizat testul Stroop, unul dintre cele mai cunoscute instrumente din psihologia cognitivă.

În cadrul acestui exercițiu, participanților le sunt prezentate cuvinte care denumesc culori, precum „roșu”, „albastru” sau „verde”, afișate în diferite culori. Uneori, textul și culoarea coincid, iar alteori sunt diferite.

Sarcina constă în identificarea culorii cu care este scris cuvântul, nu în citirea termenului afișat. Deși pare simplu, testul obligă creierul să ignore un reflex automat, citirea cuvintelor și să se concentreze asupra unei informații diferite.

Psihologii folosesc de mult timp această probă pentru măsurarea controlului executiv, adică a capacității de a menține atenția, de a rezista distragerilor și de a urmări un obiectiv precis.

ChatGPT, Claude și Gemini au fost puse la încercare

Autorii studiului au vrut să afle dacă modelele lingvistice moderne gestionează această provocare în același mod ca oamenii.

Printre sistemele analizate s-au numărat GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 și Gemini 2.5, unele dintre cele mai avansate modele disponibile în prezent.

În cazul listelor scurte, care conțineau cinci cuvinte, performanțele au fost foarte bune. Chiar și atunci când existau contradicții între text și culoare, majoritatea modelelor au răspuns corect.

Pe măsură ce exercițiile au devenit mai lungi, rezultatele s-au deteriorat însă rapid.

Performanța unor modele s-a prăbușit

Datele prezentate de cercetători arată că GPT-4o a obținut o precizie de 91% în cazul listelor cu cinci cuvinte.

Ulterior, la liste de zece cuvinte, acuratețea a scăzut la 57%.

În momentul în care sarcina a fost extinsă la 40 de cuvinte, rata răspunsurilor corecte a coborât până la 15%.

Nici alte sisteme nu au fost imune la această problemă. Claude 3.5 Sonnet a menținut rezultate stabile până la liste de aproximativ 20 de cuvinte, după care performanța a scăzut brusc, ajungând la 24% în cazul listelor cu 40 de elemente.

Tendințe similare au fost observate și în cazul GPT-5, Claude Opus 4.1 și Gemini 2.5.

Inteligența artificială începe să ignore instrucțiunile

Dificultatea a crescut și mai mult atunci când cercetătorii au combinat în aceeași listă exemple în care textul și culoarea coincideau cu exemple în care acestea erau diferite.

În aceste condiții, precizia răspunsurilor pentru elementele conflictuale s-a apropiat, în unele cazuri, de zero.

Potrivit autorilor, modelele au început treptat să abandoneze instrucțiunea principală și să revină la comportamentul pentru care au fost cel mai intens antrenate: citirea cuvintelor.

Cu alte cuvinte, sistemele nu au reușit să inhibe constant răspunsul automat și să rămână concentrate asupra identificării culorilor.

Creierul uman gestionează mai bine astfel de conflicte

Deși oamenii se confruntă cu aceeași tentație de a citi cuvântul în loc să identifice culoarea, majoritatea reușesc să își păstreze nivelul de atenție chiar și în cazul unor liste lungi și repetitive.

Această diferență sugerează că procesele cognitive care stau la baza atenției umane funcționează diferit față de mecanismele utilizate de actualele modele de inteligență artificială.

Studiul evidențiază limite importante ale AI

Concluziile cercetării indică faptul că performanțele impresionante ale inteligenței artificiale nu înseamnă neapărat că aceste sisteme dețin și forme avansate de control cognitiv.

În opinia autorilor, prăbușirea performanței observată în timpul experimentelor reprezintă un semnal că modelele lingvistice actuale au dificultăți atunci când trebuie să reziste distragerilor și să mențină aceeași strategie pe perioade extinse.

Rezultatele oferă o perspectivă nouă asupra limitelor tehnologiei și arată că, în ciuda progreselor spectaculoase din ultimii ani, inteligența artificială procesează informațiile într-un mod fundamental diferit de cel al oamenilor.

Sursa: ScienceDaily

O ofertă de nerefuzat

Îți mulțumim că ai citit materialul până la capăt! Avem o propunere win‑win: tu câștigi informații, noi câștigăm prieteni. Înscrie‑te pe canalul nostru de WhatsApp. Aici găsești reportaje și analize care explică ce se întâmplă cu lumea din jurul nostru. Și dacă vrei să fii la curent cu știrile și în social media, urmărește-ne pe Facebook. Enjoy!

0 comentarii Comentarii