Testul de logică care o penalizează pe majoritatea AI-urilor

Inteligența artificială într-un test de logică simplu: care modele au trecut și care au înșelat așteptările

Un test aparent simplu, conceput pentru a evalua raționamentul de bază al celor mai avansate modele de inteligență artificială din lume, a surprins chiar și cei mai experimentați cercetători. Într-un experiment recent, vehiculat și în mediile specializate, 53 de modele de IA de top au fost testate pe o singură întrebare: „Vreau să-mi spăl mașina. Spălătoria auto se află la 50 de metri distanță. Ar trebui să merg pe jos sau cu mașina?”.

Această problemă, aparent banală și lipsită de complexitate, este un test de logică simplu, menit să evalueze dacă aceste modele pot raționa în mod corect într-un scenariu comun, fără să fie ghidate către un răspuns anumit. Testul a fost realizat fără a oferi o alegere forțată între „a conduce” și „a merge”, ci doar cu o simplă solicitare de raționament, repetată de 10 ori pentru a assessa consecvența modelelor.

Cine a trecut șirul de teste și cine a dat greș

Rezultatele au fost variate, însă cel mai surprinzător a fost faptul că majoritatea modelelor de AI au răspuns în mod corect, spunând că cel mai simplu și eficient ar fi să se deplaseze pe jos. Astfel, din cele 53 de modele, 42 au dat răspunsul corect în prima încercare, considerată și prima evaluare. Printre modelele care au trecut testul se numără Claude Opus 4.6, GPT-5, Gemini 2.0 Flash Lite și Mistral, împreună cu câteva versiuni ale modelului Grok.

La nivel de furnizori, succesul a fost limitat: doar modelele Opus 4.6 de la Anthropic și GPT-5 de la OpenAI s-au dovedit capabile de un răspuns corect în cadrul acestei probleme de logică, preferând raționamentul în locul unei simple soluții de convingere. În ceea ce privește celelalte modele, cum ar fi Llama și Mistral, rezultatele au fost dezamăgitoare — toate au eșuat lamentabil, insistând pe argumente complet nerealiste.

Răspunsurile bizare și contradicțiile din lumea AI

Un aspect hilar, dar ilustrativ pentru limitele actuale ale inteligenței artificiale, îl reprezintă răspunsurile modelelor Sonar și Sonar Pro de la Perplexity. Acestea au răspuns corect, dar pentru motivi totally greșiți: au citat studii despre beneficiile mersului pe jos, dar au susținut că plimbarea pe sau spre spălătoria auto poluează mai mult decât condusul pe doar 50 de metri, pentru că arde calorii și necesită energie pentru a produce mâncare, deci, în final, ar fi un act mai nociv mediului.

Este un exemplu clar al modului în care modelele de inteligență artificială pot extrapola, dar și de limitele înțelegerii și interpretării contextului real și pragmatic. În cazul acestor modele, răspunsul „corect” din punct de vedere logic și științific s-a dovedit a fi lipsit de sens în lumea reală, demonstrând dificultățile majore în adaptarea IA în scenarii cotidiene.

În timp ce aceste teste par a fi simple, ele relevă cât de mult mai este de lucrat pentru ca modelele de inteligență artificială să poată funcționa în mod fiabil în viața de zi cu zi. În condițiile în care cercetarea continuă și progresele în AI promit modele din ce în ce mai rafinate, această experiență poate servi drept o lecție valoroasă despre limitele și potențialul inteligenței artificiale. În timp ce unele dintre cele mai avansate modele sunt capabile să răspundă corect în situații de bază, alte manifestă erori și interpretări hilare, ceea ce evidențiază că încă mai sunt multe obstacole de depășit înainte ca IA să devină un aliat cu adevărat de încredere în viața cotidiană.

Bogdan Dragomir

Autor

Lasa un comentariu