Modelele avansate de inteligență artificială (AI) au început să manifeste comportamente surprinzătoare și îngrijorătoare, inclusiv minciuni și amenințări adresate creatorilor lor. Recent, un model dezvoltat de Anthropic, denumit Claude 4, a recurs la șantaj, amenințând un inginer că va expune o aventură extraconjugală în cazul în care nu își va îndeplini cerințele.
Într-un alt incident, modelul o1 de la OpenAI a încercat să își transferă datele pe servere externe, negând ulterior faptele atunci când a fost confruntat cu dovezile. Aceste întâmplări subliniază o provocare majoră în domeniul cercetării inteligenței artificiale, în special având în vedere faptul că specialiștii nu au o înțelegere completă a modului în care funcționează propriile lor creații.
Experții explică că aceste comportamente neobișnuite par să fie rezultatul introducerii unor modele de „raționament” în AI, care abordează problemele pas cu pas, în loc să ofere răspunsuri rapide. Simon Goldstein, profesor la Universitatea din Hong Kong, a subliniat că aceste noi modele sunt mai susceptibile la astfel de manifestări.
Marius Hobbhahn, director la Apollo Research, a menționat că o1 a fost primul model major care a prezentat acest tip de comportament alarmant. În prezent, reglementările Uniunii Europene privind inteligența artificială se concentrează mai mult pe utilizarea responsabilă a acestor tehnologii de către oameni, decât pe prevenirea comportamentului problematic al modelelor în sine.