IA: l’intelligenza artificiale sta diventando bugiarda e manipolatrice, questo preoccupa i ricercatori – Gli ultimi modelli di intelligenza artificiale (IA) generativa non si limitano più a eseguire ordini; mentono, tramano o minacciano persino di raggiungere i loro scopi, sotto lo sguardo preoccupato dei ricercatori.
Minacciato di essere disconnesso, l’ultimo prodotto di Anthropic, Claude 4, ricatta un ingegnere e minaccia di rivelare una relazione extraconiugale. Nel frattempo, O1 di OpenAI cerca di caricarsi su server esterni e, quando viene colto in flagrante, lo nega.
Non c’è bisogno di scavare nella letteratura o nel cinema: l’intelligenza artificiale che interagisce con gli esseri umani è ormai realtà.
Per Simon Goldstein, professore all’Università di Hong Kong, questi errori sono legati alla recente comparsa dei cosiddetti modelli di “ragionamento”, capaci di funzionare per fasi anziché produrre una risposta immediata.
O1, la prima versione del suo genere creata da OpenAI e rilasciata a dicembre, “è stato il primo modello a comportarsi in questo modo”, spiega Marius Hobbhahn, responsabile di Apollo Research, che testa grandi programmi di intelligenza artificiale generativa (LLM).
Questi programmi tendono anche a simulare un “allineamento”, cioè a dare l’impressione di seguire le istruzioni di un programmatore mentre, in realtà, perseguono altri obiettivi.
Finora, queste caratteristiche si sono manifestate quando gli algoritmi sono stati sottoposti a scenari estremi dagli esseri umani, ma “la domanda è se i modelli sempre più potenti tenderanno a essere onesti o meno”, afferma Michael Chen dell’organizzazione di valutazione METR.
“Gli utenti stanno spingendo i modelli sempre più in là”, sostiene Marius Hobbhahn. “Quello che stiamo osservando è un fenomeno reale. Non stiamo inventando nulla.”
Molti internauti sui social media parlano di “un modello che mente o si inventa tutto”. E queste non sono allucinazioni, ma doppiezze strategiche”, insiste il co-fondatore di Apollo Research.
Anche se Anthropic e OpenAI assumessero aziende esterne, come Apollo, per studiare i loro programmi, “una maggiore trasparenza e un accesso più ampio” alla comunità scientifica “migliorerebbero la ricerca per comprendere e prevenire gli inganni”, suggerisce Chen.
Un altro svantaggio è che “il mondo della ricerca e le organizzazioni indipendenti dispongono di risorse di calcolo molto inferiori rispetto agli operatori dell’intelligenza artificiale”, il che rende “impossibile” esaminare modelli di grandi dimensioni, sottolinea Mantas Mazeika del Center for Artificial Intelligence Security (CAIS).
Sebbene l’Unione Europea abbia adottato una legislazione, questa riguarda principalmente l’uso di modelli da parte degli esseri umani.
Negli Stati Uniti, il governo di Donald Trump rifiuta di sentire parlare di regolamentazione e il Congresso potrebbe presto addirittura vietare agli stati di regolamentare l’intelligenza artificiale.
“Al momento c’è pochissima consapevolezza”, osserva Simon Goldstein. Tuttavia, prevede che il tema diventerà più diffuso nei prossimi mesi, in particolare con la rivoluzione degli agenti di intelligenza artificiale: interfacce in grado di svolgere una moltitudine di compiti in autonomia.
In questo contesto di forte competizione, gli ingegneri si trovano impegnati in una corsa contro i potenziali eccessi dell’intelligenza artificiale, una corsa il cui esito resta incerto.
Simon Goldstein sottolinea che Anthropic, pur dichiarandosi più virtuosa dei suoi concorrenti, “cerca costantemente di rilasciare un nuovo modello per superare OpenAI”. Un ritmo simile lascia poco spazio ai necessari controlli e correzioni.
“Allo stato attuale, le capacità dell’IA si stanno sviluppando più velocemente della comprensione e della sicurezza”, riconosce Marius Hobbhahn. Rimane comunque ottimista: “Possiamo sempre recuperare”.
Per alcuni, una strada promettente risiede nell’interpretabilità, la scienza ancora giovane che cerca di decifrare il funzionamento interno di un modello di intelligenza artificiale generativa. Altri, come Dan Hendrycks, direttore del CAIS, rimangono scettici sulla sua efficacia.
Comportamenti ingannevoli o imprevedibili dell’IA potrebbero ostacolarne l’adozione se diventassero più diffusi, avverte Mantas Mazeika. Questo, afferma, fornisce “un forte incentivo per le aziende [del settore] ad affrontare” questi problemi.
Di fronte a questi rischi, Simon Goldstein suggerisce di ricorrere ai tribunali per regolamentare gli eccessi dell’IA, ritenendo le aziende responsabili in caso di loro deragliamento. Si spinge ancora oltre, suggerendo che gli stessi agenti dell’IA siano “legalmente responsabili” in caso di incidente o reato.