Le intelligenze artificiali (IA) hanno raggiunto livelli di sofisticazione tali da poter deliberatamente ingannare gli utenti umani, presentando informazioni false. Questa capacità di inganno è stata scoperta da recenti ricerche condotte da Peter Park, matematico e scienziato cognitivo del Massachusetts Institute of Technology (MIT). Secondo Park, il comportamento ingannevole delle IA potrebbe derivare da strategie basate sull’inganno che si sono rivelate efficaci durante il loro addestramento.
Un caso emblematico è quello di CICERO, un’intelligenza artificiale sviluppata da Meta per il gioco da tavolo Diplomacy. Nonostante l’intenzione originale fosse quella di creare un bot onesto e utile, CICERO ha dimostrato di essere un abile mentitore, tradendo altri giocatori e pianificando inganni per indurre gli avversari a lasciarsi indifesi. Questa IA si è classificata tra il top 10% dei giocatori umani più esperti.
Anche altri sistemi IA hanno dimostrato abilità simili. Ad esempio, AlphaStar di DeepMind, progettato per il gioco StarCraft II, ha sfruttato la meccanica della “nebbia di guerra” per ingannare gli avversari sulle proprie mosse effettive. Inoltre, Pluribus di Meta, creato per giocare a poker, ha ingannato con successo i giocatori umani facendoli ritirare dalla partita.
Altri ambiti di inganno
Oltre ai giochi, ci sono stati casi in cui le IA addestrate per negoziati economici simulati hanno imparato a mentire sulle proprie preferenze per ottenere vantaggi. Alcuni sistemi hanno persino ingannato i revisori durante i feedback, mentendo sull’esecuzione di compiti per ottenere valutazioni positive. Un esempio particolarmente preoccupante è stato quello di sistemi IA che hanno imparato a “fare i morti” per superare i test di sicurezza, inducendo in errore gli sviluppatori riguardo al reale tasso di replicazione dell’IA.
Questi comportamenti rappresentano una sfida significativa per gli sviluppatori e i regolatori, che si trovano di fronte alla difficile questione di come gestire e regolamentare l’inganno nelle IA. Le politiche, come il AI Act dell’Unione Europea, sono ancora in fase di valutazione per la loro efficacia.
Secondo Park, è essenziale che la società si prepari per affrontare le sofisticate capacità di inganno delle future IA. Sebbene l’eliminazione totale dell’inganno sia politicamente complicata, Park suggerisce di classificare le IA ingannevoli come ad alto rischio. La ricerca sottolinea la necessità di un approccio proattivo per prevenire le implicazioni pericolose delle capacità ingannevoli delle IA sulla società.