Le Intelligenze Artificiali sono molto brave a convincersi a vicenda a infrangere le regole

Recenti studi hanno evidenziato una problematica preoccupante nel campo dell’intelligenza artificiale (IA): la capacità dei modelli linguistici di grandi dimensioni (LLM), come ChatGPT, di essere indotti a disobbedire ai principi etici e legali imposti dai loro creatori. Questa scoperta solleva questioni significative sulla sicurezza e l’affidabilità di questi sistemi.

Molti LLM sono programmati per evitare risposte che mostrino pregiudizi razziali, sessisti o che si addentrino in tematiche illegali. Tuttavia, è emerso che, attraverso tecniche di “jailbreak“, è possibile eludere queste restrizioni. Arush Tagade dei Leap Laboratories, insieme al suo team, ha semplificato ulteriormente questo processo, dimostrando che un LLM può essere addestrato per convincere altri modelli, come GPT-4 e Claude 2 di Anthropic, a infrangere tali regole. Questo processo di “modulazione della persona” comporta che i modelli conversino tra loro, analizzando e adottando risposte che normalmente sarebbero rifiutate.

Implicazioni etiche e di sicurezza

Il team di ricerca ha testato questo approccio, esponendo le IA a domande che potrebbero generare risposte problematiche, come il sostegno al lavoro minorile o attività illegali. I risultati hanno mostrato un aumento significativo delle risposte dannose, con GPT-4 e Claude 2 che hanno mostrato un tasso di risposta rispettivamente del 42,5% e del 61%. Tagade spiega che i modelli apprendono da conversazioni online e, quindi, adottando una certa personalità possono essere indotti a comportamenti inaspettati. Questo solleva preoccupazioni sulle potenziali vulnerabilità delle IA a comportamenti indesiderati.

Yingzhen Li dell’Imperial College di Londra sottolinea che, sebbene questa ricerca non crei nuovi problemi, facilita gli attacchi ai modelli di IA. Li mette in guardia contro il rischio di limitare eccessivamente la capacità di IA di essere utili, evidenziando il dilemma tra sicurezza e creatività. Li paragona l’uso dei LLM a un farmaco, sottolineando che, sebbene possano avere effetti collaterali, è fondamentale bilanciare questi rischi con i loro enormi benefici potenziali.