GPT-4 si infiltra in segreto nelle sessioni degli esami universitari e ottiene voti migliori degli studenti

I modelli di linguaggio più avanzati come GPT-4 di OpenAI stanno diventando così performanti che risulta difficile distinguer i loro testi da quelli umani. Recentemente, GPT-4 ha raggiunto un tasso di successo del 54% in un test di Turing, dove doveva farsi passare per un umano in una conversazione di cinque minuti. Questa rapida evoluzione pone serie problematiche nel campo educativo, come dimostrato da un esperimento condotto dai ricercatori dell’Università di Reading, che hanno infiltrato esami universitari per testarli con un’IA.

Durante la pandemia di COVID-19, molte università nel mondo hanno adottato esami a domicilio non supervisionati, una pratica che continua anche ora che le restrizioni sono state revocate. Questo causa preoccupazione tra docenti e ricercatori, dato che gli strumenti di IA, sempre più accessibili e sofisticati, permettono agli studenti di barare facilmente, presentando compiti generati da tali sistemi. La situazione è ulteriormente complicata dal calo di affidabilità degli strumenti di rilevamento di testi generati dall’IA, che risultano inefficaci nella maggior parte dei casi.

Un test in situazione reale: i risultati e le implicazioni

Per valutare l’impatto dell’IA sull’integrità degli esami, Peter Scarfe e i suoi colleghi dell’Università di Reading hanno condotto un “test di infiltrazione”. Hanno partecipato a un esame di psicologia, sottomettendo risposte prodotte interamente da GPT-4 sotto 33 falsi nomi di studenti. I correttori non sono riusciti a distinguere queste risposte da quelle degli studenti veri, con il 94% delle risposte generate dall’IA non identificate come tali e, in molti casi, valutate meglio delle risposte degli studenti reali.

Secondo Scarfe, è fondamentale comprendere come l’IA influenzi l’integrità delle valutazioni educative. Questo studio ha mostrato che gli strumenti di IA generativa disponibili permettono agli studenti di barare facilmente, ottenendo risultati migliori senza essere scoperti. La professoressa Karen Yeung dell’Università di Birmingham ha sottolineato come la pubblicazione di questo studio dimostri chiaramente l’urgenza di affrontare la questione.

Scarfe propone di tornare agli esami supervisionati in presenza come soluzione, ma non tutti concordano. La professoressa Elizabeth McCrum, dell’Università di Reading, ritiene che l’IA trasformerà molti aspetti delle nostre vite, incluso l’insegnamento e la valutazione degli studenti. Sostiene che sia necessario evolvere le modalità di valutazione verso competenze più adatte al contesto lavorativo moderno, incluso l’uso dell’IA.

Un test in situazione reale: i risultati e le implicazioni

Leggi anche