Claude-3 supera GPT-4 e diventa l’IA migliore di tutte

Il settore dei grandi modelli di linguaggio (LLM) ha assistito a un evento significativo, con il modello Claude-3 di Anthropic che ha superato GPT-4 di OpenAI, strappandogli il titolo di “miglior” modello di linguaggio disponibile sul mercato. Questo sviluppo è il risultato degli ultimi dati emersi dal benchmark LMSYS, un’iniziativa congiunta di UC Berkley, UC San Diego e Carnegie Mellon University, volta a valutare le prestazioni degli LLM attraverso l’Arena Chatbot, che utilizza valutazioni umane e il sistema di rating Elo per stabilire una classifica.

Claude 3 Opus ha ottenuto un punteggio di 1253, sorpassando di stretta misura GPT-4, che si è attestato a 1251. Questo margine, seppur limitato, ha determinato il superamento di GPT-4, fino ad ora considerato il punto di riferimento nel campo. Altrettanto degna di nota è la prestazione di Claude 3 Haiku, un modello di minori dimensioni che, nonostante una capacità computazionale esponenzialmente inferiore rispetto a Opus, è riuscito a classificarsi al settimo posto, guadagnandosi un posto nella categoria di prestazione denominata “GPT-4”. Quest’ultimo aspetto sottolinea l’efficacia dei modelli più piccoli in compiti mirati, sfidando l’idea che solo i modelli di grandi dimensioni possano eccellere.

L’imminente contrattacco di OpenAI con GPT-5

Nonostante il successo di Anthropic, il dominio di Claude-3 potrebbe essere di breve durata. Recentemente, fonti interne a OpenAI hanno suggerito che il lancio di GPT-5 è imminente, previsto per la metà dell’anno in corso. Questo nuovo modello promette di eclissare GPT-4, grazie all’introduzione di “agenti IA esterni” per l’esecuzione di compiti specifici, migliorando così la velocità e l’efficacia nella risoluzione di problemi complessi.

In conclusione, il superamento di GPT-4 da parte di Claude-3 segna un momento di svolta nel settore degli LLM, tuttavia, l’arrivo di GPT-5 potrebbe presto rimescolare le carte, dimostrando la natura dinamica e in rapida evoluzione di questo ambito tecnologico.