Google ha compiuto un ulteriore, significativo passo avanti nel settore dell’intelligenza artificiale con l’introduzione di Gemini 1.5, l’ultima evoluzione del suo modello linguistico di ampie dimensioni. Quest’annuncio arriva a distanza di soli sette giorni dalla presentazione di Gemini 1.0 Ultra, la versione precedente del modello, evidenziando un’accelerazione nello sviluppo di tecnologie sempre più avanzate. Gemini 1.5 si distingue per le sue eccezionali prestazioni e funzionalità innovative, come dettagliato in un articolo sul blog ufficiale di Google, con il plauso del CEO Sundar Pichai per i miglioramenti apportati sia in termini di efficienza che di comprensione del contesto.
La prima versione a essere rilasciata, Gemini 1.5 Pro, promette di eguagliare le prestazioni della versione Ultra attuale, pur operando con un dispendio inferiore di risorse computazionali. Questo risultato è stato possibile grazie all’adozione di una nuova architettura denominata Mixture-of-Experts, che seleziona in modo selettivo i percorsi neurali ottimali in base all’input ricevuto.
Capacità contestuali espansive per analisi e sintesi avanzate
Forse l’aspetto più rivoluzionario di Gemini 1.5 Pro è l’ampliamento della sua finestra contestuale fino a un milione di token, un salto esponenziale rispetto ai limiti dei modelli precedenti. Per mettere in prospettiva, il modello Gemini 1.0 Pro gestiva fino a 32.000 token, mentre GPT-4 Turbo di OpenAI si fermava a 128.000. Un milione di token equivale, per dare un’idea della portata, a circa 10-11 ore di video o decine di migliaia di righe di codice analizzate simultaneamente.
Questa innovativa capacità permette a Gemini 1.5 Pro di elaborare, classificare e riassumere quantità imponenti di dati. Un esempio lampante è stato fornito da Google, che ha sottoposto al modello un documento di 402 pagine sulla missione Apollo 11, con il sistema in grado di identificare e ragionare su elementi significativi menzionati nel testo. La stessa profondità di analisi si estende ai contenuti multimediali, come dimostrato dallo studio di un film muto di 44 minuti, durante il quale il modello ha evidenziato dettagli e trame con precisione.
Le funzionalità di Gemini 1.5 Pro non si limitano all’analisi testuale e multimediale, ma si estendono anche al problem solving e alla comprensione di codice di programmazione, con il modello che ha dimostrato di poter apportare modifiche valide e spiegare il funzionamento di ampie porzioni di codice dopo averne analizzato 100.000 righe.
Attualmente, l’accesso a Gemini 1.5 Pro è riservato agli utenti aziendali e agli sviluppatori attraverso le piattaforme Vertex AI e AI Studio di Google. La versione preliminare con la finestra contestuale estesa viene offerta in test gratuito a un numero limitato di sviluppatori e clienti enterprise, con piani futuri di renderla disponibile a pagamento per un pubblico più ampio. La sfida per Google ora è quella di bilanciare latenza e prestazioni di fronte a volumi di dati così imponenti, ma il potenziale per lo sviluppo di nuove applicazioni appare senza dubbio promettente.