In una recente presentazione, Apple ha svelato Ferret, il suo innovativo modello linguistico multimodale (LLM) open source. Questo strumento all’avanguardia è in grado di comprendere e generare testo, immagini, suoni e video, posizionandosi al pari di altri modelli di intelligenza artificiale come Gemini, ChatGPT e Google Bard.
Il progetto Ferret è il risultato della collaborazione tra Zhe Gan, ricercatore di intelligenza artificiale presso Apple, e altri esperti dell’azienda e della Columbia University. Durante la presentazione di ottobre, Gan ha messo in evidenza come Ferret superi GPT-4 di OpenAI, fino ad ora considerato il modello linguistico più avanzato, soprattutto nell’accuratezza nel descrivere dettagli minuti delle immagini, commettendo meno errori.
Il processo di addestramento di Ferret
Per addestrare Ferret, Apple ha impiegato otto potenti GPU Nvidia A100, note per essere tra le schede grafiche più performanti nel campo dell’intelligenza artificiale generativa. Queste GPU vantano 80 GB di RAM HBM2e e sono capaci di raggiungere prestazioni fino a 312 TeraFLOPS, grazie all’uso della precisione Tensor Float 32, un formato di dati frequentemente utilizzato in ambito IA.
Nonostante il successo iniziale, Apple si trova ancora nelle fasi iniziali dello sviluppo di Ferret nel campo dell’IA generativa. Uno degli obiettivi principali è rendere questo modello linguistico compatibile con gli smartphone. Attualmente, i modelli come GPT-4 di OpenAI, con più di un trilione di parametri, sono troppo complessi per essere eseguiti su smartphone, che possono gestire solo LLM con circa 10 miliardi di parametri. Per superare questo ostacolo, i ricercatori di Apple stanno esplorando modi innovativi per utilizzare la memoria flash integrata degli smartphone, in aggiunta alla RAM, per supportare modelli più grandi di quelli normalmente eseguibili su questi dispositivi. Questo progresso tecnologico apre la strada all’ipotesi che l’iPhone 16 potrebbe includere un assistente IA avanzato.
🚀🚀Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
📰https://t.co/gED9Vu0I4y
1⃣ Ferret enables referring of an image region at any shape
2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) October 12, 2023