Gli innovatori di Apple hanno recentemente lanciato MGIE, un avanzato modello di intelligenza artificiale, ora accessibile open-source, che promette di trasformare il modo in cui modifichiamo le immagini. MGIE, acronimo di “MLLM-Guided Image Editing”, sfrutta i modelli di linguaggio multimodale di grandi dimensioni (MLLM) per comprendere le istruzioni in linguaggio naturale degli utenti e attuare modifiche precise a livello di pixel. Questa tecnologia permette un’ampia gamma di interventi sulle immagini, dalle regolazioni globali come la luminosità, il contrasto e la nitidezza, fino all’introduzione di effetti artistici quali lo schizzo.
MGIE dimostra una versatilità eccezionale nell’editing fotografico, abilitando sia miglioramenti globali che interventi localizzati. Tra i miglioramenti globali si annoverano l’ajustamento di luminosità, contrasto, nitidezza, e l’applicazione di effetti artistici. Per quanto riguarda l’editing locale, MGIE può modificare forma, dimensione, colore o texture di specifiche aree o oggetti all’interno dell’immagine. Inoltre, il modello offre funzionalità avanzate comparabili a quelle di Photoshop, come il ritaglio, il ridimensionamento, la rotazione, l’applicazione di filtri, la sostituzione di sfondi e la fusione di immagini.
Versatilità e precisione
Un esempio pratico dell’efficacia di MGIE si può osservare nell’editing di una fotografia di una pizza, dove il modello è capace di aggiungere elementi come pomodori e verdure per renderla visivamente più salutare, o di intensificare il contrasto per simulare una maggiore illuminazione. MGIE può anche rimuovere persone dallo sfondo di una foto, mettendo in risalto l’espressione del soggetto principale.
Presentato alla conferenza ICLR 2024, MGIE è ora disponibile su GitHub, completo di codice, dati e modelli pre-addestrati. Questo rappresenta il secondo grande traguardo di Apple nella ricerca sull’intelligenza artificiale in breve tempo, seguito dall’innovativa tecnica per utilizzare modelli linguistici su dispositivi con capacità di memoria limitata.
Crescono le speculazioni su uno sviluppo in corso da parte di Apple di un “Apple GPT“, potenziale concorrente di ChatGPT. Secondo vari analisti e rumors, la società potrebbe integrare una funzionalità di intelligenza artificiale generativa in iPhone e iPad entro la fine del 2024, coincidendo con il lancio di iOS 18. Si preannuncia che questa potrebbe essere la più significativa evoluzione software nella storia dell’iPhone, arricchendo Siri con capacità paragonabili a quelle di ChatGPT. L’impegno di Apple nell’esplorazione e nell’innovazione nel campo dell’intelligenza artificiale è evidente attraverso una serie di mosse strategiche, incluse numerose acquisizioni di startup IA. Con 32 startup acquisite entro il 2023, Apple si posiziona al vertice tra i colossi tecnologici in termini di investimenti nel settore IA, superando Google, Meta e Microsoft.