VASA-1, la nuova IA di Microsoft che crea video deepfake da una singola foto: le impressionanti clip

Microsoft Research Asia ha recentemente svelato il modello AI chiamato Vasa-1, capace di creare video deepfake estremamente realistici partendo da risorse limitate, quali una singola fotografia e un file audio. Questa avanzata tecnologia, denominata Vasa-1 (Visual Affective Skills Animator), mira a facilitare la creazione di avatar realistici per interazioni in tempo reale, emulando comportamenti umani tipici delle conversazioni. Il processo si basa sull’apprendimento automatico per sincronizzare movimenti del volto e del capo in modo naturale, compreso il sincronismo labiale.

3. Realism and liveliness – example 2 pic.twitter.com/7nVrTtDUmM

— Min Choi (@minchoi) April 18, 2024

Un esempio illustrativo di questa tecnologia mostra una ragazza che, guardando direttamente in camera, parla con una mimica facciale sorprendentemente espressiva e naturale. Il modello è anche capace di generare discorsi con differenti espressioni facciali applicate a vari volti, partendo sempre dalla stessa immagine di base. Inoltre, l’intelligenza artificiale di Microsoft ha dimostrato la sua versatilità animando immagini iconiche come la Gioconda, che viene rappresentata mentre canta in stile rap.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) April 18, 2024

Contesto competitivo e sviluppi simili

La presentazione di Vasa-1 segue altri sviluppi significativi nel campo dei video generati da AI, come l’Emote Portrait Alive di Alibaba e il modello Sora di OpenAI, entrambi in grado di produrre contenuti video realistici da semplici prompt testuali. Vasa-1, che è stato addestrato utilizzando video pubblici su YouTube, supporta la creazione di video a risoluzione 512×512 pixel, con una velocità di 40 frame al secondo e minima latenza, rendendolo ideale per videoconferenze e interazioni virtuali in diretta.

Nonostante l’enorme potenziale di Vasa-1, emergono preoccupazioni legate alla difficoltà crescente nel distinguere tra contenuti autentici e quelli generati da intelligenza artificiale. La capacità di generare deepfake credibili solleva questioni etiche e pratiche, specie nel contesto della lotta contro le fake news e la disinformazione. Attualmente, Vasa-1 rimane un progetto sperimentale e il suo codice non è stato reso pubblico, evidenziando la necessità di sviluppare contemporaneamente strumenti per riconoscere più facilmente i contenuti AI-generati.