Quando Apple ha lanciato Siri per la prima volta nel 2011 insieme all’iPhone 4S, l’azienda ha creato una serie di spot pubblicitari molto accattivanti che mostravano come utilizzare questo nuovo assistente vocale. In uno di questi, Zooey Deschanel chiede al suo telefono informazioni sulla consegna della zuppa di pomodoro; in un altro, John Malkovich chiede consigli esistenziali sulla vita. C’è anche uno spot con Martin Scorsese che riorganizza il suo programma dal retro di un taxi di New York. Questi spot mostravano promemoria, previsioni meteo, sveglie e altro ancora. Il messaggio era chiaro: Siri era un compagno utile e costante, in grado di affrontare qualsiasi necessità senza bisogno di app o tocchi. Bastava chiedere.
Siri rappresentava una grande innovazione per Apple. Durante l’evento di lancio del 4S, Phil Schiller di Apple dichiarò che Siri era la miglior funzione del nuovo dispositivo. “Per decenni, i tecnologi ci hanno fatto sognare la possibilità di parlare con la tecnologia e ottenere risposte,” disse Schiller. “Ma non è mai diventato realtà!” Tutto ciò che vogliamo davvero fare, disse, è parlare con il nostro dispositivo in qualsiasi modo vogliamo e ottenere informazioni e assistenza. Con la classica audacia di Apple, Schiller proclamò che l’azienda aveva risolto il problema.
La delusione di Siri
Apple non aveva risolto il problema. Nei tredici anni trascorsi dal lancio iniziale, Siri è diventata, per la maggior parte delle persone, solo un modo per impostare timer o una funzione inutile da evitare. Siri è stata inefficace per così tanto tempo che sembrava che Apple l’avesse dimenticata o avesse scelto di far finta che non esistesse.
Ma la prossima settimana al WWDC, se le voci e i rapporti sono veri, potremmo finalmente incontrare la vera Siri, o almeno una versione molto più vicina a essa. Secondo Bloomberg, The New York Times e altri, Apple sta per svelare una grande revisione dell’assistente, rendendo Siri più affidabile grazie ai modelli linguistici avanzati, anche se senza molte nuove funzionalità. Anche questo sarebbe un successo. Ma Apple sembra anche lavorare su una versione di Siri che sarà effettivamente integrata all’interno delle app, consentendo all’assistente di agire sul dispositivo per conto dell’utente. In teoria, almeno, qualsiasi cosa si possa fare sul telefono, Siri potrebbe presto essere in grado di farla per noi.
Questa è stata chiaramente la visione per Siri fin dall’inizio. Si può vedere anche in quegli spot dell’iPhone 4S: le celebrità chiedono aiuto a Siri, ma Siri quasi mai completa il lavoro. Fornisce a Deschanel un elenco di ristoranti che offrono consegne, ma non le propone di ordinare nulla o mostrarle il menu. Dice a Scorsese che c’è traffico, ma non gli offre un percorso alternativo — e non dovrebbe già sapere che sarà in ritardo per il suo appuntamento? Siri dice a Malkovich di essere gentile con le persone e leggere un buon libro, ma non offre alcun aiuto pratico. Finora, usare Siri è come avere un assistente virtuale il cui unico compito è cercare cose su Google per te. Che è qualcosa, ma non molto.
Le sfide tecnologiche e le opportunità dei modelli linguistici
Ci sono davvero due ragioni per cui Siri non ha mai raggiunto il suo potenziale. La prima è semplice: la tecnologia di base non era abbastanza buona. Se hai usato Siri, sai quanto spesso sbaglia a interpretare i nomi, fraintende i comandi e ricorre a “ecco alcune informazioni trovate sul web” quando tutto ciò che volevi era riprodurre un podcast. È qui che i modelli linguistici avanzati sono decisamente entusiasmanti, perché abbiamo visto quanto migliorino gli strumenti di riconoscimento vocale come Whisper e quanto più ampiamente questi modelli possano comprendere il linguaggio. Non sono perfetti, ma rappresentano un enorme miglioramento rispetto a ciò che avevamo prima — motivo per cui anche Amazon sta orientando Alexa verso i modelli linguistici avanzati e l’Assistente Google sta adottando Gemini.
La seconda ragione per cui Siri non ha mai funzionato come dovrebbe è che né Apple né gli sviluppatori di terze parti hanno mai capito come dovrebbe funzionare. Come dovresti sapere cosa può fare Siri o come chiedere? Come dovrebbero integrarsi gli sviluppatori con Siri? Anche ora, se vuoi aggiungere un’attività alla tua app di liste di cose da fare, Siri non può semplicemente capire quale app utilizzi. Devi dire: “Ehi Siri, ricordami di annaffiare l’erba in Todoist”, una frase strana che non ha senso e, nella mia esperienza, fallisce la metà delle volte. Se vuoi eseguire un’azione multistep, l’unica opzione è trafficare con Shortcuts, che è uno strumento molto potente ma che richiede quasi di scrivere codice. È troppo per la maggior parte delle persone.
L’intelligenza artificiale potrebbe anche offrire a Apple l’opportunità di risolvere il problema. I suoi ricercatori hanno pubblicato un documento all’inizio di quest’anno dettagliando un sistema chiamato Ferret-UI, che utilizza un modello AI per comprendere piccoli dettagli di un’immagine sullo schermo. I ricercatori descrivono persino come potrebbe funzionare un’app generale utilizzando Siri: GPT-4 di OpenAI fa un buon lavoro nel comprendere ampiamente cosa sia un’immagine, e poi Ferret è in grado di comprendere piccole regioni e dettagli. In pratica, ciò potrebbe significare che un sistema dice: “Questa è l’app Ticketmaster!” e l’altro dice: “Quello lì è il pulsante di acquisto.”
Una Siri migliorata in arrivo?
Dovremmo essere scettici riguardo a qualsiasi affermazione fatta da Apple su Siri. Più di dieci anni fa, Schiller dichiarò sul palco che Apple aveva costruito un assistente vocale migliore, e non era vero. Lo stesso potrebbe essere vero ora, poiché l’hype per l’AI continua a muoversi molto più velocemente della tecnologia reale. Humane, Rabbit, Google e altri stanno tutti lavorando su idee simili — “agente” è la parola d’ordine dell’estate nel mondo dell’AI — e nessuno ha dimostrato che sia pronto.
Ma se Apple ha risolto qualcosa qui, questa potrebbe essere la prima volta che vedremo la vera Siri — la Siri che ci era stata promessa tutti quegli anni fa. Forse nel prossimo spot, la zuppa di pomodoro di Deschanel apparirà magicamente a casa sua, e l’app Headspace si attiverà per portare a Malkovich un po’ di pace interiore. Forse, finalmente, otterremo la Siri che Apple ha sempre voluto creare.