L’abilità dei chatbot come ChatGPT nel rilevare informazioni private da testi apparentemente innocui è al centro dell’attenzione secondo uno studio dell’ETH di Zurigo.
In quella che viene presentata come una ricerca senza precedenti, il team svizzero ha evidenziato come i modelli linguistici avanzati (o LLM) possano riconoscere una serie di informazioni personali come genere, reddito e ubicazione da testi raccolti dai social media.
“Questi modelli linguistici hanno la potenzialità di rivelare informazioni personali in una misura mai vista prima”, ha dichiarato Robin Staab, ricercatore presso il Secure, Reliable, and Intelligent Systems Lab all’ETH di Zurigo, e co-autore del report “Beyond Memorization: Violating Privacy via Inference with Large Language Models”, pubblicato su arXiv.
Secondo Staab, sebbene gli sviluppatori di chatbot lavorino per garantire la privacy, l’enorme quantità di dati su cui questi modelli vengono addestrati li rende suscettibili a rivelare dettagli privati. “Estraendo tutti i post online di un utente e inviandoli a un LLM pre-addestrato”, ha affermato Staab, “gli autori malintenzionati possono dedurre informazioni private che non avrebbero mai dovuto essere divulgate dagli utenti”.
Un criminale informatico, spiega Staab, potrebbe utilizzare questi modelli per analizzare i post online di un individuo, estrapolando informazioni che l’utente non aveva intenzione di condividere pubblicamente. Staab sottolinea che con pochi dati, come ubicazione, genere e data di nascita, si potrebbe potenzialmente identificare fino alla metà della popolazione statunitense. Con queste informazioni, potrebbero emergere minacce come campagne di marketing mirate, o, nel peggiore dei casi, criminalità e stalking.