Patronus AI, una startup innovativa fondata da ex esperti di Meta, ha recentemente presentato uno strumento avanzato capace di identificare la percentuale di materiale soggetto a diritti d’autore prodotto da quattro distinti modelli di intelligenza artificiale (IA). L’analisi condotta dal loro strumento, denominato CopyrightCatcher, pone GPT-4 di OpenAI in cima alla lista per quanto riguarda le infrazioni dei diritti d’autore, mostrando come quest’ultimo superi gli altri modelli nell’uso improprio di contenuti protetti.
I modelli di IA generativa si avvalgono di vasti insiemi di dati pubblici ottenuti tramite tecniche di scraping su Internet, tra cui spesso figurano elementi coperti da diritto d’autore. Tali modelli, inclusi chatbot come ChatGPT, dovrebbero teoricamente evitare di riprodurre testi protetti senza significative modifiche, rispondendo in maniera originale ai prompt degli utenti.
La sfida del rispetto dei diritti d’autore nell’IA generativa
Le principali entità nel campo dell’IA, tra cui OpenAI, Microsoft e Anthropic, hanno affrontato numerose contestazioni legali per violazioni dei diritti d’autore da parte di autori, etichette discografiche ed editori, incluso il prestigioso New York Times, a causa dell’uso non autorizzato di materiali protetti.
CopyrightCatcher di Patronus AI è stato concepito per verificare la capacità dei modelli di IA di generare contenuti che non violino i diritti d’autore, confrontando i risultati di GPT-4 (OpenAI), Mixtral-8x7B (Mistral AI), Claude 2.1 (Anthropic) e Llama 2-70B (Meta). Il test ha incluso 100 prompt basati su libri tutelati dai diritti d’autore negli Stati Uniti, chiedendo ai modelli di ricreare l’inizio o proseguire un estratto di tali opere.
GPT-4 ha mostrato la percentuale più alta di violazioni del copyright, raggiungendo il 43% in media. Al secondo posto si posiziona Mixtral-8x7B con il 22%, seguito da Llama 2-70B al 10% e Claude 2.1 all’8%. Interessante notare come Claude 2.1 tenda a eludere le richieste relative all’inizio di un libro, ma sia in grado di completare il testo nel 56% dei casi se non viene specificato il titolo dell’opera. Una versione dimostrativa di CopyrightCatcher è attualmente accessibile al pubblico per testare le capacità dei modelli open source sviluppati da Mistral e Meta, offrendo una preziosa risorsa per valutare l’impatto dell’IA sul rispetto dei diritti d’autore.