Merriam-Webster, il principale editore di dizionari inglesi, insieme alla sua società madre Encyclopedia Britannica, ha lanciato una battaglia legale contro OpenAI, il creatore del popolare chatbot AI ChatGPT. La causa accusa OpenAI di utilizzare illegalmente materiale protetto da copyright per addestrare il suo modello di intelligenza artificiale, sfruttando di fatto la proprietà intellettuale del dizionario.

Accuse principali: copia non autorizzata e riproduzione di output

Il nocciolo della denuncia è incentrato sull’affermazione secondo cui OpenAI ha raschiato oltre 100.000 articoli, voci di enciclopedia e definizioni di dizionario da fonti online senza autorizzazione. Questi dati sono stati poi utilizzati per addestrare ChatGPT, consentendogli di generare risposte che replicano direttamente o imitano fedelmente il contenuto originale protetto da copyright.

Secondo la causa, OpenAI viola il copyright in tre modi fondamentali:
1. Copia su larga scala di materiali protetti.
2. Utilizzo di questi contenuti per la formazione sull’intelligenza artificiale.
3. Generazione di output troppo simili al testo originale.

Deviazione del traffico e allucinazioni legate all’intelligenza artificiale

Merriam-Webster sostiene che la capacità di ChatGPT di riassumere le definizioni dei dizionari e altri contenuti cannibalizza il traffico dal proprio sito web, privando l’editore delle entrate. Inoltre, la causa sostiene che ChatGPT a volte produce “allucinazioni dell’intelligenza artificiale” – risposte inventate generate quando l’intelligenza artificiale non dispone di informazioni sufficienti – utilizzando i dati del dizionario come base ingannevole.

Il reclamo afferma inoltre che ChatGPT presenta spesso spiegazioni incomplete o imprecise omettendo selettivamente parti del contenuto del dizionario, fuorviando gli utenti nel processo.

Richieste legali e implicazioni

I querelanti chiedono un compensazione finanziaria per la presunta violazione del copyright e un’ingiunzione permanente per impedire a OpenAI di continuare queste pratiche.

Il caso è significativo perché mette alla prova i limiti del fair use nella formazione sull’intelligenza artificiale. In caso di successo, la causa potrebbe stabilire un precedente che costringerebbe gli sviluppatori di intelligenza artificiale a ottenere un permesso esplicito prima di utilizzare materiali protetti da copyright nei loro modelli, rimodellando potenzialmente il futuro dello sviluppo dell’intelligenza artificiale. OpenAI deve ancora rispondere alla causa.

Questo scontro legale evidenzia la crescente tensione tra i diritti di proprietà intellettuale e il rapido progresso delle tecnologie di intelligenza artificiale. Il risultato probabilmente stabilirà uno standard chiave su come i materiali protetti da copyright possono essere utilizzati nella formazione di modelli linguistici di grandi dimensioni.