En lisant plus de 10 000 volumes, des documents judiciaires montrent qu'Anthropic a détruit des millions de livres physiques pour former AI

L’IA générative a longtemps été critiquée pour ses problèmes de fiabilité bien connus, son énorme consommation d’énergie et son utilisation non autorisée de matériel protégé par le droit d’auteur. Aujourd’hui, une récente affaire judiciaire a révélé que la formation de ces modèles d’IA implique également la destruction massive de livres physiques.

Caché dans un récent verdict contre Anthropic se cache un détail surprenant : la société génératrice d’IA a détruit des millions de livres physiques, coupant les reliures et jetant les restes, afin de former ses assistants à l’intelligence artificielle. Il convient de noter que cette destruction a été considérée comme un facteur dans la décision finale du tribunal en faveur d’Anthropic.

Pour construire son modèle de langage et son concurrent ChatGPT Claude, Anthropic s'est formé sur autant de livres que possible. L’entreprise a acheté des millions de livres physiques et les a numérisés en déchirant et en numérisant les pages, les détruisant ainsi définitivement.

De plus, Anthropic n'a pas l'intention de publier publiquement la version numérique finale. Ce détail a contribué à convaincre le juge que la numérisation et le grattage des livres constituaient une conversion suffisante pour être qualifiée d'usage loyal. Bien que Claude puisse utiliser des bibliothèques numérisées pour générer un contenu unique, les critiques soulignent que les grands modèles de langage peuvent parfois reproduire le contenu textuellement en fonction de leurs données de formation.

La victoire juridique partielle d’Anthropic lui permet de former des modèles d’IA à l’aide de livres protégés par le droit d’auteur sans en informer l’éditeur ou l’auteur d’origine, éliminant ainsi potentiellement l’un des plus grands obstacles auxquels est confrontée l’industrie de l’IA générative. Un ancien cadre de Metal a récemment admis que l'IA mourrait du jour au lendemain si elle était nécessaire pour se conformer aux lois sur le droit d'auteur, probablement parce que les développeurs perdraient l'accès aux grandes quantités de données nécessaires à la formation de grands modèles de langage.

Cependant, les conflits persistants en matière de droits d’auteur constituent toujours une menace importante pour la technologie. Plus tôt ce mois-ci, le PDG de Getty Images a admis que l'entreprise ne pouvait pas se permettre de lutter contre toutes les violations des droits d'auteur liées à l'IA. Pendant ce temps, le procès intenté par Disney contre Midjourney – dans lequel la société a démontré la capacité du générateur d’images à copier du contenu protégé par le droit d’auteur – pourrait avoir des ramifications importantes pour l’écosystème plus large de l’IA générative.

Cela étant dit, le juge dans l'affaire Anthropic s'est prononcé contre l'entreprise parce qu'elle s'appuyait en partie sur une bibliothèque de livres piratés pour former Cloud. Anthropic fait toujours face à un procès pour atteinte aux droits d'auteur en décembre, où l'entreprise pourrait être tenue de payer jusqu'à 150 000 dollars pour chaque œuvre piratée.