Meta a récemment fait face à un procès pour violation de droits d'auteur concernant les risques juridiques liés à l'utilisation de milliers de livres piratés pour former des modèles d'intelligence artificielle.Il est rapporté que Meta a utilisé l'ensemble de données « Books3 » d'un grand nombre de livres piratés pour entraîner ses modèles LLAM1 et LLAM2. Bien que Meta ait admis avoir utilisé l'ensemble de données Books3, elle a refusé de verser une compensation appropriée aux auteurs.

Books3 est un ensemble de données textuelles contenant 195 000 livres d'une capacité totale de près de 37 Go. Il a été créé par le chercheur en IA Shawn Presser en 2020 pour fournir une meilleure source de données pour améliorer les algorithmes d'apprentissage automatique.

Meta l'utilise également pour former son propre modèle LLAM. Cependant, Books3 contient un grand nombre d'œuvres protégées par le droit d'auteur extraites du site Web piraté Bibliotik, ce qui expose les actions de Meta à un risque juridique.

Plusieurs entreprises technologiques ont fait l’objet de plaintes similaires cette année, les accusant de violer les droits d’auteur des artistes, auteurs et autres créateurs de contenu lors de la création de modèles d’IA génératifs.

En outre, de nouvelles règles temporaires de l’UE sur l’intelligence artificielle pourraient obliger les entreprises à divulguer les ensembles de données utilisés pour former les modèles, ce qui pourrait les exposer à des risques juridiques plus importants.