Gracenote, propriété de Nielsen, poursuit OpenAI pour violation présumée de la saisie des médias metadata

Gracenote, une société de services de métadonnées et d'identification de contenu appartenant à Nielsen, a intenté une action en justice contre OpenAI devant la Cour fédérale américaine du district sud de New York, accusant la société d'intelligence artificielle d'avoir exploré et utilisé sa base de données de métadonnées multimédias et son cadre unique d'association de données à grande échelle sans autorisation et sans payer de frais, pour former de grands modèles de langage prenant en charge des produits commerciaux tels que ChatGPT, ce qui constitue une grave violation du droit d'auteur et met en danger son activité principale.

Gracenote a déclaré dans la plainte qu'elle s'est appuyée sur des centaines d'éditeurs au fil des ans pour éditer et annoter manuellement le contenu des films, de la télévision, de la musique et du sport dans le monde entier, et qu'elle a établi une « base de données de programmes » qui comprend des introductions de programmes, des descriptions de fonctionnalités vidéo, des identifiants de contenu uniques et des graphiques de relations complexes, et qu'elle a terminé son enregistrement auprès du Bureau américain du droit d'auteur. L'entreprise estime que cette base de données contient non seulement un contenu textuel spécifique, mais comprend également une conception structurelle exclusive pour classer, associer et organiser différentes œuvres. Ce « cadre relationnel » est une source de valeur importante pour ses services destinés aux entreprises clientes telles que les plateformes de streaming multimédia et les fabricants de téléviseurs intelligents.

La plainte indique qu'OpenAI a exploré et assimilé les données ci-dessus sans autorisation, et lorsque les utilisateurs ont posé des questions via ChatGPT, il a produit une description très similaire, voire totalement cohérente, avec l'introduction du programme Gracenote, de manière quasi textuelle. Les exemples fournis par Gracenote incluent lorsqu'un utilisateur a demandé à ChatGPT de décrire la série télévisée populaire Game of Thrones, et le modèle a proposé un contenu presque identique à la version écrite par les éditeurs de Gracenote. La société a également déclaré que plusieurs versions de ChatGPT étaient capables de réciter de grandes parties de descriptions de programmes dans sa base de données avec très peu de mots d'invite, ce qui indique que le texte pertinent et sa structure organisationnelle sous-jacente avaient été directement copiés et intégrés dans le modèle.

Gracenote a proposé que l'utilisation non autorisée par OpenAI de ses métadonnées et de son cadre relationnel non seulement violait les structures de textes et de bases de données protégées par le droit d'auteur, mais offrait également aux distributeurs de contenu multimédia et aux fabricants d'équipements la possibilité de créer des services de métadonnées alternatifs basés sur des « données explorées librement », affaiblissant ainsi directement la compétitivité sur le marché des produits similaires de Gracenote. La plainte prévient que si un tel comportement ne peut pas être arrêté et corrigé, les fabricants de terminaux tels que les téléviseurs intelligents peuvent s'appuyer sur des données « dérivées de manière inverse » des modèles d'IA pour créer leurs propres plates-formes de métadonnées qui concurrencent Gracenote sans avoir à payer de frais de licence.

En termes de réclamations, Gracenote s'appuie sur le fait que sa base de données a été enregistrée auprès du US Copyright Office et, en plus de demander une compensation pour les pertes réelles, elle demande également des dommages-intérêts légaux pour faire face à ce qu'elle prétend être une violation continue et à grande échelle. Les dommages-intérêts dits légaux font référence à un montant fixe ou variable prédéterminé par la loi pour des types spécifiques de violation du droit d'auteur, tandis que les dommages-intérêts réels sont utilisés pour indemniser le titulaire du droit pour les pertes économiques réelles subies en raison de la violation.

En réponse à une interview avec Axios, un porte-parole d'OpenAI a déclaré que ses modèles « permettent l'innovation » et sont formés sur des « données accessibles au public » et soutenus par « une utilisation équitable ». De nombreuses sociétés d'IA, y compris OpenAI, ont toujours soutenu que les modèles de formation en explorant le contenu public de l'Internet sont conformes à la détermination de l'utilisation équitable en vertu de la loi américaine actuelle sur le droit d'auteur, au motif que ces données peuvent fournir aux utilisateurs des services et des informations nouveaux et utiles après avoir été transformées par le modèle.

Une autre raison pour laquelle le procès de Gracenote attire l’attention est que l’entreprise a toujours été ouverte à la coopération avec les sociétés d’IA et a conclu plusieurs accords de licence de données liées à l’IA avec Samsung, Google et d’autres sociétés. Gracenote a déclaré dans la plainte qu'elle avait contacté OpenAI à plusieurs reprises pour discuter de questions de licence, mais qu'elle avait été "à plusieurs reprises rejetée ou ignorée pendant une longue période" et qu'elle avait donc dû recourir à des litiges pour protéger ses droits et intérêts. Le PDG de l'entreprise, Jared Grusd, a souligné dans un communiqué que "soutenir le développement de l'IA et s'opposer au vol ne sont pas incompatibles. Ils constituent la seule voie vers le développement durable de l'industrie", affirmant que le procès vise à protéger cet avenir.

Les professionnels du droit estiment qu'avec les multiples litiges en matière de droits d'auteur entre les sociétés de médias et d'information et les sociétés d'IA en attente de décisions de justice, cette affaire est susceptible de devenir une référence importante pour les juges afin d'examiner si les « œuvres non traditionnelles » telles que les structures de bases de données et les cartes d'association de métadonnées peuvent obtenir une protection par le droit d'auteur et comment déterminer la « limite d'utilisation équitable des grands modèles ». Gracenote a souligné dans sa plainte qu'une grande partie du contenu produit par OpenAI est « presque identique » aux métadonnées qu'il a concédées sous licence à ses clients. Par conséquent, il ne dérive pas de nouvelles informations, mais constitue une copie substantielle du contenu existant. Cela deviendra l’un des principaux points de litige qui distinguera cette affaire des autres affaires de droit d’auteur sur l’IA.