Les données de formation à l’intelligence artificielle sont coûteuses et conviennent particulièrement aux entreprises technologiques aux poches profondes. C'est pourquoi l'Université Harvard prévoit de publier un ensemble de données publiques d'environ 1 million de livres du domaine public dans une variété de genres, de langues et d'auteurs, notamment Dickens, Dante et Shakespeare, qui ne sont plus protégés par le droit d'auteur en raison de leur âge.

Le nouvel ensemble de données n’a pas encore été publié et on ne sait pas quand ni comment il le sera. Les livres qu'il contient proviennent de Google Books, le projet de numérisation de livres à long terme de Google. Google sera donc impliqué dans la publication "des applications étendues de cette mine de livres".

L'Université de Harvard a présenté pour la première fois l'Institutional Data Initiative (IDI) en mars, décrivant ses projets visant à créer un « canal fiable pour les données juridiques de l'intelligence artificielle ». Cependant, il y a eu peu de nouvelles sur le programme jusqu'à son lancement officiel aujourd'hui, l'IDI recevant le soutien financier de Microsoft et d'OpenAI.

Greg Leppert, directeur exécutif de l'IDI, a déclaré que l'ensemble de données vise à « uniformiser les règles du jeu » en ouvrant un ensemble de données aussi massif à tous ceux qui souhaitent former de grands modèles de langage (LLM), des laboratoires de recherche aux startups d'IA.