Wikipédia tente d'empêcher les développeurs d'intelligence artificielle de copier la plateforme en publiant des ensembles de données spécifiquement optimisés pour la formation de modèles d'IA.La Fondation Wikimedia a annoncé mercredi son partenariat avec la plateforme communautaire de science des données de Google pour héberger des données d'apprentissage automatique.Kaggle collabore pour publier un ensemble de données bêta du « Contenu Wikipédia structuré en anglais et en français ».

Kaggle_SS_1920x1080_v3.width-1000.format-webp.webp

Wikipédia affirme que les ensembles de données hébergés par Kaggle sont « conçus en pensant aux flux de travail d'apprentissage automatique », ce qui permet aux développeurs d'IA d'accéder plus facilement aux données d'articles lisibles par machine pour la modélisation, le réglage fin, l'analyse comparative, l'alignement et l'analyse. Le contenu de l'ensemble de données est sous licence publique à compter du 15 avril et comprend des résumés d'études, de courtes descriptions, des liens d'images, des données d'infobox et des chapitres d'articles, mais n'inclut pas d'éléments non écrits tels que des références ou des fichiers audio.

Wikipédia affirme que les utilisateurs de Kaggle peuvent consommer « du contenu Wikipédia bien structuré au format JSON », ce qui devrait être plus attrayant que « l'exploration ou l'analyse du texte brut d'un article ». Les serveurs de Wikipédia sont actuellement soumis à une pression importante, car les robots IA automatisés continuent de consommer la bande passante de la plateforme. Wikipédia a déjà des accords de partage de contenu avec Google et Internet Archive, mais un partenariat avec Kaggle devrait rendre les données plus accessibles aux petites entreprises et aux data scientists indépendants.

« En tant qu'outil et plateforme de test pour la communauté du machine learning, Kaggle est ravi d'être la plateforme d'hébergement des données de la Wikimedia Foundation », a déclaré Brenda Flynn, responsable des partenariats chez Kaggle. "Kaggle est ravi de jouer un rôle pour garantir l'accessibilité, la convivialité et l'utilité de ces données."