Les éditeurs de Wikipédia adoptent une politique de « suppression rapide » pour les articles de spam générés par intelligence artificielle

Les éditeurs de Wikipédia viennent d'introduire une nouvelle politique pour les aider à faire face à l'afflux d'articles générés par l'IA qui inondent l'encyclopédie en ligne. La nouvelle politique donne aux administrateurs la possibilité de supprimer rapidement les articles générés par l'IA qui répondent à certains critères. Non seulement cela est crucial pour Wikipédia, mais cela fournit également à la plateforme un exemple important de la manière de gérer le chaos croissant provoqué par l’intelligence artificielle.

Wikipédia est maintenu par une communauté mondiale collaborative de contributeurs et d'éditeurs bénévoles, et ce qui en fait une source d'informations fiable réside en partie dans le fait que cette communauté passe beaucoup de temps à discuter, délibérer et débattre de tout ce qui se passe sur la plateforme, qu'il s'agisse de modifications apportées à des articles individuels ou des politiques qui régissent ces modifications. Il est normal de supprimer un article Wikipédia entier, mais le processus de suppression principal implique généralement une période de discussion d'une semaine, au cours de laquelle les utilisateurs de Wikipédia tentent de parvenir à un consensus sur l'opportunité de supprimer l'article.

Cependant, pour traiter les problèmes courants qui violent clairement les politiques de Wikipédia, Wikipédia dispose également d'un processus de « suppression rapide », dans lequel une personne signale un article, un administrateur vérifie s'il remplit certaines conditions, puis supprime l'article sans période de discussion.

Par exemple, les entrées composées uniquement de charabia hallucinatoire, de texte dénué de sens ou de ce que Wikipédia appelle des « absurdités » peuvent être signalées pour une suppression rapide. Il en va de même pour les entrées qui ne sont que de la publicité et n'ont aucune valeur encyclopédique. Si quelqu’un marque un article pour le supprimer parce qu’il « n’est probablement pas remarquable », il s’agit d’une évaluation plus subjective qui nécessite une discussion approfondie.

Actuellement, les articles marqués comme générés par l'IA par les éditeurs de Wikipédia appartiennent pour la plupart à cette dernière catégorie, car les éditeurs ne sont pas entièrement sûrs s'ils ont été générés par l'IA. Ilyas Lebleu est un membre fondateur du Wikipedia AI Cleanup Project et un éditeur qui a contribué à la politique récemment adoptée sur les articles générés par l'IA et leur suppression rapide. C’est, m’a-t-il dit, la raison pour laquelle les propositions précédentes visant à réglementer les articles générés par l’IA sur Wikipédia ont connu des difficultés.

"Bien qu'il soit facile de dire que quelque chose est généré par l'IA (par exemple, un choix de mots, des tirets, des listes à puces avec des titres en gras, etc.), les signes ne sont souvent pas si évidents, et nous ne voulons pas supprimer par erreur du contenu simplement parce qu'il ressemble à de l'IA", m'a expliqué LeBrew dans un e-mail. "Dans l'ensemble, la montée en puissance du contenu facilement généré par l'IA a été décrite comme une "menace existentielle" pour Wikipédia : puisque nos processus sont orientés vers des discussions (souvent longues) et la recherche d'un consensus, la capacité de générer rapidement de grandes quantités de faux contenus est problématique si nous n'avons pas un moyen de le supprimer rapidement. Bien sûr, le contenu de l'IA n'est pas unique et les humains sont parfaitement capables d'écrire du mauvais contenu, mais certainement pas à la même vitesse. Nos outils sont conçus pour une échelle complètement différente. "

La solution proposée par les Wikipédiens est de permettre la suppression rapide des articles clairement générés par l'intelligence artificielle et qui remplissent à peu près deux conditions. Premièrement, l’article contient du contenu « conçu pour communiquer avec les utilisateurs ». Il s'agit d'un langage dans l'article qui est clairement un grand modèle de langage (LLM) répondant aux invites de l'utilisateur, telles que « Ceci est votre article Wikipédia sur... », « Depuis ma dernière mise à jour de formation... » et « En tant que grand modèle de langage ». Cela indique clairement que l’article a été généré par un grand modèle de langage, une approche que nous avons également utilisée précédemment pour identifier les publications sur les réseaux sociaux et les articles scientifiques générés par l’IA.

Lebleu m'a dit avoir vu ces situations « plusieurs fois », et plus important encore, dit-il, elles indiquent que les utilisateurs n'ont même pas lu les articles qu'ils ont soumis.

"Si les utilisateurs ne vérifient pas ces éléments de base, nous pouvons supposer sans risque qu'ils n'ont vérifié rien de ce qu'ils ont copié et collé, et c'est aussi inutile qu'un bruit blanc", ont-ils déclaré.

Une autre condition qui entraîne la suppression rapide des articles générés par l'IA est si leurs références sont manifestement fausses, ce qui est une autre erreur que les grands modèles de langage (LLM) sont enclins à commettre. Cela peut inclure l'inclusion de liens externes vers des livres, des articles ou des documents scientifiques qui n'existent pas et ne peuvent pas être analysés, ou des liens vers des contenus totalement sans rapport. La nouvelle politique de Wikipédia donne un exemple : « Un article sur une espèce de coléoptère est cité dans un article informatique. »

Lebleu a déclaré que la suppression rapide est une « mesure provisoire » qui résout les problèmes les plus évidents, et que les problèmes d’IA persisteront car de plus en plus de contenu généré par l’IA ne répond pas aux nouvelles conditions d’une suppression rapide. Ils ont également noté que l’IA pourrait être un outil utile qui pourrait apporter une force positive à Wikipédia à l’avenir.

"Cependant, la situation actuelle est très différente, et les spéculations sur l'avenir de la technologie dans les prochaines années peuvent facilement nous détourner de la résolution des problèmes actuels", ont-ils déclaré. "L'un des piliers clés de Wikipédia est que nous n'avons pas de règles établies, et toutes les décisions que nous prenons aujourd'hui pourraient être revues dans quelques années à mesure que la technologie évolue."

LeBrew a déclaré que la nouvelle politique laisserait Wikipédia dans une meilleure position qu'avant, mais qu'elle n'était pas parfaite.

La bonne nouvelle (outre la suppression rapide) est que nous avons officiellement publié une déclaration concernant les articles générés par de grands modèles linguistiques. Cela a été un point de discorde au sein de la communauté : alors que la grande majorité s’oppose au contenu de l’IA, la manière exacte de le gérer a été un point de discorde, et les premières tentatives d’élaboration d’une politique globale ont échoué. Ici, sur la base des progrès antérieurs sur les images, les brouillons et les commentaires de discussion de l'IA, nous avons discuté d'une norme plus spécifique, mais qui stipule explicitement que le contenu non modéré d'un grand modèle de langage est spirituellement incompatible avec Wikipédia.

Articles connexes :

Wikipédia suspend le projet pilote de synthèse de l'IA après les protestations des éditeurs