Selon les informations publiées par WIRED, de nombreux sites Web aux États-Unis ont commencé à bloquer la fonction d'instantané de la Wayback Machine d'Internet Archive, c'est-à-dire que la Wayback Machine n'est plus autorisée à capturer les pages de ces sites Web d'information et à les archiver. La raison en est que les robots d’exploration IA capturent des données et les utilisent pour entraîner des modèles.

Le boom actuel de l'intelligence artificielle a entraîné une baisse significative du trafic sur les sites Web, et les sociétés d'IA trouvent des moyens de contourner les restrictions et d'explorer illégalement le contenu des sites Web, et finalement d'utiliser les données capturées pour les robots conversationnels de l'IA ou pour former des modèles d'intelligence artificielle ultérieurs.
Pour les sites Web, ce comportement implique l’exploration et l’utilisation du contenu sans autorisation, ce qui entraînera une baisse du trafic sur le site Web. Par conséquent, de nombreux sites Web ont explicitement interdit aux robots de recherche à intelligence artificielle d’explorer les données de sites Web dans robots.txt.
Internet Archive et ses utilisateurs ont été tués par erreur :
Afin de protéger leurs droits et intérêts légitimes, de nombreux médias d'information bien connus, dont USA Today, le New York Times, etc., ont bloqué la machine à voyager dans le temps du site Internet Archive. Ces sites Web d'actualités excluent le robot d'exploration ia_archiverbot, qui est le robot utilisé par Internet Archive.
En plus des médias d'information, les forums en ligne tels que Reddit interdisent également à Internet Archive d'explorer le contenu. Reddit a signé des accords de licence avec Google et OpenAI pour permettre à ces entreprises d'explorer les données et de les utiliser pour entraîner des modèles d'intelligence artificielle. Au moins pour Reddit, si Internet Archive est autorisé à explorer les données et que les sociétés d'IA explorent ensuite les données d'Internet Archive, elles ne pourront peut-être pas continuer à vendre des données.
Le problème est qu’une grande partie du contenu n’existe pas de manière permanente. L'importance de la machine à voyager dans le temps du site Web est que vous pouvez afficher les modifications apportées au contenu de la page Web et continuer à parcourir le contenu via des instantanés lorsque la page Web est supprimée. Ceci est très important pour de nombreux utilisateurs.
Par conséquent, dans le cadre de l'engouement pour l'IA, les médias d'information qui empêchent Internet Archive d'explorer les données sont en fait un homicide involontaire contre Internet Archive et ses utilisateurs : afin de bloquer les sociétés d'IA, puis de bloquer les utilisateurs qui utilisent normalement les fonctions associées.
USA Today a déclaré que cela ne visait pas Internet Archive :
Un porte-parole d'USA Today a déclaré que le blocage du contenu exploré par Internet Archive ne cible pas spécifiquement Internet Archive. L'entreprise prévoit normalement de bloquer tous les robots d'exploration Web.
Le directeur des affaires commerciales et des licences du Guardian a déclaré que la société communiquait avec Internet Archive pour discuter d'une éventuelle utilisation abusive des sociétés d'intelligence artificielle pour explorer le contenu à des fins de préservation (mais il n'y a pas encore de résultat clair).
À en juger par cette situation, de plus en plus de médias pourraient bloquer Internet Archive à l'avenir pour empêcher leur contenu d'être exploré par des sociétés d'IA via Internet Archive. En dernière analyse, la cause profonde reste ces sociétés d’IA.
Il n’est pas rare que ces sociétés d’IA explorent du contenu sans autorisation et explorent du contenu à haute fréquence. En fin de compte, cela pourrait changer le paysage de l’Internet ouvert, permettant à davantage de sites Web de passer de l’accès public à l’accès par connexion enregistrée ou même à l’accès payant.