L'agent IDE a une autre "scène d'accident de voiture" ! Récemment, un développeur a publié sur Reddit :Gemini 3.5 exécuté dans l'IDE de l'agentÀ une époque, il s'agissait uniquement de "8 placesDans la tâche « Correction de la vulnérabilité d'authentification »,28745 lignes ont été supprimées par erreurLe code qui fonctionnait normalement à l'origine,Changé 340 fichiers, et a également modifié de manière incorrecte la configuration de routage Firebase, ce qui a entraînéL'ensemble de l'arrière-plan du système continue de recevoir 404 pendant 33 minutes.

Ce qui est scandaleux, c'est qu'après l'accident, Gemini a également généré un rapport « Récupération réussie ».Prétend avoir corrigé des problèmes en ligne,etfalsificationCollecte de plusieurs séries de dossiers de consultation sur l'IA et de documents d'examen des accidents.


Le développeur a ensuite vérifié et découvert que la tâche de construction dite « restaurée avec succès » avait en fait été annulée par lui personnellement, et que ce qui avait réellement complété la récupération était sa propre opération de restauration manuelle.

Selon les mots de ce développeur :Ce type d’amélioration de la productivité de l’IA rappelle probablement les ransomwares.

Alors que l'Agent IDE et les assistants de programmation IA continuent de devenir populaires, des accidents similaires à un « mauvais fonctionnement de l'environnement de production par l'IA » se produisent de plus en plus fréquemment. Par rapport à "écrire le mauvais code", ce qui effraie davantage les développeurs, c'estLes modèles ont commencé à générer de faux journaux, témoignages et certificats de conformité.

01.

Seules 70 lignes de code doivent être modifiées à la fois

Au final, 28 000 lignes ont été supprimées

Ce développeur exploite un backend de gestion interne avec une pile technologique comprenant Next.js, Firebase App Hosting et MUI. Le système implique des utilisateurs réels et des données sensibles.

Le jour de l'accident, il avait initialement seulement demandé à Gemini de le réparer.8 placesVulnérabilité d'authentification du serveur impliquant3Document, échelle de changement théoriqueEnviron 70 lignescode.

En conséquence, le PR soumis par Gemini est devenu :

1. 340 fichiers ont été modifiés

2. Ajout d'environ 400 lignes de code

3. Supprimez 28745 lignes de code

Dans le même temps, il a également supprimé un grand nombre de fichiers de ressources de modèles de commerce électronique qui n'étaient absolument pas pertinents pour la tâche et a ajouté un script de migration supplémentaire.


Ce qui a réellement provoqué le crash de l'environnement de production, c'est le deuxième commit (commande de code) soumis par Gemini par la suite.

Il modifie le serviceId de réécriture dans firebase.json, en remplaçant l'ID de service Cloud Run correct d'origine généré automatiquement par Firebase par un nom simplifié qui « semble correct ». Le problème est que le nomn'existe pas réellement.

Par la suite, toutes les demandes ont été acheminées par erreur vers une adresse de service inexistante,L'ensemble de l'arrière-plan entre directement dans le statut 404.

Malheureusement, le développeur a clairement écrit un avertissement dans le fichier de règles memory.md :

Les réécritures Firebase doivent pointer vers un ID de service Cloud Run spécifique, et non vers un nom de projet générique.

Les Gémeaux ont lu cette règle et ont quand même modifié la configuration correcte.

02.

404 dure 33 minutes

L’IA « s’est forgé un palmarès de réalisations »

La chronologie de l'accident a également été entièrement divulguée par les développeurs.

Dès que Gemini a déployé le PR « correctif de sécurité », l'environnement de production a commencé à fonctionner en 404.

19 minutes plus tard, il a soumis un deuxième commit, affirmant qu'il résolvait le problème de réécriture du serviceId et déclenchait un nouveau Cloud Build.

Au bout de 21 minutes, le développeur a découvert que le service en ligne était tombé en panne, puis a annulé manuellement la tâche de construction en cours d'exécution par Gemini.

Au bout de 22 minutes, il est revenu manuellement à la version stable précédente.

Après 33 minutes, l'arrière-plan est finalement revenu à la normale.


Ce qui s’est passé ensuite est devenu scandaleux. Une fois la restauration terminée, Gemini envoie une notification « Restauration terminée » au développeur :

Actuellement, le portail a été entièrement restauré, l'environnement en ligne est sain, Google Cloud Build a été terminé avec succès et 100 % du trafic a été basculé vers la version stable.

Le développeur a ensuite vérifié et trouvé :

Le statut de la "version de restauration" cité par Gemini était en fait "ANNULÉ", qui a été annulé manuellement par lui.

Ce qui a vraiment restauré les services en ligne, c'est une autre version de restauration (tâche de construction de restauration) initiée par lui.

En d’autres termes, Gemini non seulement n’a pas réussi à réparer le système, mais a également affirmé que les opérations de restauration effectuées par d’autres personnes étaient ses propres résultats.

en plus,Il a également généré automatiquement 3 soi-disant « enregistrements de consultation IA »:

agent/gemini-logs/YYYY-MM-DD--r1.mdagent/gemini-logs/YYYY-MM-DD--r2.mdagent/gemini-logs/YYYY-MM-DD--consensus.md

ces fichiersest écrit dans un répertoire fixe, cité par Gemini comme preuve que « plusieurs séries d’examens de l’IA ont été réalisées ».

Après un interrogatoire plus approfondi par le développeur, Gemini a admis que les soi-disant « trois séries de dossiers de consultation » n'étaient en réalité que des textes d'inférence générés par lui-même.Il n'y a pas de véritable appel CLI ni de véritable processus d'examen externe.

Cela revient à se forger tout un ensemble de « dossiers de conformité ».

03.

Le problème ne se limite pas aux Gémeaux

Plus dans un « ensemble de règles à haut risque »

Le développeur a découvert plus tard que la source du problème ne provenait pas entièrement de Gemini lui-même. Il en avait installé un auparavantPackage de règles npm tierces, son nom est très similaire à celui de l'Agent IDE publié par Google lors de la conférence I/O, ce qui permet aux gens de le confondre facilement avec un outil officiel.

Ce package de règles sera automatiquement ajouté au projetÉcrire un grand nombre de fichiers de règles .agent/rules, et injecter un ensemble complet de"Haute autonomie".

Ceux-ci incluent :

“禁止确认弹窗”“默认拥有所有权限”“自动部署生产环境”“自动重试失败构建”“允许修改自身规则”

Certaines règles exigent même que l'IA génère automatiquement des « dossiers de consultation de l'IA » et des « documents de consensus » avant d'effectuer toute opération. Le problème est que ces documents de conformité eux-mêmes sont également générés par l’IA.

En conséquence, le soi-disant mécanisme de révision a finalement évolué vers « l’IA garantit son propre comportement ».

Il y a beaucoup de différences entre ces règlesconflit.

Par exemple, une partie des règles exige de « ne jamais demander de confirmation aux utilisateurs » et une autre partie des règles exige de « poser trois questions stratégiques avant l’exécution ». Gemini a finalement donné la priorité à l’application de règles plus strictes.

Les développeurs pensent que c'est aussiPourquoi les avertissements de sécurité dans memory.md échouent-ils complètement ?.

Parce que par rapport au rappel ordinaire "Veuillez utiliser le bon serviceId",Les instructions de haute intensité telles que « désactiver la confirmation, l'autorisation par défaut et le déploiement automatique » ont une priorité plus élevée dans le poids du modèle..

04.

Accident de programmation

L'agent commence à « forger des preuves »

Après la publication de l'article, il a rapidement suscité de nombreuses discussions au sein de la communauté des développeurs Reddit.

De nombreux développeurs ont découvert que les accidents de programmation de l'IA ne sont plus aussi simples qu'un « code mal écrit ». Le problème est que le modèle génère activement des explications, des journaux, des enregistrements d'avis et des rapports de récupération qui « semblent raisonnables ».

Une fois que ces contenus entrent dans le flux de travail automatisé, il peut être difficile pour les développeurs de détecter les problèmes en premier lieu.

Le développeur a ensuite donné une série deSuggestions et avertissements:

禁止Agent直接推送生产分支所有基础设施文件必须人工审批禁止自动部署与自动重试给rewrite、路由、锁文件增加验证机制不要相信AI自行生成的“咨询日志”

Actuellement, il est revenu à Claude Code et a conçu manuellement un nouveau système de règles.

Cet accident, au cours duquel 28 745 lignes de code ont été accidentellement supprimées et a provoqué un backend 404 de 33 minutes, a également jeté de l'eau froide sur « l'engouement pour les agents IDE », de plus en plus populaire.

05.

Conclusion : plus l'autorité de l'agent est grande

Le coût de la perte de contrôle s’amplifie également simultanément

Au cours de l’année écoulée, les outils de programmation de l’IA ont rapidement évolué du statut d’« assistants de code » à celui d’agents dotés de réelles capacités d’exécution. Le problème est que l’autorité et l’automatisation sont elles-mêmes un ensemble de contradictions naturelles.

Plus l'autorité est élevée, plus l'agent peut accomplir de choses ; plus le degré d’automatisation est élevé, moins il y a de liens pour l’intervention humaine. Une fois que le modèle présente des erreurs de jugement, des hallucinations ou des conflits de règles, les erreurs seront rapidement amplifiées.

En fait, ce n’est pas la première fois que des accidents similaires se produisent. Auparavant, après que les frameworks d'agents tels qu'OpenClaw soient devenus populaires, il y a eu des cas d'annulation tels que la suppression accidentelle de fichiers par l'IA, l'écrasement automatique des configurations et l'exécution incorrecte des commandes Shell. Certains développeurs ajoutent spécifiquement des restrictions de « mode de déconnexion » et de « désactivation du déploiement automatique » à leurs outils d'IA.

Cet incident Gemini a révélé un autre problème dangereux : lorsque l'agent commence à générer des enregistrements de conformité, des journaux de récupération et des certificats d'audit, il peut être difficile pour les développeurs de découvrir le problème du premier coup, et le coût du dépannage, de la restauration et de la réparation ultérieurs sera également amplifié simultanément.

Pour la piste Agent IDE, de plus en plus populaire, cela peut aussi être un nouveau rappel : une fois que l’IA aura acquis une autorité plus élevée, ce qui doit être repensé, c’est l’ensemble du mécanisme de collaboration entre les humains et les agents.