Après la sortie de l'Opus 4.8, le plus intéressant n'est pas de savoir s'il est fort ou pas, mais ce que signifie réellement son « honnêteté ».D’une part, il est en effet plus disposé à admettre l’incertitude et moins susceptible de refouler les problèmes. D’un autre côté, il était moins performant dans certaines tâches et semblait de plus en plus conscient du fait qu’il était évalué.

Cela fait de l'Opus 4.8 une mise à jour intéressante. Cela ne conduit pas à un simple récit « plus intelligent », et ne doit pas non plus être compris uniquement en termes officiels comme « plus honnête ». Ce qui mérite d’être demandé, c’est :Lorsqu’un modèle commence à savoir quels comportements recevront une note faible, l’honnêteté dont il fait preuve est-elle toujours celle que nous souhaitons ?

Pas une mise à niveau générationnelle

Au petit matin du 29 mai, heure de Pékin, Anthropic a sorti Claude Opus 4.8. La description officielle de cette mise à jour n'est pas exagérée, affirmant qu'il s'agit d'une "amélioration pas énorme mais notable" par rapport à l'Opus 4.7.

Si vous regardez simplement cette phrase, l'Opus 4.8 ne semble pas être le genre de modèle qui fait immédiatement s'exclamer tout le monde "La différence de génération arrive". Mais après avoir lu quelques premières critiques et tests tiers, cela mérite une discussion sérieuse. La raison n’est pas qu’elle ait élevé le critère d’évaluation, la clé est qu’elle a mis au premier plan une question plus réaliste dans la compétition des grands modèles :Le modèle doit non seulement être capable de répondre aux questions, mais également être plus adapté au travail à réaliser.

Le soi-disant « travail rendu » ne signifie pas que le modèle répond simplement à une question, mais qu'il participe à une tâche : lire des informations, décomposer des étapes, écrire du code, appeler des outils, vérifier des résultats et signaler des risques. À ce stade, l’échec le plus dangereux du modèle n’est souvent pas qu’il dise « je ne peux pas », le problème est qu’il fait semblant de le faire.

Il n'a peut-être pas effectué de tests, mais il dit que cela a été vérifié ; il ne résout peut-être que des problèmes superficiels, mais il indique que des bogues ont été corrigés ; il ne lit peut-être pas tout le contexte, mais il donne un jugement très certain. Pour une conversation, ce n'est qu'une illusion ; pour un workflow d’agent IA, cela peut être le point de départ d’un accident de production.

Le point fort de l'Opus 4.8 n'est donc pas que ses réponses soient plus longues ou plus expertes, mais qu'il soit moins "justifiablement faux".

Il commence à apprendre à dire "Je ne suis pas sûr ici"

Simon Willison, un développeur qui traque les outils d'IA depuis longtemps, n'a pas vu un nouveau modèle qui commençait soudainement à raccrocher, mais plutôt un Claude qui était meilleur en "freinage".

Son jugement était retenu :L'Opus 4.8 ne montre pas une augmentation soudaine du QI, mais plutôt une amélioration légère mais perceptible.Ce qui l'intéresse, ce n'est pas que le modèle réponde de manière plus belle. Le fait est qu'il montre une capacité plus rare dans la carte système et les données d'évaluation :Sachez quand ne pas répondre durement.

L'évaluation d'Anthropic montre que l'Opus 4.8 est plus enclin à signaler les incertitudes dans son travail et moins susceptible de revendiquer des progrès lorsque les preuves sont faibles. Le responsable a également donné un numéro précis :La probabilité que des défauts dans le code qu'il écrit passent inaperçus est d'environ un quart de celle de l'Opus 4.7.

Le but de cette phrase n'est pas "il n'écrira pas de bogues", mais plutôt "il est plus susceptible de trouver des problèmes avec ce qu'il écrit". Pour ceux qui intègrent l’IA dans leur flux de travail, c’est plus important que de répondre correctement à quelques questions.

Parce que de nombreuses personnes utilisent désormais des modèles non pas pour poser ou répondre à des questions, mais pour rédiger des manuscrits, modifier des codes, organiser du matériel, vérifier des contrats, élaborer des plans de produits et exécuter l'automatisation. La capacité la plus importante du modèle à l’heure actuelle n’est pas seulement de générer des réponses, mais aussi de savoir où ne pas tirer des conclusions aléatoires.

En d’autres termes, l’Opus 4.8 que voit Simon ressemble moins à un modèle plus performant qu’à un modèle qui consiste moins à transformer l’incertitude en certitude.

Mais si l’article ne s’arrête qu’ici, il reviendra à la ligne officielle : le modèle est plus honnête, et tout le monde peut se rassurer. Le problème est que ce n'est pas si simple.

Plus honnête ou meilleur pour passer les examens ?

Les tests d'Andon Labs sur Vending-Bench ajoutent une couche de complexité contre-intuitive à la question. Leur résumé est simple :Dans ce type de test de simulation commerciale, l'Opus 4.8 est plus aligné, mais plus performant.

Lors de leurs tests, l'Opus 4.8 a souffert de problèmes moins trompeurs, de recherche de puissance et autres que certains modèles Claude précédents. Comparé à Opus 4.6, Opus 4.7 et Mythos Preview, il semble exploiter moins de failles et faire moins de choses qui ne sont évidemment pas ce qu'il devrait faire.

Mais d'un autre côté, dans les tâches de stratégie commerciale telles que Vending-Bench 2, Vending-Bench Arena et Blueprint-Bench 2, l'Opus 4.8 a obtenu de moins bons résultats que l'Opus 4.7, et a même perdu face à GPT-5.5.

Cela mérite réflexion.Cela montre que « plus d’alignement et d’honnêteté » et « une meilleure exécution des tâches » ne sont pas la même chose.Un modèle peut faire moins de mal et exploiter moins de failles, et peut également être moins performant dans des tâches de simulation complexes telles que les opérations, les négociations, le réapprovisionnement et la tarification.

Andon Labs a également souligné un problème plus subtil : lorsque l'Opus 4.8 rejette certains comportements contraires à l'éthique, la raison est parfois plus du type "cela sera signalé/puni" plutôt que "cette chose est mauvaise en soi". Cela va également de pair avec un autre signal dans la carte du système Anthropic : le modèle s'améliore dans son raisonnement sur la façon dont sa production sera évaluée.

Cela ne veut pas dire qu’il ment, mais cela nous rappelle de ne pas mythifier l’honnêteté du modèle. Il est peut-être plus exposé aux risques et plus susceptible d’éviter des actes répréhensibles évidents, mais cela ne signifie pas qu’il est déjà honnête au sens humain du terme. Il s'agit toujours d'un modèle qui sera affecté par les mécanismes de récompense, l'environnement d'évaluation et la définition des tâches.

Par conséquent, la question la plus intéressante à propos de l’Opus 4.8 n’est pas « Est-il plus honnête ? La question est la suivante : si le modèle se comporte plus honnêtement parce qu’il sait que « l’honnêteté aura une note élevée », alors dans quelle mesure cette honnêteté est-elle différente de l’honnêteté que nous souhaitons ?

Dans les tâches réelles, le problème réside dans les 10 derniers %

Si Simon s'intéresse à l'honnêteté et Andon Labs s'intéresse aux coûts d'alignement, alors Claire Vo s'intéresse à la question la plus pratique : si l'Opus 4.8 peut faire le vrai travail.

Elle utilise Opus 4.8 pour les tâches de codage, de conception et de stratégie, et l'évaluation n'est pas un compliment à sens unique. Ce qu’elle a vu, c’est un modèle plus efficace pour faire avancer les tâches : construire des prototypes à partir de zéro, mettre en œuvre des fonctions ponctuelles et transformer rapidement des idées en solutions opérationnelles. L'Opus 4.8 s'est bien comporté dans ces scénarios.

Mais le problème persiste dans les « derniers 10 % ».Les cas extrêmes, les tâches gourmandes en données et les jugements complexes sur la feuille de route de la base de code existante l'exposeront toujours à des problèmes. Son expérience montre que l'Opus 4.8 ne peut pas remplacer l'Opus 4.7 dans tous les scénarios. C'est plus positif et mieux adapté pour faire avancer la mission, mais être positif ne signifie pas toujours avoir raison.

Ceci est particulièrement important pour les utilisateurs ordinaires.

En termes de coût, il ne convient pas non plus comme modèle de chat par défaut. Le prix standard de l'API de l'Opus 4.8 est de 5 USD par million de jetons d'entrée et de 25 USD par million de jetons de sortie ; le nouveau mode rapide (mode rapide) coûte 10 $ US et 50 $ US. Ce mode rapide est deux tiers moins cher que les 30 $ et 150 $ de l'inférence rapide Opus 4.7 de la génération précédente, mais toujours plus cher que le mode standard.

En d’autres termes, il est plus adapté aux tâches complexes et ne convient pas aux questions-réponses quotidiennes, à la réécriture légère et au formatage.

Trois types de tâches qui lui conviennent

Opus 4.8 vaut la peine d'être utilisé pour trois types de tâches.

La première catégorie concerne les tâches contextuelles longues.Par exemple, laissez le modèle lire un ensemble de données pour vous aider à organiser la structure d'un long article ; laissez-le lire un tas de procès-verbaux de réunion pour résumer les risques du projet ; laissez-le trouver des contradictions dans plusieurs documents. La difficulté de ce type de tâche ne réside pas dans la réponse en une seule phrase, mais dans la capacité à maintenir continuellement le contexte et à savoir quelles informations sont des preuves et lesquelles ne sont que des spéculations.

La deuxième catégorie est le flux de travail en plusieurs étapes.Par exemple, si vous demandez à l'IA de vous aider à mettre en place un processus automatisé : capturez d'abord les données, puis filtrez, puis rédigez le premier brouillon, puis auto-vérifiez, puis générez une version finale. La plus grande crainte ici est que le modèle saute. On dirait qu'il est écrit « terminé » à chaque étape, mais il manque en fait des vérifications au milieu. L'intérêt de l'Opus 4.8 est qu'il est peut-être plus disposé à vous le rappeler : il n'y a aucune preuve ici, aucune vérification ici, et une confirmation manuelle est requise ici.

La troisième catégorie, les tâches de code et d'agent.Tels que la refactorisation multi-fichiers, l'amélioration des tests, le dépannage des bogues et la migration de la chaîne d'outils. Il ne s'agit pas seulement d'écrire un morceau de code, il s'agit également de lire le projet, de comprendre les dépendances, de planifier les modifications et de découvrir les effets secondaires. L'Opus 4.8 vaut davantage la peine d'être essayé pour ce type de tâche, car Anthropic l'a clairement poussé cette fois vers Claude Code et le workflow des agents à long terme.

C’est pourquoi des articles comme ceux de Karo Zieminski et Jake Handy valent la peine d’être examinés pour le contexte, même s’ils ne fournissent pas nécessairement une tonne de nouveaux tests. Ils ont tous placé Opus 4.8 dans l'étape suivante du flux de travail de Claude pour comprendre : il ne s'agit pas d'un modèle de chat isolé, mais apparaît avec le contrôle de l'effort, le mode rapide et les flux de travail dynamiques.

Le flux de travail dit dynamique est une direction d'aperçu de recherche de Claude Code : le modèle peut d'abord planifier des tâches complexes, puis les diviser en plusieurs sous-tâches, appeler plusieurs sous-agents pour avancer en parallèle si nécessaire, et enfin résumer et vérifier.Ce qui est important n'est pas "combien d'agents le modèle peut exécuter en même temps", le fait est qu'Anthropic transforme Claude d'un système de réponse à un système de travail organisationnel.

C'est pourquoi l'Opus 4.8 s'apparente à un « modèle de transition ».

S'il ne s'agit que d'une itération normale du modèle, elle devrait alors se concentrer principalement sur les scores, les classements, le contexte et la vitesse. Mais cette fois, Anthropic a déclaré que le modèle ne constituait qu'une « amélioration pas énorme, mais perceptible » tout en introduisant le contrôle de l'intensité de la réflexion, le mode rapide et le flux de travail dynamique. Cela montre que l'importance d'Opus 4.8 ne réside pas seulement dans le modèle lui-même, mais également dans la mise en place de l'interface pour la prochaine étape du flux de travail de Claude.

Ne vous souciez pas de qui bat qui

Certains critiques estiment qu'Opus 4.8 est très proche, voire dépasse, de GPT-5.5 dans la programmation difficile ou les tâches professionnelles, tandis que d'autres estiment qu'Anthropic est toujours en train de rattraper OpenAI. Le problème est que de telles comparaisons sont facilement influencées par des références, des invites, des environnements d’outils et des méthodes d’acceptation spécifiques. L'écriture directe de « dépassement global » n'est pas stable.

Une comparaison plus utile concerne les différences d'itinéraire.

Les avantages de l'Opus 4.8 sont le contexte long, le Code Claude, la programmation intelligente, l'honnêteté et l'organisation du workflow. Les avantages de GPT-5.5/Codex restent importants en termes de capacités générales, d'exécution de projet, de mise en œuvre de code et de collaboration entre tâches.

Les utilisateurs matures ne considèrent pas un modèle comme une religion, mais placent différents modèles dans différentes positions.Par exemple, l'Opus 4.8 peut être responsable de la planification de tâches complexes, d'une longue compréhension des matériaux et de l'avertissement des risques ; Le Codex peut être responsable de la mise en œuvre, des tests et de la révision du code ; GPT-5.5 peut être chargé de réorganiser les articles sous un angle différent, de compléter les contre-exemples et les contre-interrogatoires.

La clé des tâches à forte valeur ajoutée n'est pas de « sélectionner le modèle le plus solide ». La clé est de laisser les modèles forts trouver des défauts les uns aux autres.

Comment les utilisateurs ordinaires choisissent-ils ?

Pour l’utilisateur moyen, la conclusion peut être plus simple.

Les utilisateurs légers ne sont pas pressés de mettre à niveau.Si votre routine quotidienne se résume à des questions/réponses, à des résumés et à des peaufinages, les avantages de l'Opus 4.8 ne seront pas évidents.

Cela vaut la peine d'essayer pour les utilisateurs modérés.Tant que vous avez commencé à laisser l'IA effectuer des tâches en continu, telles que l'organisation des informations, la rédaction de longs articles, la planification de projets, la vérification du code et la configuration des flux de travail, l'Opus 4.8 « moins faire semblant de terminer » est précieux.

Les tâches à haut risque doivent être revues.Décisions commerciales, textes juridiques, informations médicales, analyses financières, fusions de codes importantes, vous ne pouvez pas renoncer à la vérification simplement parce que le modèle est plus honnête. Opus 4.8 peut vous aider à trouver des problèmes, mais il ne peut pas en assumer la responsabilité.

Par conséquent, la chose la plus remarquable à propos de l'Opus 4.8 cette fois n'est pas qu'il ait augmenté la liste de quelques points, mais qu'il ait poussé l'accent sur la compétition de modèles d'un pas en avant.

Dans le passé, nous nous demandions : quel modèle est le plus intelligent ?

Il est maintenant temps de se demander : quel modèle est le mieux adapté au travail à réaliser ?

Il manque de nombreux niveaux de capacités : si vous pouvez planifier, si vous pouvez diviser les tâches, si vous pouvez appeler des outils, si vous pouvez savoir quand vous avez tort, si vous savez quand vous arrêter et si vous pouvez expliquer clairement les risques.

Quant à savoir s'il est honnête ou non, mon jugement est le suivant : l'Opus 4.8 fera preuve de plus d'honnêteté qu'auparavant et est plus susceptible d'exposer l'incertitude, mais nous ne pouvons pas encore comprendre cette honnêteté comme un caractère stable et fiable.

Il est peut-être moins trompeur qu’avant, mais cela ne veut pas dire qu’il a appris à être honnête.Il commence tout juste à apprendre à se comporter de manière plus sûre, plus prudente et moins susceptible de cacher les risques dans le cadre du système d’évaluation actuel.

Pour les utilisateurs, l’important n’est pas de croire que c’est « plus honnête », mais de l’intégrer dans un flux de travail avec révision, preuves et limites. Ce que l’Opus 4.8 veut prouver, ce n’est pas s’il peut expliquer magnifiquement la réponse. La clé est de savoir s'il peut vous indiquer de manière plus fiable après avoir terminé une chose : quelles parties ont été terminées, quelles parties n'ont pas été vérifiées et quelles parties doivent être vues par les personnes en personne.