Le modèle Anthropic Mythos, attendu depuis près de deux mois et qui domine les réseaux sociaux, est enfin officiellement publié aujourd'hui. Il y a deux mois, Anthropic a déclaré que son modèle le plus performant était trop dangereux pour être rendu public et ne l'a envoyé qu'à plus d'une centaine d'institutions. Aujourd'hui, ces fonctionnalités sont ouvertes à tous : la version rendue publique s'appelle Claude Fable 5 ; le Mythos 5 véritablement « sans restriction » est encore réservé à quelques partenaires seulement.En d’autres termes, le Claude le plus puissant que vous puissiez utiliser est un Mythe avec des limites supplémentaires.


La conception de ce garde-corps est plus digne d'être mentionnée que les mots « diffusion publique » lui-même : sa manière d'assurer la sécurité est de ne pas vous rejeter.

Anthropic a sorti cette fois deux modèles en une seule fois : Claude Fable 5 et Claude Mythos 5. Il s'agit en fait du même modèle sous-jacent, avec une seule différence : le garde-corps de sécurité.

Fable 5 fournit un ensemble complet de classificateurs de sécurité pour tous les utilisateurs ; Mythos 5 supprime certaines de ces restrictions et les fournit uniquement aux partenaires de sécurité réseau du projet Glasswing.

Pour le dire franchement,La Fable 5 est un "Mythe avec garde-fous".

Comme le style habituel d'Anthropic, le nom du modèle lui-même cache également une réflexion.

Selon Anthropic, Fable vient du latin fabula, qui signifie « histoire racontée », et a la même origine que le mythe grec. Les deux noms font référence à la même chose, la seule différence est que l'un d'eux a une limite.

Reculez un peu la chronologie. En avril de cette année, Anthropic a lancé le projet Glasswing, et lors de la première publication du modèle de niveau Mythos (Claude Mythos Preview), il n'a été confié qu'à un petit groupe d'institutions de cybersécurité et d'infrastructures critiques. La semaine dernière, la liste s’était étendue à plus d’une douzaine de pays et plus d’une centaine d’institutions. La déclaration officielle de l’époque était que de tels modèles pourraient causer de graves dommages s’ils tombaient entre de mauvaises mains et qu’ils ne pouvaient donc pas être rendus publics.


En deux mois, il est passé de « trop dangereux pour être publié » à « accessible à tous ». Ce qui se passe entre les deux est le véritable protagoniste de cette version.

Le mécanisme de sécurité de la plupart des IA est le « refuser » : vous posez une question à laquelle elle ne devrait pas répondre et elle vous dit « Désolé, je ne peux pas vous aider ».

La Fable 5 adopte une approche différente.La sécurité ne consiste pas à apprendre à le rejeter, mais à le remplacer lorsque le danger survient.

Plus précisément, Fable 5 est doté d'un ensemble de classificateurs indépendants.

Lorsque cet ensemble de classificateurs détermine que votre demande relève de trois domaines à haut risque - les cyberattaques, les armes biochimiques et la distillation de modèles (qui fait référence au « vol » des capacités d'un modèle pour entraîner votre propre modèle) - il ne laissera pas Fable 5 répondre, mais transférera discrètement la question à l'Opus 4.8 et vous dira : Un déclassement vient de se produire.

Ce qui est intéressant dans cette conception, c’est qu’elle sépare la « sécurité » et la « capacité » en deux choses différentes.Vous achetez un pouvoir de niveau Mythe, mais dans les trois royaumes les plus dangereux, vous parlez en réalité à Opus.La propre déclaration d'Anthropic est que l'expérience de rétrograder vers l'Opus 4.8 est meilleure que d'être directement rejetée par Fable - après tout, l'Opus 4.8 lui-même est également un modèle assez solide.


Selon Anthropic, plus de 95 % des conversations ne déclencheront aucun déclassement. En d’autres termes, pour la plupart des gens, l’expérience du Fable 5 que vous utilisez est presque la même que celle du Mythos 5 « complet » entre les mains de votre partenaire.

Alors, cet ensemble de garde-corps est-il solide ? Anthropic a déclaré avoir effectué plus d'un millier d'heures de tests externes par l'équipe rouge, et personne n'a trouvé de méthode de "jailbreak universel" capable de le contourner (une méthode universelle qui permet au modèle d'ignorer complètement toutes les restrictions de sécurité).

Bien sûr, ils laissent aussi une certaine marge de manœuvre : il est probablement impossible d’éliminer complètement les jailbreaks. Le but est simplement de rendre toute vulnérabilité « trop lente et trop coûteuse » pour être exploitée à grande échelle.

Mais ce mécanisme a un prix, et Anthropic lui-même l'a dit le premier : le classificateur est désormais ajusté de manière trop stricte, ce qui endommagerait accidentellement les requêtes normales. Un biologiste qui étudie les virus ou un ingénieur en sécurité qui effectue des tests d'intrusion peuvent être inexplicablement « déclassés » dans le cadre d'un travail légitime. Le responsable a admis que cela gênerait certains utilisateurs et a promis de le réduire progressivement et de réduire les fausses alarmes à l'avenir.

J'y ai réfléchi pendant un moment et j'ai senti qu'il s'agissait en fait d'un compromis très intelligent mais aussi assez impuissant. Ce qui est intelligent, c'est qu'il ne choisit pas entre « tirer » et « ne pas envoyer », mais réduit la capacité ; mais malheureusement, cette coupure n'est pas précise - pour se connecter avant que quelque chose ne se passe mal, Anthropic préfère tuer par erreur plutôt que de rater.

Seuls ceux qui sont dangereusement forts méritent cet ensemble de garde-fous.

Après avoir longuement parlé de sécurité, vous vous demandez peut-être : quelle est sa puissance et cela vaut-il la peine d'être si vulnérable face à l'ennemi ?

Au départ, je voulais sauter le test de référence - lire trop de références vous engourdirait, sans oublier qu'Anthropic a une longue liste, se classant presque premier dans chaque catégorie.

Le plus bluffant vient de Stripe. Selon Anthropic, Stripe a utilisé Fable 5 pour effectuer une migration complète de base de données sur une base de code Ruby de 50 millions de lignes, qui a été réalisée en une journée. À l’origine, cette tâche nécessitait une équipe entière pendant plus de deux mois. Ce qui est plus critique, c'est l'efficacité : dans le test de programmation FrontierCode de Cognition, Fable 5 a obtenu le score le plus élevé en termes de « consommation d'énergie de calcul moyenne », et l'efficacité du jeton est nettement meilleure que celle du précédent Claude.

Cela explique également pourquoi Anthropic met l'accent à plusieurs reprises sur l'efficacité des jetons - un modèle qui peut fonctionner de manière autonome pendant longtemps et consommer des millions de jetons à chaque tour, si cela reste "absurdité", le coût sera si élevé que personne ne pourra se permettre de l'utiliser.

La progression en vision est plus intuitive. Dans le passé, lorsque Claude jouait à Pokémon Rouge Feu, il devait s'appuyer sur un ensemble complet de chaînes d'outils auxiliaires pour avancer en trébuchant ; Fable 5 n'a utilisé que l'interface visuelle la plus basique pour terminer le niveau par lui-même. Il peut également restaurer le code source d'une application Web avec seulement quelques captures d'écran.

Les experts internes en conception de protéines d’Anthropic ont utilisé Mythos 5 pour accélérer d’environ dix fois certains aspects du processus de conception de médicaments. La seconde est encore plus exagérée : dans une étude génomique, Mythos 5 a fonctionné en continu pendant plus d'une semaine dans un état presque complètement autonome, entraînant lui-même un modèle d'apprentissage automatique - les performances de ce modèle dépassaient celles d'un modèle similaire publié dans Science, et son volume ne représentait qu'un pour cent de ce dernier.

Lorsqu'un modèle peut mener à bien de manière indépendante une semaine de recherche scientifique et faire mieux que les résultats humains publiés dans les meilleures revues, « savoir s'il sera utilisé pour concevoir des virus » n'est plus une inquiétude sans fondement.C’est exactement pourquoi Anthropic verrouille le domaine de la biochimie séparément – ​​la même capacité est un antidote entre les mains des chercheurs, mais elle peut être autre chose entre d’autres mains.


Le pouvoir et le danger sont ici les deux faces d’une même médaille. Les garde-corps ne sont pas ajoutés parce que le modèle n'est pas bon, mais justement parce qu'il est si bon.

On peut voir qu'Anthropic décrit Mythos comme un objet dangereux qui nécessite une surveillance totale. Mais en dehors du récit officiel, différentes voix s’élèvent également.

Un utilisateur X avec l'ID @zekramu, qui prétend avoir participé à un projet pilote d'entreprise de Mythos, a récemment posté pour partager ses sentiments après l'avoir utilisé pendant une journée entière - sa description n'est pas entièrement cohérente avec le récit de la conférence de presse.

Selon lui, Mythos est vraiment fort, notamment dans les tâches de recherche en matière de sécurité. C'est évidemment mieux que la configuration la plus élevée d'Opus et de GPT-5.5, comme s'il avait été spécialement réglé pour ce genre de travail. Mais « humanité forte » et « humanité menaçante » sont deux choses différentes. Il a donné un détail : ce modèle, officiellement qualifié d'étonnant, s'est coincé devant le processus de son entreprise basé sur Bazel (un outil de construction de code) et a modifié beaucoup de logique personnalisée. En fin de compte, il a dû d’abord compiler le code, puis laisser le modèle s’exécuter.


Le garde-corps lui-même est encore plus intrigant. Selon sa description, ce qu'Anthropic a envoyé avec le modèle n'était pas le code Claude familier, mais un ensemble d'environnements d'exploitation spécialement conçus pour "empêcher la fuite du modèle" - le soi-disant projet Glasswing, à son avis, il s'agit en grande partie de ce bac à sable. Cependant, il a estimé que l'environnement était assez difficile et soupçonnait même que certaines restrictions n'avaient pas vraiment d'effet ; il a également déclaré qu'il avait contourné les limites officielles et exécuté le modèle en dehors du bac à sable.

Pour mémoire, il a déclaré que Mythos avait découvert un grand nombre de vulnérabilités de sécurité jusqu'alors inconnues dans leurs produits, suffisamment pour inciter l'équipe à repenser ses stratégies de sécurité.

Sa conclusion mérite réflexion : ce modèle a effectivement deux pinceaux en termes de sécurité, d'attaque et de défense, mais à ses yeux, il s'apparente davantage à un outil extrêmement coûteux et extrêmement spécialisé, plutôt qu'au genre d'existence qui « pèse au-dessus de la tête de tout le monde » comme le laisse entendre Anthropic.

Revenons à ce qui préoccupe le plus les gens ordinaires : combien cela coûte et quand cela peut être utilisé.

En termes de prix, le prix de l'API de Fable 5 et Mythos 5 est de 10 $ US par million de jetons d'entrée et de 50 $ US par million de sorties. La comparaison horizontale est intéressante : par rapport aux 25/125 dollars américains de Mythos Preview, il est 60 % inférieur ; mais il est bien deux fois plus cher que l'Opus 4.8, à 5/25 dollars américains ; par rapport au GPT-5.5 d'OpenAI (5/30 dollars américains), l'entrée est deux fois plus chère et la sortie est environ 67 % plus chère.


autrement dit,C'est le Claude le plus puissant à ce jour et l'un des modèles Claude les plus chers.Fort, mais pas bon marché.

Le @zekramu susmentionné peut également être considéré comme une preuve circonstancielle : selon son estimation, l'investissement dans la seule phase pilote a atteint le niveau de millions de dollars ; « trop cher » est une phrase qu'il répète à plusieurs reprises.


Les abonnés doivent également faire attention à une fenêtre horaire. À partir d'aujourd'hui et jusqu'au 22 juin, les utilisateurs des éditions Pro, Max, Team et Enterprise peuvent utiliser Fable 5 gratuitement ; à partir du 23 juin, vous devrez acheter des crédits d'utilisation supplémentaires pour continuer à l'utiliser.

Anthropic a déclaré que lorsque la capacité de production rattraperait son retard, Fable 5 redeviendrait un standard d'abonnement - mais n'a pas donné de délai précis. Les clients API et entreprises avec paiement à l'utilisation ne sont pas concernés par ce rythme et continueront d'appeler comme d'habitude à partir d'aujourd'hui.

Ce « gratuit d'abord, puis recharge, puis on en parle plus tard », un peu gênant, révèle en fait un signal : une capacité de production insuffisante. De son propre aveu, Anthropic s'attend à ce que la demande pour le Fable 5 soit "très élevée et difficile à prévoir". Le modèle le plus solide et ouvert à tous doit d’abord passer le niveau de la puissance de calcul.

Dans cette version, ce qui est vraiment facile à ignorer, mais qui mérite le plus d’être examiné et examiné, est une autre politique.

À partir de Fable 5, le trafic de tous les modèles de niveau Mythos devra être conservé pendant 30 jours, couvrant à la fois les plates-formes propriétaires et tierces.

Anthropic promet de ne pas utiliser ces données pour former des modèles, mais uniquement pour la surveillance de la sécurité, comme l'identification de nouveaux types de jailbreaks et d'attaques complexes qui sont dispersées parmi de nombreuses requêtes et chacune semble normale. À cette fin, ils ont également ajouté une nouvelle protection de la vie privée : chaque visite manuelle est enregistrée et supprimée au bout de 30 jours.

Cela semble raisonnable. maisPour les entreprises clientes qui ont initialement choisi Anthropic en raison de la « conservation zéro des données », il s'agit d'un changement qui doit être réévalué.

Le coût d'utilisation du modèle le plus puissant n'est pas seulement une facture plus élevée, mais aussi : vos données resteront sur les serveurs d'Anthropic pendant un mois supplémentaire.

La sécurité et la confidentialité sont ici mises sur la même échelle. La réponse donnée par Anthropic est la suivante : afin de prévenir des attaques sans précédent, le trafic de chacun doit être surveillé pendant 30 jours. Ce compte n’est pas rentable et je crains que chaque entreprise doive faire ses propres calculs.

En mettant tout cela ensemble, la véritable nouveauté de Fable 5 n'est peut-être pas sa puissance, mais le fait qu'elle a emprunté une nouvelle voie dans Anthropic——Comment transformer une capacité trop dangereuse pour être divulguée en un produit que tout le monde peut utiliser.

La méthode est la suivante : utilisez un classificateur pour diviser les capacités, utilisez la rétrogradation au lieu du rejet, puis utilisez 30 jours de rétention comme réseau de surveillance secret.

Ce n'est pas parfait. Cela causera des dommages accidentels, cela deviendra plus cher et certaines personnes s’inquiéteront pour leurs données. Mais cela répond au moins à une question à laquelle tous les laboratoires de pointe seront confrontés tôt ou tard : quand quelque chose dans votre main est suffisamment fort pour blesser des personnes, l'enfermez-vous dans une pièce où seules quelques personnes peuvent entrer, ou installez-vous dessus un garde-corps suffisamment solide et le mettez-vous entre les mains de tout le monde ?

Anthropic a choisi cette dernière solution.


Quant à savoir si ce garde-fou est suffisamment solide, cette fois, ce ne sont plus plus de 100 institutions qui le soumettent au test de résistance, mais tout le monde.