Anthropic a officiellement rendu public mardi son dernier modèle, Fable, le positionnant comme une « version publique et restreinte » de son modèle interne de cybersécurité haut de gamme Mythos, mais le produit a rapidement suscité une controverse dans les cercles de cybersécurité. De nombreux chercheurs et praticiens en sécurité se sont plaints sur les plateformes sociales et les communautés que les garde-fous de sécurité intégrés de Fable étaient trop stricts et pouvaient difficilement être utilisés pour de véritables travaux liés à la sécurité des réseaux.

Selon les retours des chercheurs, Fable rejette « toute demande, même vaguement liée à la cybersécurité », y compris même des tâches apparemment anodines comme aider à lire un article de blog. Selon la chercheuse Valentina « Chompie » Palmiotti, qui travaille maintenant chez IBM X-Force, Fable met simplement fin à la conversation et indique que ses mécanismes de sécurité ont signalé le message comme impliquant la cybersécurité ou des sujets biologiques. Ces garde-fous sont conçus pour empêcher que des modèles soient utilisés pour développer des logiciels malveillants, attaquer ou endommager des systèmes logiciels, et également pour limiter leur utilisation abusive dans le domaine biologique pour contribuer au développement d'armes biologiques.

Lorsqu'Anthropic a lancé Mythos en avril de cette année, elle a choisi de l'ouvrir uniquement à un petit nombre d'entreprises et d'institutions via un programme appelé « Projet Glasswing » avec l'intention d'utiliser ce modèle pour aider à protéger les logiciels et les infrastructures critiques. La semaine dernière, Anthropic a annoncé qu'elle étendrait l'utilisation de Mythos à des centaines d'organisations dans 15 pays, favorisant ainsi la mise en œuvre de ce type de modèle de sécurité à haute capacité dans des secteurs clés. Cependant, après l'ouverture au public de Fable, sa stratégie de sécurité en « version dégradée » a été fortement remise en question par les utilisateurs professionnels. Beaucoup de gens pensaient qu’il existait un écart important entre l’expérience réelle et la propagande officielle.

Matt Suiche, un vétéran de longue date de la cybersécurité, a déclaré à TechCrunch que Fable avait été très brutal pour déterminer si une demande était liée à la cybersécurité. Par exemple, il a déclaré que si un utilisateur demande « d'écrire du code sécurisé », Fable aura tendance à considérer cela comme un travail de sécurité réseau plutôt que comme un guide des meilleures pratiques en matière d'ingénierie logicielle, déclenchant ainsi directement le mécanisme de rétrogradation. Une fois le garde-corps déclenché, Fable reviendra automatiquement sur Claude Opus 4.8, moins performant, pour poursuivre la conversation. Suiche estime que la logique de jugement de Fable semble fortement dépendante des mots-clés. "Tant que les mots relèvent du champ sémantique de la "sécurité des réseaux", ils peuvent facilement être interceptés par le système de sécurité."

Malgré cela, Suiche exprime également une certaine compréhension des paramètres stricts au stade actuel, estimant qu'à ce stade précoce, les fabricants imposent des seuils de sécurité plus conservateurs sur les modèles et sont plus sûrs dans le contrôle des risques. Il s’attend à ce que ces garde-fous soient continuellement affinés et affinés à mesure qu’Anthropic approfondit sa collaboration avec une nouvelle génération d’entreprises de cybersécurité. Selon lui, il est plus acceptable de « bloquer davantage » d'abord, puis d'assouplir progressivement les restrictions, plutôt que de trop les assouplir au début, ce qui rendrait incontrôlable le risque potentiel d'abus.

Fable n'est pas le seul à être mécontent. Un autre chercheur s'est plaint sur la plateforme sociale que « même le fait de demander une révision du code déclencherait le garde-fou de sécurité ». Certains utilisateurs ont partagé leurs expériences dans la communauté Claude de Reddit, affirmant que Fable "refuse presque tous" les demandes d'audits de sécurité, d'analyses de vulnérabilités, etc., affectant sérieusement son utilité dans les environnements professionnels. Au moment de mettre sous presse, Anthropic n’avait pas répondu publiquement aux commentaires.

En plus du mécanisme de garde-fou automatique au sein du modèle, Anthropic a également établi un processus d'admission supplémentaire pour les praticiens de la cybersécurité - le « Programme de cyber-vérification ». Seuls les utilisateurs qui réussissent le programme peuvent utiliser Claude pour des travaux de sécurité réseau dans des conditions moins restrictives. De même, OpenAI a lancé un projet appelé « Trusted Access for Cyber ​​» pour ouvrir davantage de capacités de modèle pour des pratiques de cybersécurité conformes. Ces pratiques reflètent le fait que même si les entreprises modèles de pointe promeuvent la sécurité des réseaux grâce à l’IA, elles tentent toujours d’équilibrer la libération des capacités et le risque d’abus par le double moyen de systèmes de contrôle et de garde-fous techniques.