L'une des questions les plus controversées d'OpenAI au cours de l'année écoulée a été la manière exacte dont les modèles doivent réagir lorsque les utilisateurs de chatbot montrent des signes de détresse mentale dans les conversations, et maintenant Andrea Vallone, responsable de la recherche en sécurité dans ce domaine, a quitté Anthropic.

Vallone avait précédemment publié sur LinkedIn que la recherche dont elle était responsable chez OpenAI au cours de l'année écoulée n'avait pratiquement « aucun précédent existant » à suivre. La question centrale est la suivante : comment le modèle doit-il réagir face à une dépendance émotionnelle excessive chez les utilisateurs ou à des signes précoces de crise de santé mentale. Elle a travaillé chez OpenAI pendant trois ans, au cours desquels elle a créé et dirigé l'équipe de recherche « politique modèle » pour travailler sur le déploiement de GPT-4 et du modèle d'inférence de nouvelle génération GPT-5, et a participé à la conception d'une variété de méthodes de formation en sécurité grand public de l'industrie, y compris les « récompenses basées sur des règles ».

Aujourd’hui, Vallone a rejoint l’équipe d’alignement d’Anthropic, chargée d’identifier et de comprendre les risques importants que les grands modèles peuvent poser et d’explorer les moyens de les gérer. Elle rendra compte à Jan Leike, ancien responsable de la recherche en sécurité d'OpenAI, qui a quitté l'entreprise en mai 2024 en raison d'inquiétudes selon lesquelles « la culture et les processus de sécurité d'OpenAI avaient cédé la place à un produit brillant » avant de passer à Anthropic.

Au cours de l’année écoulée, les principales startups de l’IA ont continué de susciter une controverse publique autour des risques associés aux chatbots IA et à la santé mentale des utilisateurs. Certains utilisateurs ont encore aggravé leurs difficultés psychologiques après avoir discuté longtemps avec des chatbots, et leurs défenses de sécurité se sont progressivement effondrées au cours de longues conversations. Il y a même eu des incidents extrêmes, comme des adolescents qui se sont suicidés et des adultes qui ont commis un meurtre après s'être « confiés » à l'outil. Plusieurs cas ont incité des familles à intenter des poursuites pour mort injustifiée contre des sociétés liées. Une sous-commission du Sénat américain a également tenu des auditions sur cette question, demandant d'explorer le rôle et les responsabilités des chatbots dans de tels incidents, et il a été demandé aux chercheurs en sécurité de proposer des solutions plus efficaces.

Sam Bowman, l'un des chefs de l'équipe d'alignement d'Anthropic, a déclaré sur LinkedIn qu'il était "fier du sérieux avec lequel Anthropic prend ce problème" et que l'entreprise réfléchit sérieusement à "la façon dont les systèmes d'IA devraient se comporter". Vallone a écrit jeudi dans un nouveau message sur LinkedIn qu'elle "a hâte de poursuivre ses recherches chez Anthropic, en se concentrant sur l'élaboration du comportement de Claude dans de nouvelles situations grâce à l'alignement et à l'ajustement".