La fenêtre contextuelle de Claude 1M est entièrement ouverte, la tarification est unifiée et les quotas médias sont considérablement augmentés

Anthropic a annoncé que la fenêtre contextuelle d'un million de jetons pour ses modèles phares Claude Opus 4.6 et Sonnet 4.6 est officiellement entièrement ouverte et facturée aux prix standards sur la plateforme Claude, sans prime de contexte longue supplémentaire.Dans le cadre du nouveau système de prix, Opus 4.6 maintient une entrée de 5 $ et une sortie de 25 $ par million de jetons, tandis que Sonnet 4.6 maintient une entrée de 3 $ et une sortie de 15 $ par million de jetons. Même s'il s'agit d'une demande de 900 000 jetons, ses frais unitaires en jetons sont exactement les mêmes qu'une demande de 9 000 jetons.

Dans cette ouverture complète, Anthropic a systématiquement amélioré ses capacités de contexte long et son expérience utilisateur. Tout d’abord, toutes les requêtes prenant en charge 1 million de fenêtres bénéficient de la même limite de débit que les requêtes ordinaires. Les développeurs n’ont pas besoin de mettre en œuvre des stratégies supplémentaires de répartition du trafic ou de rétrogradation dans des scénarios de concurrence élevée ou de conversations longues. Deuxièmement, le responsable a annulé l'en-tête de balise bêta précédemment requis lors de l'accès à des contextes contenant plus de 200 000 jetons. Désormais, les requêtes contenant plus de 200 000 jetons peuvent être appelées directement. Les applications existantes qui envoient encore des en-têtes bêta peuvent effectuer une transition en douceur sans modifier leur code.

Les capacités de traitement multimédia sont également l'un des objectifs de cette mise à niveau. Le nombre d'images ou de pages PDF que Claude peut recevoir en une seule demande est passé de 100 à 600, couvrant des scénarios multimodaux complexes tels que la révision de code, les documents juridiques, les articles de recherche scientifique, les journaux d'exploitation et de maintenance, etc., et a été lancé simultanément sur la plateforme Claude, Microsoft Azure Foundry, Google Cloud Vertex AI et d'autres canaux. Anthropic a déclaré que cet ajustement vise à permettre aux développeurs de contextualiser des centaines de pages de matériel à la fois sans avoir besoin d'une segmentation et d'une compression fréquentes, réduisant ainsi la complexité technique et la perte d'informations.

Dans les scénarios d’entreprise et professionnels, l’impact du contexte 1M est particulièrement important. Les responsables soulignent que le contexte long n'a de sens que s'il peut être « bien mémorisé et utilisé », c'est pourquoi des optimisations spéciales ont été réalisées sur Opus 4.6 et Sonnet 4.6 pour la mémoire à longue portée et les capacités de raisonnement. Dans les benchmarks tiers, Opus 4.6 a obtenu un score de 78,3 % sur MRCR v2 et Sonnet 4.6 a obtenu 68,4 % sur GraphWalks BFS (1 million de jetons), en tête parmi les modèles de pointe de même longueur de contexte.

Cela signifie que les développeurs peuvent charger un référentiel de code complet, des dizaines de milliers de pages de texte de contrat ou des traces d'appels d'outils, des enregistrements d'observation et des processus de raisonnement intermédiaires d'agents de longue durée en une seule session, sans avoir à s'appuyer sur un « glissement de fenêtre » complexe, « plusieurs séries de résumés » ou un nettoyage fréquent du contexte historique. Plusieurs partenaires ont souligné dans des citations que le contexte 1M permet à l'agent de fonctionner pendant des heures sans perdre de détails, ce qui non seulement réduit la perte d'informations clés causée par la compression, mais réduit également le coût des suppléments et des explications répétés lors de plusieurs cycles de débogage, de révisions de code et d'analyses d'exploitation et de maintenance à grande échelle.

Dans le domaine du développement de code, la fenêtre 1M d'Opus 4.6 a été entièrement intégrée à la gamme de produits Claude Code et est ouverte par défaut aux utilisateurs Max, Team et Enterprise sans configuration supplémentaire. Les développeurs ont signalé qu'après avoir étendu le contexte de 200 000 à 500 000, voire 1 million de jetons, l'agent était capable d'effectuer des tâches avec une consommation totale de jetons moindre lorsqu'il s'agissait de modifications de code importantes et de dépendances entre fichiers, réduisant ainsi les tours supplémentaires et les requêtes répétées provoquées par la division du contexte.

Les équipes opérationnelles et de sécurité sont également considérées comme des bénéficiaires directs des capacités à long contexte. Face à d'énormes systèmes de production et à des événements d'alarme complexes, les ingénieurs peuvent conserver toutes les entités, signaux et hypothèses de dépannage en une seule session, conservant ainsi un lien complet d'informations depuis l'alarme initiale jusqu'à l'atténuation du problème. Les partenaires affirment qu'avec le contexte 1M, ils n'ont plus besoin de « compresser la mémoire » fréquemment lors du traitement de journaux volumineux, de la surveillance des données et de l'état du système multi-source, ce qui réduit considérablement le risque de manquer des anomalies subtiles.

Pour les cabinets d’avocats, les instituts de recherche scientifique et les entreprises à forte intensité de données, les longues fenêtres contextuelles offrent un nouveau paradigme de traitement des connaissances. Le personnel juridique peut introduire plusieurs versions de centaines de pages de contrats à la fois pour examiner complètement les modifications apportées lors de plusieurs cycles de négociations ; les équipes de recherche scientifique peuvent intégrer simultanément des centaines d'articles, de formules mathématiques et de codes de simulation dans un seul processus de raisonnement pour construire une analyse complète de documents et de modèles. Certaines institutions collaboratrices affirment que cette capacité « d'intégration unique » accélère considérablement le rythme itératif de la recherche fondamentale et appliquée.

En termes de canaux d'accès, le contexte 1M a été activé sur la plateforme native de Claude et fourni via des services cloud tels qu'Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, et est ouvert simultanément aux entreprises et aux développeurs. Anthropic fournit la documentation technique et les pages de tarification correspondantes pour faciliter l'évaluation par l'équipe des coûts d'intégration et des stratégies de déploiement, et souligne que toutes les demandes actuelles prenant en charge la fenêtre 1M continueront d'utiliser les normes de facturation existantes.

Anthropic a déclaré qu'à mesure que le contexte 1M entre dans la phase entièrement disponible, l'équipe continuera à itérer sur la stabilité du raisonnement à long terme, la compréhension intermodale et les capacités d'intégration au niveau de l'entreprise, dans l'espoir d'aider les utilisateurs à passer de « faire des compromis d'ingénierie autour de la longueur d'entrée » à « concevoir des agents autour du problème commercial lui-même ». Les développeurs et les utilisateurs d'entreprise peuvent immédiatement activer cette fonctionnalité via la plateforme Claude et les principaux partenaires cloud pour mettre à niveau en douceur les applications existantes vers l'ère du contexte long.