Le modèle Claude Sonnet 4 d'Anthropic prend désormais en charge jusqu'à 1 million de tokens

La startup d'intelligence artificielle Anthropic a annoncé aujourd'hui que son modèle populaire Claude Sonnet 4 LLM prend désormais en charge jusqu'à 1 million de jetons contextuels. Après Google Gemini, Anthropic devient le deuxième grand fournisseur de modèles à fournir 1 million de jetons contextuels.

Auparavant, l'API Claude Sonnet 4 ne prenait en charge que 200 000 jetons contextuels. Avec cette quintuple extension, les développeurs peuvent envoyer l’intégralité de leur base de code de plus de 75 000 lignes de code en une seule requête.

La prise en charge du contexte étendu est désormais en test public sur l'API Anthropic et Amazon Bedrock, avec Google Cloud Vertex AI bientôt disponible. Cependant, la prise en charge des contextes longs est actuellement limitée aux développeurs de niveau 4 et nécessite des limites de débit personnalisées. Anthropic note que cette fonctionnalité sera mise à la disposition d'un plus grand nombre de développeurs dans les semaines à venir.

Étant donné que les fenêtres de jetons plus grandes nécessitent une puissance de calcul plus élevée, Anthropic a introduit une tarification spéciale. Pour les invites inférieures à 200 000 jetons, Sonnet 4 coûte 3 $ par million de jetons d'entrée et 15 $ par million de jetons de sortie. Pour les invites contenant plus de 200 000 jetons, le coût est de 6 $ par million de jetons d’entrée et de 22,50 $ par million de jetons de sortie.

Les développeurs peuvent réduire les coûts en utilisant une mise en cache rapide et un traitement par lots. Par exemple, le traitement par lots peut offrir une réduction de 50 % sur le prix de la fenêtre contextuelle de 1 million.

Lors d'une récente session Reddit AMA, les dirigeants d'OpenAI ont discuté de la prise en charge de longues fenêtres contextuelles pour leurs modèles. Le PDG d'OpenAI, Sam Altman, a déclaré qu'OpenAI n'a pas vu une forte demande des utilisateurs pour de longues longueurs de contexte, mais que s'il y a suffisamment d'intérêt, ils sont prêts à le soutenir. Disposant d’une puissance de calcul limitée, ils souhaitent se concentrer sur d’autres priorités.

Michelle Pokrass de l'équipe OpenAI a écrit qu'ils auraient aimé fournir un contexte plus long dans GPT-5, jusqu'à 1 million de jetons, en particulier pour les cas d'utilisation de l'API, mais ils ne l'ont pas fait en raison de la forte demande de GPU.

La prise en charge du contexte 1M d'Anthropic le met en concurrence directe avec Google Gemini pour les capacités de contexte long, ce qui fait pression sur OpenAI pour qu'il repense sa feuille de route.