OpenAI lance le modèle de programmation GPT‑5.1-Codex-Max conçu pour les tâches de longue durée

OpenAI a publié aujourd'hui GPT‑5.1-Codex-Max, un modèle de codage agentique de nouvelle génération conçu pour les tâches de longue durée. Par rapport aux modèles précédents, GPT‑5.1-Codex-Max utilise la technologie de « compactage », qui peut fonctionner sur plusieurs fenêtres contextuelles et peut même traiter de manière fiable des millions de jetons en une seule tâche. OpenAI a déclaré que le modèle améliore non seulement les performances, mais permet également une utilisation plus rapide et plus efficace des jetons.

Il est entendu que le processus de formation GPT‑5.1-Codex-Max couvre des tâches réelles d'ingénierie logicielle, telles que la création de relations publiques, la révision de code, le développement frontal et les questions et réponses, etc., et a surpassé les modèles précédents dans de nombreuses évaluations de programmation de pointe. Par exemple, le modèle a obtenu un score de 77,9 % sur SWE-Bench Verified (500 échantillons), de 79,9 % sur l'évaluation SWE-Lancer IC SWE et de 58,1 % sur l'évaluation TerminalBench 2.0, tous supérieurs aux performances précédentes de GPT-5.1-Codex.

En plus de prendre en charge les plates-formes Unix, GPT‑5.1-Codex-Max est spécifiquement formé pour les environnements Windows. Dans les reconstructions complexes et les boucles d'agents de longue durée, la plupart des modèles de codage sur le marché sont limités par la fenêtre contextuelle et sont difficiles à travailler en continu. GPT‑5.1-Codex-Max, en revanche, peut fonctionner de manière autonome pendant des heures, voire des dizaines d'heures, en compressant automatiquement le contenu de la session lorsqu'il approche de la limite de la fenêtre. Selon les données de test internes d'OpenAI, le modèle peut fonctionner en continu pendant plus de 24 heures.

De plus, grâce à des capacités de raisonnement améliorées, GPT‑5.1-Codex-Max utilise 30 % de jetons de réflexion en moins que GPT-5.1-Codex lors de l'exécution de la même tâche sur SWE-Bench Verified. Grâce au mode de raisonnement « Extra High (xhigh) », le modèle peut engager une réflexion plus approfondie sur des tâches complexes.

Actuellement, GPT‑5.1-Codex-Max a été lancé dans les produits Codex CLI, les extensions IDE, le cloud et la révision de code, prenant en charge les utilisateurs abonnés premium ChatGPT Plus, Pro, Business, Edu et Enterprise. Dans le même temps, OpenAI introduira également ce modèle dans l'API dans un avenir proche et le remplacera par le modèle par défaut du Codex.