Jeudi, OpenAI a officiellement publié une nouvelle génération de modèles de base, GPT‑5.4, la positionnant comme « le modèle le plus puissant, le plus efficace et le plus avancé pour le travail professionnel à ce jour ». En plus de la version standard, OpenAI a lancé simultanément deux variantes : GPT‑5.4 Thinking, qui met l'accent sur les capacités de raisonnement complexes, et GPT‑5.4 Pro, qui est destiné aux scénarios d'application hautes performances.

En termes de capacités de modèle, la version API de GPT‑5.4 prend en charge une fenêtre contextuelle allant jusqu'à 1 million de jetons, dépassant de loin tout modèle précédemment fourni par OpenAI, ce qui est bénéfique pour le traitement de flux de travail à longue chaîne tels que des documents longs, des projets complexes ou des tâches à plusieurs tours. OpenAI a également souligné l'amélioration de l'efficacité de l'utilisation des jetons, affirmant que GPT-5.4 peut effectuer des tâches de la même difficulté que le modèle de la génération précédente avec beaucoup moins de jetons, offrant ainsi des avantages en termes de coût et de vitesse de réponse.
Les derniers résultats des tests de référence montrent que GPT‑5.4 a obtenu une avance significative dans plusieurs évaluations faisant autorité, notamment en établissant de nouveaux records dans les deux tests de scénario « fonctionnement informatique » d'OSWorld‑Verified et WebArena Verified, et en obtenant le score le plus élevé de 83 % sur l'ensemble d'évaluation du travail de connaissances d'OpenAI, GDPval. GPT‑5.4 s'est également classé premier dans le benchmark APEX‑Agents établi par la startup Mercor pour des compétences professionnelles telles que le droit et la finance.
Brendan Foody, PDG de Mercor, a déclaré dans un communiqué que GPT‑5.4 excelle dans la production de livrables à long terme, notamment des présentations, des modèles financiers et des analyses juridiques, « tout en maintenant des performances optimales, plus rapidement et à moindre coût que des modèles de pointe comparables ».
En termes de fiabilité, GPT‑5.4 poursuit l’orientation de recherche et développement d’OpenAI pour réduire les « illusions » et les erreurs factuelles. Les résultats officiels de l'évaluation interne montrent que par rapport à GPT-5.2, le nouveau modèle présente une réduction de 33 % de la probabilité d'erreurs au niveau d'une seule déclaration et une réduction de 18 % de la probabilité d'erreurs dans la réponse globale.
Cette version s'accompagne également d'un changement important au niveau de la couche API : OpenAI lance un nouveau mécanisme d'appel d'outils appelé Tool Search. Dans l’ancienne solution, l’invite système devait injecter simultanément les définitions de tous les outils disponibles dans le modèle. À mesure que le nombre d'outils augmente, cette partie de l'invite elle-même occupera une grande quantité de jetons. La nouvelle recherche d'outils permet aux modèles d'interroger les définitions d'outils à la demande, réduisant ainsi considérablement la surcharge dans les systèmes dotés d'outils de plus grande taille, rendant les appels plus rapides et moins coûteux.
En se concentrant sur la sécurité et la contrôlabilité, OpenAI a ajouté cette fois une nouvelle évaluation de la sécurité pour tester les performances de la « chaîne de pensée » du modèle dans des tâches en plusieurs étapes. Les chercheurs craignent depuis longtemps que les modèles dotés de capacités de raisonnement puissent « dissimuler » ou cacher le véritable cheminement du raisonnement au cours du processus de réflexion en chaîne. Des recherches antérieures ont montré que cela peut effectivement se produire sous certaines conditions. De nouveaux résultats d'évaluation donnés par OpenAI montrent que dans la version de GPT-5.4 Thinking, la probabilité d'une telle performance « trompeuse » est encore plus faible. "Cela montre que le modèle n'a pas la capacité de masquer activement le processus de raisonnement, et que la surveillance de la chaîne de réflexion reste un outil de sécurité efficace."
Grâce au lancement simultané de GPT‑5.4 et de ses versions Pro et Thinking, OpenAI tente de trouver un nouvel équilibre entre productivité professionnelle, rentabilité et contrôlabilité de la sécurité, en poussant les grands modèles plus loin dans des scénarios à grande valeur tels que le droit, la finance et le travail de connaissances.