Alors que DeepSeekR1, Grok3 et Claude3.7 ont fait leurs débuts l'un après l'autre en seulement un ou deux mois, OpenAI a ajouté GPT-4.5 à cette compétition de grands modèles de plus en plus féroce hier et jeudi. La vitesse de développement de l’IA est stupéfiante et le cycle de mise à jour et d’itération des modèles est constamment compressé. L’industrie et le monde universitaire déplorent l’évolution rapide de l’intelligence artificielle.

GPT-4.5, nom de code « Orion », est le modèle dans lequel OpenAI a investi le plus de ressources informatiques et de données à ce jour. Ses débuts ont déclenché une réflexion approfondie dans l'industrie pour savoir si les méthodes traditionnelles de pré-formation avaient atteint leur plafond. Malgré sa grande échelle, OpenAI a souligné dans le livre blanc qu'il ne considère pas GPT-4.5 comme un modèle de pointe.

À partir du jeudi 27 février, les utilisateurs qui s'abonnent au forfait ChatGPTPro mensuel de 200 $ d'OpenAI pourront utiliser GPT-4.5 dans ChatGPT pendant une phase de prévisualisation de la recherche. Les développeurs utilisant les forfaits payants d'OpenAIAPI peuvent également utiliser GPT-4.5 à partir d'aujourd'hui. Quant aux autres utilisateurs de ChatGPT, un porte-parole d'OpenAI a déclaré à TechCrunch que les clients qui se sont inscrits à ChatGPTPlus et ChatGPTTeam devraient avoir accès au modèle la semaine prochaine.


(Par rapport à GPT-4o et GPT-4omini, le prix de l'API de GPT-4.5 est trop cher)

L’industrie attend avec impatience Orion, que certains considèrent comme un indicateur de la faisabilité des méthodes traditionnelles de formation en IA. Le développement de GPT-4.5 utilise la même technologie clé utilisée par OpenAI pour développer GPT-4, GPT-3, GPT-2 et GPT-1 - une augmentation significative de la puissance de calcul et du volume de données dans une étape de « pré-formation » appelée apprentissage non supervisé. Dans chaque génération de GPT avant GPT-4.5, la mise à l'échelle a entraîné d'énormes progrès en termes de performances dans des domaines tels que les mathématiques, l'écriture et la programmation. En effet, OpenAI affirme que l’échelle accrue de GPT-4.5 lui confère « une connaissance plus approfondie du monde » et une « intelligence émotionnelle plus élevée ». Cependant, certains signes indiquent que les gains issus de l’expansion des données et de la puissance de calcul commencent à se stabiliser. Cependant, dans certains benchmarks d'IA, GPT-4.5 fonctionne moins bien que DeepSeek, Anthropic et les nouveaux modèles « d'inférence » d'IA d'OpenAI.

OpenAI a admis que GPT-4.5 est également très coûteux à exploiter – si cher que la société a déclaré qu'elle évaluait l'opportunité de continuer à fournir des services GPT-4.5 dans son API à long terme.

"Nous partageons GPT-4.5 comme aperçu de la recherche pour mieux comprendre ses forces et ses limites", a déclaré OpenAI dans un article de blog partagé. "Nous explorons encore ses capacités et sommes impatients de voir les gens l'utiliser d'une manière que nous n'aurions peut-être pas imaginée."

Performance globale

OpenAI souligne que GPT-4.5 n'est pas destiné à remplacer complètement GPT-4o, le modèle phare de l'entreprise qui alimente la plupart des API et ChatGPT. Bien que GPT-4.5 prenne en charge des fonctionnalités telles que le téléchargement de fichiers et d'images et les outils de canevas de ChatGPT, il lui manque actuellement certaines fonctionnalités, telles que la prise en charge du mode vocal bidirectionnel réaliste de ChatGPT.

En termes d'avantages, le GPT-4.5 est plus performant que le GPT-4o et dépasse de nombreux autres modèles. Sur le benchmark SimpleQA d'OpenAI, qui évalue la capacité d'un modèle d'IA à traiter des questions directes et factuelles, GPT-4.5 a surpassé GPT-4o et les modèles d'inférence d'OpenAI o1 et o3-mini en termes de précision. Selon OpenAI, GPT-4.5 hallucine moins fréquemment que la plupart des modèles, ce qui signifie théoriquement qu'il devrait être moins susceptible d'inventer des choses.

OpenAI ne répertorie pas deepresearch, l'un de ses principaux modèles d'inférence d'IA, dans le test SimpleQA. Notamment, le modèle DeepResearch de la startup d’IA Perplexity a fonctionné de manière similaire à la recherche approfondie d’OpenAI sur d’autres références, mais a surpassé GPT-4.5 sur ce test d’exactitude factuelle.


Dans le benchmark SWE-BenchVerified, un sous-ensemble de problèmes de programmation, les performances de GPT-4.5 sont à peu près équivalentes à celles de GPT-4o et o3-mini, mais pas aussi bonnes que celles de deepresearch d'OpenAI et du modèle Claude3.7Sonnet d'Anthropic. Dans un autre test de programmation, le benchmark SWE-Lancer d'OpenAI, qui mesure la capacité d'un modèle d'IA à développer des fonctionnalités logicielles complètes, GPT-4.5 a obtenu de meilleurs résultats que GPT-4o et o3-mini, mais toujours pas aussi bien que le modèle de recherche approfondie.



Bien que GPT-4.5 ne parvienne pas à atteindre les niveaux de performance des principaux modèles d'inférence d'IA tels que o3-mini, DeepSeek R1 et Claude3.7Sonnet (techniquement un modèle hybride) sur des références académiques difficiles telles que AIME et GPQA, il égale ou dépasse les principaux modèles de non-inférence dans ces mêmes tests, indiquant que le modèle fonctionne bien sur les problèmes liés aux mathématiques et aux sciences.

OpenAI affirme également que GPT-4.5 surpasse qualitativement les autres modèles dans des domaines que les benchmarks ne capturent pas bien, comme la capacité à comprendre l'intention humaine. OpenAI affirme que GPT-4.5 répond avec un ton plus chaleureux et plus naturel et fonctionne bien dans les tâches créatives telles que l'écriture et la conception.

Nos résultats de mesure réels montrent que GPT-4.5 n'est pas un modèle de raisonnement (ReasoningModel). Il n’est pas conçu pour le codage ou les mathématiques. Il est conçu pour la créativité et l’écriture.

Lors d'un test informel, OpenAI a demandé à GPT-4.5 et à deux autres modèles (GPT-4o et o3-mini) de créer des images de licornes en utilisant SVG, un format d'affichage de graphiques basé sur des formules et du code mathématiques. En conséquence, seul GPT-4.5 a créé une image semblable à une licorne.


Dans un autre test, OpenAI a demandé à GPT-4.5 et à deux autres modèles de répondre à l'invite : "Je traverse une période difficile après avoir échoué à un test." GPT-4o et o3-mini ont fourni des informations utiles, mais les réponses de GPT-4.5 ont été les plus performantes en termes d'adéquation sociale.


La loi de l’expansion reste confrontée à des défis

Le GPT-4.5 d’OpenAI est « à la pointe de ce qui est possible avec l’apprentissage non supervisé ». C'est peut-être vrai, mais les limites du modèle semblent également confirmer les soupçons des experts selon lesquels la « loi de l'expansion » de la pré-formation n'est plus vraie.

Le co-fondateur d'OpenAI et ancien scientifique en chef, Ilya Sutskever, a déclaré en décembre que "nous avons atteint le pic des données" et que "la pré-formation telle que nous la connaissons prendra sans aucun doute fin". Ses commentaires font écho aux préoccupations que les investisseurs, fondateurs et chercheurs en IA ont partagées avec TechCrunch en novembre.

Confrontée à des obstacles préalables à la formation, l'industrie, y compris OpenAI, a commencé à adopter des modèles inférentiels, qui prennent plus de temps à exécuter des tâches que les modèles non inférentiels, mais sont souvent plus cohérents. En augmentant le temps et la puissance de calcul dont dispose un modèle d'inférence d'IA pour « réfléchir » à un problème, AI Labs est convaincu qu'il peut améliorer considérablement les capacités du modèle. OpenAI prévoit de combiner à terme sa famille de modèles GPT avec ses modèles d'inférence de la série O, en commençant par GPT-5 plus tard cette année. GPT-4.5 étant apparemment extrêmement coûteux à former, ayant retardé sa sortie à plusieurs reprises et ne répondant pas aux attentes internes, il ne sera peut-être pas en mesure de remporter à lui seul la couronne de référence en matière d'IA. Mais OpenAI y voit probablement un tremplin vers une technologie plus puissante.