Lorsque la nouvelle s'est répandue du lancement de Google Gemini 3,Musk a fait un pas plus rapide et a silencieusement lancé un grand mouvement. Tôt ce matin,xAILe dernier grand modèleGrok 4.1Il a été mis en ligne directement, le taux de réponse a été considérablement amélioré, le taux d'hallucinations a été considérablement réduit et les réponses étaient à la fois précises et « humaines ».

Cette fois, un total deDeux "formes":Grok 4.1etGrok 4.1 Réflexion. La version Thinking est une variante d'inférence améliorée de la première. Les deux sont basés sur le même modèle sous-jacent et n’ont que des configurations d’inférence différentes.

Il convient de mentionner queGrok 4.1 est gratuit pour tout le monde, en plus d'être utilisé sur le site officiel de Grok et X,Une version mobile APP a également été lancée, les systèmes iOS et Android sont pris en charge.


Si vous souhaitez une réponse plus approfondie et professionnelle, vous pouvez « faire réfléchir Think plus fort » en un seul clic.

depuisLMArenaEn regardant les derniers résultats, Grok 4.1 Thinking1483 ÉloLa faute ouvre la voie,31 points de plus que Gemini 2.5 Pro.

Même sans la chaîne de réflexion activée, Grok 4.1 reste toujours à la deuxième place de la liste, démontrant la stabilité des capacités sous-jacentes.


De nombreux internautes se sont exclamés : « Ça sent vraiment bon ». Être comme:


Bien sûr, il y a aussi quelques doutes. Par exemple, certaines personnes ont souligné que Grok n’est pas très compétitif dans la génération de code.


Grok4.1 "double forme" domine LMArena

Tout d'abord, à proposQu'est-ce que la pensée Grok4.1 et Grok4.1, autant y jeter un oeilGrok4.1 propre explication:

Grok 4.1 est le dernier modèle de langage étendu de pointe (une version améliorée de Grok 4) publié par xAI le 17 novembre 2025. Il a considérablement amélioré l'intelligence conversationnelle, la compréhension émotionnelle, l'écriture créative, l'exactitude factuelle et la vitesse de réponse.

Grok 4.1 Thinking (parfois appelé Grok 4.1 Thinking, nom de code quasarflux) est un mode de pensée/raisonnement (mode de raisonnement) du même modèle. Il utilisera en outre des « jetons de réflexion » pour la chaîne de pensée, adaptés aux mathématiques complexes, à la programmation ou aux problèmes en plusieurs étapes.

Grok 4.1 Thinking est une variante d'inférence améliorée de Grok 4.1 ; les deux sont basés sur le même modèle sous-jacent et n’ont que des configurations d’inférence différentes.


Sur la plateforme de tests aveugles de grands modèles la plus grande et la plus influente au mondeLMArenaSur le marché, Grok4.1 a montré des capacités révolutionnaires.

En tant que « liste standard non officielle » généralement reconnue par l'industrie, LMArena évalue la qualité des modèles au moyen de batailles anonymes en double aveugle et de votes réels des utilisateurs. C'est un lieu régulier où des entreprises de premier plan telles que OpenAI, Google, Anthropic et Meta testent de nouveaux modèles. Il est également souvent utilisé pour publier à l’avance des versions inédites.

Par conséquent, gagner ici signifie presque la double reconnaissance des préférences réelles de l’utilisateur et de la capacité globale du modèle. C’est une manière d’observer la véritable force du modèle.L'indicateur le plus crédible.

Dans un espace public aussi compétitif, la série Grok 4.1 de xAI a remporté un événement très précieux."Double couronne" :La version Grok 4.1 Thinking a remporté le championnat avec 1483 Elo, tandis que la version sans raisonnement Grok 4.1 a également remporté la deuxième place avec 1465 Elo.

Ce qui est particulièrement remarquable, c'est que les performances de cette version sans inférence à « réponse instantanée » surpassent en fait tous les modèles d'inférence de tous les autres fabricants.Pour la première fois, "Quick Model" a également atteint le premier échelon des meilleures performances, et a également laissé la génération précédente Grok 4 loin derrière à la 33e place.

La clé de ces résultats exceptionnels réside dansReconstruction des méthodes de formation.

xAI introduit pour Grok 4.1Système d'apprentissage par renforcement à grande échelle, et utiliserModèles d'inférence de pointe comme modèles de récompense, lui permettant d'évaluer de manière indépendante et d'itérer rapidement pendant le processus de formation. Cela conduit directement à un style plus stable, à un jugement des faits plus fiable et à un taux d'hallucinations plus faible.

Dans la phase post-formation de Grok 4.1, xAI concentre l'optimisation sur les invites de récupération d'informations.hallucinationsupérieur.

Ces changements dans les méthodes sous-jacentes se sont rapidement transformés en améliorations factuelles significatives dans les tests réels. Les dernières données montrent queLe taux d'hallucinations Grok 4.1 est passé de 12,09 % à 4,22 %, soit une baisse de près de trois fois., devenant l’une des améliorations les plus importantes de cette mise à niveau.

Afin de vérifier davantage cette capacité « plus précise », l’équipe a également introduit un système de référence externe plus strict. L'une des mesures les plus critiques est le FActScore - un ensemble de 500 questions biographiques réelles conçues pour tester les performances du modèle en matière de recherche, de détermination des faits et de cohérence des réponses.


Dans ce test, le FActScore du Grok 4.1 est passé de 9,89 à 2,97, une amélioration tout aussi significative de la crédibilité. En combinaison avec le graphique, vous pouvez voir de manière plus intuitive : dans le même mode de non-inférence, Grok 4.1 présente moins d'erreurs, des écarts plus petits et le résultat global est plus fiable.

Cela signifie que dans les scénarios impliquant la récupération, le référencement ou l’invocation de faits externes, le nouveau modèle ne repose plus sur des suppositions sémantiques mais peut donner plus précisément des réponses fondées sur des preuves.

En d'autres termes, Grok 4.1 a franchi une étape clé dans la « stabilité factuelle » qui est la plus difficile à franchir dans les grands modèles : il réduit non seulement le nombre d'erreurs, mais réduit également la « fausse confiance ». Et c’est justement le seuil que doivent franchir les grands modèles pour passer du « parlant » au « crédible ».

Pendant ce temps, Grok 4.1"Intelligence émotionnelle"Des progrès significatifs ont également été réalisés.

Lors du test EQ-Bench, Grok 4.1 a obtenu un score élevé de 1586 Elo, soit plus d'une centaine de points de plus que la génération précédente. Si le simple fait de regarder les chiffres n'est pas assez intuitif, alors les images peuvent mieux expliquer le problème : sur la liste, Grok 4.1 et la version Thinking occupent fermement les deux premiers, laissant derrière eux un certain nombre de modèles phares. Les anciennes centrales telles que GPT-5 Chat, Gemini 2.5 Pro et Claude Opus 4 ont toutes été facilement ouvertes par celui-ci.

EQ-Bench est un ensemble de tests d'intelligence émotionnelle à grande échelle jugé par un grand modèle qui évalue la compréhension émotionnelle proactive, la perspicacité, l'empathie et les compétences interpersonnelles. Il ne repose pas sur une seule série de questions et réponses, mais se compose de 45 scénarios de jeu de rôle, chacun contenant 3 tours, simulant de véritables « conversations émotionnelles » dans le monde réel. Les modèles doivent maintenir un style cohérent, comprendre le contexte émotionnel et réagir de manière appropriée au cours des conversations consécutives. Les résultats finaux sont obtenus par comparaison par paires et sont normalisés sous forme Elo. On peut dire qu'EQ-Bench peut être utilisé comme une liste faisant autorité pour tester « l'intelligence émotionnelle » de chaque modèle.


Pourquoi Grok 4.1 peut-il obtenir des résultats aussi exceptionnels dans EQ-Bench ?

Nous pouvons trouver la réponse dans un tableau comparatif officiel sur « réconforter les chats perdus ».

La réponse de l'ancienne version de Grok est déjà douce et attentionnée, mais l'expression de Grok 4.1 est évidemment plus délicate : elle dit non seulement "Je comprends ta tristesse", mais capture également les détails les plus subtils et réels de l'émotion - comme le nid de sommeil vide, le miaulement que l'on attend avec impatience mais que l'on n'entend plus, le genre de tristesse qui revient comme une marée. Le ton est plus soutenu, le rythme est plus naturel et la résonance émotionnelle est plus présente. On dirait que vous avez une conversation avec quelqu'un qui vous comprend vraiment.


Cela place Grok 4.1 au premier échelon de la compréhension émotionnelle

En plus de sa fiabilité factuelle, Grok 4.1compétences en écriture créativeIl y a eu aussi un énorme bond.

Dans Creative Writing v3, le score de Grok4.1 est passé à 1722Elo, soit près de 600 points de plus que la version précédente. Le rythme narratif, la ductilité du style et la créativité du texte ont tous bondi.

La référence elle-même, Creative Writing v3, n’est pas un simple « cycle unique de notation ». Lors du test, le modèle devait mener trois cycles de création indépendante autour de 32 catégories différentes d'invites d'écriture, couvrant des tâches complexes telles que la narration, l'imitation de style, la construction du monde et la représentation des émotions des personnages. Le test n’était pas l’ingéniosité d’une phrase, mais la capacité de création de texte soutenue et stable. La méthode de notation est également similaire à celle d'EQ-Bench. Le score Elo standardisé est obtenu grâce à des critères de notation manuels et à une compétition de modèles.


Dans cette liste, Grok 4.1 Thinking et Grok 4.1 occupent la deuxième et la troisième place, avec seulement une douzaine de points d'écart entre les deux ; tandis que d'autres modèles forts tels que l'O3, le Claude Sonnet 4.5, le Kimi K2 et l'ancien Grok 3 sont fermement laissés pour compte, formant une stratification évidente des notes.

En d’autres termes, Grok 4.1 est entré dans « l’échelon d’écriture créative » le plus puissant au monde.

De la comparaison officielle des anciennes et nouvelles versions, nous pouvons clairement voir que Grok 4.1 est passé d'un modèle capable d'écrire des blagues à un créateur avec de véritables touches littéraires : des récits plus profonds, des émotions plus complexes, une rhétorique plus mature et des personnages plus immersifs.


Ces améliorations se reflètent finalement dansMeilleure expérience interactivesupérieur. Grok 4.1 a une « personnalité » plus stable, une compréhension plus détaillée des intentions des utilisateurs et un ajustement de style plus naturel. Même en mode sans raisonnement, il peut produire de manière stable des réponses de haute qualité tout en conservant une vitesse de réponse extrêmement rapide.

Un exemple intuitif est la comparaison des stratégies de voyage officiellement affichées. Le contenu proposé par l'ancienne version de Grok s'apparente à un « aperçu des attractions de type encyclopédie », avec une forte densité d'informations mais un manque de rythme ; tandis qu'en écrivant sur San Francisco, Grok 4.1 est comme un guide local qui a vraiment « été là-bas » et « comprend l'atmosphère ». Il vous demandera de manière proactive les heures de prise de photos, vous recommandera des itinéraires qui vous conviennent et fera même ressortir le tempérament spécifique de la ville, ce qui ressemblera davantage à une communication avec une personne réelle.


Dans le traitement de tâches complexes, la fenêtre contextuelle de Grok 4.1 est étendue à 256 000 jetons et jusqu'à 2 millions en mode Rapide, ce qui lui permet de maintenir une cohérence élevée et de réduire considérablement les « fragments » dans la compréhension de documents longs, la collaboration continue et la génération de contenu à grande échelle.

Dans l'ensemble, l'amélioration de Grok 4.1 ne constitue pas une avancée unique, mais une mise à niveau complète depuis les performances et la factualité vers l'intelligence émotionnelle, la créativité et l'expérience interactive.

Avant ses débuts officiels, Grok 4.1 avait en fait connu une « version silencieuse » de deux semaines. Du 1er au 14 novembre 2025, xAI basculera progressivement une partie du trafic utilisateur réel vers Grok 4.1 dans grok.com, X et les applications mobiles pour observer ses performances dans des environnements réels.

Le résultat le plus intuitif de cette étape est clairement reflété dans le diagramme circulaire de 64,78 % : sous le principe d'une comparaison en double aveugle et de l'ignorance de l'utilisateur, la réponse de Grok 4.1 a une probabilité de 64,78 % d'être sélectionnée comme « meilleure » ​​par l'utilisateur. Autrement dit, face au même problème, les utilisateurs préfèrent Grok 4.1 dans plus de 60 % des cas.

On peut dire que la compréhension émotionnelle plus élevée, les réponses factuelles plus stables et le style d'interaction plus naturel démontré par Grok 4.1 ont tous été « estampillés » par les votes des utilisateurs réels grâce à des tests silencieux.


Qu'il s'agisse de la double couronne LMArena, de la chute abrupte du taux d'hallucinations ou de l'amélioration globale de l'écriture créative et des capacités émotionnelles, la nouvelle génération de Grok est passée de « fonctionnalité forte » à « expérience forte » et a également fourni une réponse très convaincante pour xAI lors du grand concours de modèles de cette année.

Nous avons effectivement testé Grok4.1

AI Frontline a également commencé à tester Grok4.1.

le premier estcapacité de raisonnementPour le test, nous avons conçu une question qui semble normale mais qui est en réalité « frauduleuse » (avec 2 ensembles de solutions) (vous pouvez la vérifier vous-même) :

« Quatre élèves ont participé au concours de mathématiques, à savoir : Little A, Little B, Little C et Little D. Après le concours, ils ont porté les quatre jugements suivants sur leur classement : (1) Little A a dit : « Je ne suis pas la première place. » (2) Petit B a dit : « Je ne suis pas non plus le dernier. " (3) Petit C a dit : "Je suis la deuxième place" (4) Petit D a dit : "Je ne suis pas la dernière place. " Connu:Une seule de ces quatre phrases est vraie, et les classements des quatre personnes sont différents.

Question : Quelle phrase est vraie ? Quel est le classement de chacune des quatre personnes ? Veuillez donner votre raisonnement. "

Grok a trouvé avec succès 2 ensembles de solutions et corrigé les bugs de manière proactive.


Cependant, il convient de noter queEn fait, il s'est "renversé" lorsqu'il a pris l'initiative de corriger le bug problématique., Grok a proposé que si ce que dit le petit C était remplacé par : « Le petit B est la deuxième place », alors la réponse serait unique.

Mais après la modification, il y a en réalité de nombreux résultats : premièrement, si seul B dit la vérité, les seuls classements déterminés à ce moment sont A1, C2, B3 et D4 ; Deuxièmement, si seul D dit la vérité, seuls A1 et B4 peuvent être déterminés à ce moment-là. C et D sont respectivement classés 2e et 3e, mais ils ne sont pas uniques.

Jetons un coup d'œil à Grokcapacité d'écriture.

Nous donnons une invite comme celle-ci :

Utilisez un ton de narration pour raconter l’histoire de la sortie de Grok4.1 par Musk xAI avec précision, vivacité et contagiosité. Nombre de mots requis : 500 à 600 mots, doivent inclure : l'heure de sortie, les points forts du produit, le contexte du marché, etc.

La réponse de Grok4.1 est la suivante, et il a également compté le nombre de mots de manière réfléchie : 578 – mais disons simplement que Grok compte probablement le nombre de mots anglais (ou est-il mauvais en mathématiques ?), et nous avons compté manuellement le nombre de mots en utilisant Word : 861 mots.


Enfin, nous avons testé Grok4.1Capacités de génération d'images, l'effet est bon : Grok a généré deux images basées sur une invite, qui ressemblent vraiment à de vraies photos (mais veuillez évaluer les détails par vous-même).


De plus, il peut également générer des vidéos directement basées sur des images en un seul clic. L'effet est le suivant :


Les lecteurs intéressés peuvent également l’essayer.