Si vous pouviez résumer le rythme actuel du cercle des grands modèles d'IA en un mot, « Vitesse DeepSeek » ne pourrait pas être plus approprié. Moins de cinq jours après la sortie de la version texte uniquement de la V4, le responsable a organisé une campagne éclair de « trois séries de baisses de prix consécutives ». Avant que l'industrie ne puisse se redresser, le prochain atout avait déjà fait surface : le V4 « complet » doté de capacités multimodales, entrant officiellement dans le compte à rebours avant sa sortie.

Le chercheur principal révèle personnellement : la capacité visuelle native arrive
Chen Xiaokang, membre principal de l'équipe multimodale DeepSeek, a récemment publié un article sur la plateforme X, annonçant clairement l'arrivée de la « nouvelle version de DeepSeek V4 ». Combinée au contexte actuel, cette « nouvelle version » sera presque certainement la version multimodale tant attendue.

Depuis le lancement de la V4, la plus grande discussion animée et une trace de regret dans l'industrie pointent tous vers la même chose : seuls deux modèles textuels, Flash (rapide) et Pro (expert), ont été lancés dans la première vague. Les capacités de texte pur constituent certainement la base, mais dans le domaine actuel des grands modèles, la « multimodalité native » a longtemps été la clé pour accéder aux échelons supérieurs. Sans compréhension visuelle des images et des vidéos, la limite supérieure du modèle dans des scènes réelles complexes sera fermement verrouillée. Le lancement de la version multimodale est cette fois une étape clé pour DeepSeek pour combler la dernière lacune.

L'APP a déjà eu un indice : il ne s'agit pas de points courants, mais d'« abordabilité »


Des utilisateurs attentifs ont découvert qu'après la récente mise à jour du client DeepSeek, la barre de sélection du modèle a discrètement ajouté trois options indépendantes : "Rapide", "Expert" et "Visuel". Les deux premiers correspondent aux Flash et Pro de la V4, et l'option "Visuel", qui était à l'état "à activer", est évidemment une interface réservée à la nouvelle version à venir de la V4 multimodale.

Quant à quel rang ce pur V4 multimodal peut atteindre en termes de puissance dure ? Aucune donnée spécifique n’est encore disponible. Cependant, en se référant aux performances dominantes du V4 Pro dans le domaine du texte brut, l'industrie prédit généralement que ses capacités visuelles seront au moins fermement au premier échelon - cependant, cela n'a jamais été ce qui intéresse le plus DeepSeek.

Le véritable atout : « faire baisser » le prix de la multimodalité
Pour DeepSeek, qui a toujours emprunté un chemin non conventionnel, se précipiter aveuglément dans les classements n’est pas l’objectif premier. « Ramener le prix des grands modèles multimodaux au prix du chou, afin que les développeurs et les utilisateurs ordinaires puissent vraiment se les permettre » est son véritable atout. Rappelons que V4 a organisé « trois séries de baisses de prix » cinq jours seulement après sa sortie. Si le coût des appels API multimodaux ultérieurs est également réduit au prix plancher, le remaniement du secteur sera bien plus intense que la guerre des prix dans le domaine du texte brut.

Résumé en une phrase : L'arrivée de la version multimodale V4 n'est pas seulement une capacité complémentaire, mais aussi le point de départ pour DeepSeek pour renverser la grille des prix des pistes multimodales.