Selon des personnes proches du dossier, la société chinoise d'intelligence artificielle DeepSeek prévoit de publier la semaine prochaine la dernière génération de grand modèle de langage V4. Il s’agit de la première mise à jour majeure de l’entreprise depuis le lancement de son dernier produit à succès il y a plus d’un an. Cela est considéré comme une étape importante pour la Chine de continuer à défier ses concurrents américains dans le domaine de l’intelligence artificielle.

Selon deux personnes proches du dossier, DeepSeek a son siège à Hangzhou et le V4 lancé cette fois sera un modèle multimodal avec des capacités de génération d'images, de vidéos et de texte. Plusieurs personnes proches du dossier ont déclaré que DeepSeek avait coopéré avec les fabricants chinois de puces d'IA Huawei et Cambrian pour personnaliser et optimiser la V4 afin de l'adapter aux puces de dernière génération des deux parties, formant ainsi une collaboration plus étroite au niveau de la puissance de calcul. Cette décision est considérée comme un autre signe que les entreprises technologiques chinoises s'éloignent de plus en plus de leur dépendance à l'égard des puces d'IA haut de gamme de Nvidia, qui sont actuellement soumises aux contrôles à l'exportation des États-Unis et à des mesures connexes visant à freiner l'essor technologique de la Chine.
Le timing de cette sortie est également assez symbolique. DeepSeek prévoit de lancer la V4 à la veille des « Deux sessions » nationales annuelles de la Chine, qui s'ouvriront cette année le 4 mars. Cette réunion politique de haut niveau offre à l'entreprise une fenêtre d'exposition importante et pourrait renforcer davantage son image de « champion national de l'IA ».
Il s'agit de la première version majeure de DeepSeek depuis la sortie du modèle d'inférence R1 en janvier 2025. À cette époque, la société affirmait avoir formé un système dont les capacités étaient comparables aux principaux modèles avec une puissance de calcul bien inférieure à celle utilisée par les principales entreprises de la Silicon Valley. Cette nouvelle a autrefois provoqué un choc sur le marché boursier technologique américain. Certains analystes l'ont décrit comme un « moment Spoutnik » qui a marqué le rapide rattrapage de la Chine, voire sa réécriture du paysage dans le domaine de l'intelligence artificielle. Depuis lors, DeepSeek a lancé davantage de mises à jour incrémentielles qu'une nouvelle architecture complète, ce qui a également donné à des concurrents nationaux, notamment Alibaba et Moonshot, une marge de croissance supplémentaire sur le marché chinois des modèles open source et à faible coût.
Plusieurs personnes proches du dossier prédisent que l'optimisation par DeepSeek de la V4 spécifiquement pour les puces d'IA nationales contribuera à stimuler la demande du marché pour les puces locales et à accélérer le transfert vers des fabricants chinois tels que Huawei et Cambrian dans la phase d'inférence de modèle (c'est-à-dire le processus d'utilisation de modèles formés pour générer des réponses), réduisant ainsi la dépendance à l'égard des puces Nvidia et AMD. Reuters avait précédemment signalé les progrès de la coopération de DeepSeek avec Huawei et Cambrian. Une autre personne proche de la situation a déclaré que DeepSeek ne travaillait pas avec Nvidia sur l'optimisation V4.
Cependant, dans le domaine de la formation de modèles, NVIDIA domine toujours, en particulier dans la phase de pré-formation qui nécessite d'énormes quantités de puissance de calcul, et son GPU reste la norme de l'industrie. Le Financial Times avait précédemment rapporté que DeepSeek avait tenté de compléter cette formation initiale sur le matériel Huawei, mais avait rencontré des difficultés techniques au cours du processus. Lorsque la société a lancé le modèle R1 l'année dernière, elle a également publié un rapport technique détaillé expliquant comment entraîner et exécuter le modèle plus efficacement sur les puces NVIDIA. Les méthodes d’ingénierie pertinentes ont reçu une attention et des éloges généralisés. Certains initiés pensent que le partage par DeepSeek de ses méthodes de formation pour la construction de « modèles d'inférence » fournit en fait à d'autres laboratoires une voie d'ingénierie réutilisable, aidant ces derniers à améliorer les capacités d'inférence de modèles avec une puissance de calcul limitée.
Le « modèle d'inférence » fait référence à un paradigme de modèle spécifiquement optimisé pour résoudre des problèmes complexes. Son idée principale est de diviser le problème en plusieurs sous-problèmes qui peuvent être résolus étape par étape, puis de tirer la conclusion finale grâce à un raisonnement en plusieurs étapes. Des personnes proches du plan DeepSeek ont révélé que la société devrait publier la V4 la semaine prochaine avec un document de description technique plus court axé sur les points d'amélioration clés, et lancer un rapport technique plus détaillé environ un mois plus tard pour divulguer systématiquement l'architecture du modèle et les méthodes de formation.
Dans le même temps, la controverse autour de la propriété intellectuelle et de « l’emprunt » modèle s’intensifie également. Un peu plus tôt cette semaine, la société américaine d'IA Anthropic a accusé DeepSeek et deux autres laboratoires chinois d'IA d'avoir mené des « attaques par distillation » sur ses modèles, c'est-à-dire d'utiliser la sortie de modèles plus puissants pour entraîner de petits modèles, afin que ces derniers puissent s'approcher des performances des premiers sans utiliser directement le même niveau de ressources informatiques. Huawei, DeepSeek et Cambrian n'ont pas répondu aux demandes de commentaires.