Ce modèle a obtenu une licence MIT, ce qui signifie qu'il peut être utilisé librement à des fins commerciales, et les premiers tests effectués dans l'industrie ont confirmé que le modèle peut fonctionner directement sur du matériel grand public, tel que le Apple MacStudio haut de gamme.
Le chercheur en IA Awni Hannun a déclaré que le nouveau modèle DeepSeek-V3 peut fonctionner à une vitesse de 20 jetons par seconde sur un ordinateur Apple équipé d'une puce M3 Ultra. Cela rompt le consensus antérieur du secteur sur le conflit entre les capacités des modèles d'intelligence artificielle et les opérations localisées, et signifie également que les centres de données ne sont pas nécessairement adaptés aux grands modèles.
Un autre chercheur en intelligence artificielle, Xeophon, a affirmé sur X qu'après avoir testé la nouvelle version de DeepSeek-V3 sur un établi interne, il avait constaté qu'elle avait fait un énorme bond dans tous les indicateurs testés. Il s'agit désormais du meilleur modèle non inférentiel, surpassant Claude Sonnet 3.5 d'Oracle.
Discret mais sensationnel
DeepSeek-V3-0324 est sorti sans livre blanc ni aucune publicité, seulement un fichier ReadMe vide. Cette forme de lancement presque austère contraste fortement avec le modèle de promotion des produits soigneusement élaboré de la Silicon Valley.
Dans le même temps, les modèles de DeepSeek sont tous open source et peuvent être téléchargés et utilisés gratuitement, contrairement à l'un des meilleurs modèles commerciaux, ClaudeSonnet, qui facture des frais mensuels de 20 $.
De plus, DeepSeek réinvente fondamentalement le fonctionnement des grands modèles de langage, en activant seulement environ 37 milliards de paramètres au lieu de tous les modules dits « experts », au cours d'une tâche spécifique, ce qui réduit considérablement les besoins de calcul.
Le modèle comporte également deux autres technologies révolutionnaires : Multi-Latent Attention (MLA) et Multi-Tag Prediction (MTP). MLA améliore la capacité du modèle à conserver le contexte dans des textes longs, tandis que MTP génère plusieurs jetons à chaque étape au lieu de la méthode habituelle consistant à générer un jeton à la fois. Ensemble, ces innovations augmentent la vitesse de production de près de 80 %.
Dans une certaine mesure, DeepSeek incarne l’esprit de la quête ultime d’efficacité et de ressources des entreprises chinoises, c’est-à-dire comment atteindre des performances égales ou plus optimisées avec des ressources informatiques limitées. Cette innovation motivée par la demande a permis à l’intelligence artificielle chinoise de surprendre le monde en quelques mois.
Les changements apportés au nouveau modèle de DeepSeek revêtent également une grande importance pour l'industrie. D'une part, cela réduit considérablement la consommation d'énergie et les coûts de calcul des grands modèles, ébranlant encore davantage les hypothèses de Wall Street sur l'ampleur des investissements dans les infrastructures des modèles haut de gamme. D'un autre côté, le large consensus sur l'open source dans l'industrie chinoise de l'intelligence artificielle a rapidement favorisé le développement de l'industrie nationale de l'IA, réduisant continuellement la distance qui la sépare des principaux adversaires mondiaux.
D’autres pensent qu’avec le rattrapage rapide de DeepSeek, le modèle R2 qu’il prévoit de sortir en avril pourrait directement défier le modèle GPT-5 d’OpenAI, longtemps médiatisé. Si cette perspective se réalise réellement, alors les idées différentes de la Chine et des États-Unis en matière de développement de l’intelligence artificielle pourraient ouvrir la voie à une confrontation directe.