Il y a eu une explosion de l’IA domestique ces derniers jours. GLM-5, Minimax 2.5 et DeepSeek ont ​​tous lancé de nouveaux grands modèles le même jour du 11, parmi lesquels celui de DeepSeek a naturellement attiré le plus d'attention. Nous avons déjà signalé que cette mise à jour améliore principalement la capacité contextuelle, atteignant 1 Mo, alors que la série précédente DeepSee V3 était de 128 Ko, soit 7 fois plus élevée que le grand modèle de la série V3 précédente.

DeepSeek l'a également officiellement confirmé dans le groupe officiel ce soir,Indique que la page Web et la version de l'application testent une nouvelle structure de modèle de texte long et prennent en charge le contexte 1M.

Dans le même temps, DeepSeek a également souligné que le service API n'avait pas changé. Il s'agit toujours d'un grand modèle de la série V3.2 et ne prend en charge que le contexte 128K.

À en juger par l'introduction de DeepSeek, ce nouveau modèle est toujours un modèle texte. La principale amélioration réside dans la capacité contextuelle, qui est également très importante dans de nombreux domaines. Lors de longues conversations, il est facile pour les grands modèles de ne pas pouvoir se souvenir du contenu précédent en raison d'un contexte insuffisant.

Bien qu'il y ait eu de nombreux tests réels sur Internet montrant que ce grand modèle DeepSeek s'est considérablement amélioré en termes de programmation, de vitesse de sortie, etc., mais par rapport aux attentes précédentes, cette mise à jour est forcément un peu décevante.

Le grand modèle cette fois n'est évidemment pas le V4, mais plus probablement le V4 Lite, car le nombre de paramètres ne serait que de 200 milliards, ce qui est bien inférieur aux 670 milliards de la série V3, il est donc normal que certaines capacités soient pires que la V3.

On suppose que ce modèle est un V4 Lite. Il est peu probable que DeepSeek ne publie qu’un seul grand modèle V4 à l’avenir. Au lieu de cela, il y aura différentes versions. Chaque série a des directions et des designs différents. Le V4 Lite actuel n’est qu’un éclaireur, il n’y a donc pas beaucoup d’amélioration. De plus, les responsables de DeepSeek n’ont pas détaillé son architecture technique et davantage d’informations n’ont pas encore été publiées.

La version complète de DeepSeek V4, selon la rumeur, compte 1,5 billion de paramètres, soit plus du double de la série V3.De nouvelles technologies telles que Engram et mHC précédemment étudiées par DeepSeek seront également utilisées.Les performances sont considérablement améliorées alors que le coût reste faible. Cette attente est encore très élevée.