L'équipe SuperCLUE a publié les résultats de l'évaluation du grand modèle chinois de la série DeepSeek V4. DeepSeek-V4-Pro s'est classé premier dans le pays en raison de ses performances globales., la version Flash suit de près en deuxième place, et le modèle open source national fait une autre percée. Cette évaluation couvre six dimensions : le raisonnement mathématique, le raisonnement scientifique, la génération de code, la planification des tâches des agents, le suivi des instructions et le contrôle des illusions. La version Pro a obtenu 70,98 points et la version Flash 68,82 points. Les deux scores étaient nettement supérieurs à ceux des autres modèles nationaux.

La série DeepSeek V4 adopte un nouveau mécanisme d'attention. Toutes les versions prennent en charge des millions de contextes longs, tout en réduisant la puissance de calcul et l'utilisation de la mémoire. Lorsqu'il est utilisé avec des puces domestiques, l'efficacité globale est plus élevée.
Par rapport à la génération précédente V3.2, les deux versions ont apporté des améliorations complètes. La capacité d'agent de la version Pro a été améliorée de plus de 20 points, le raisonnement mathématique a été amélioré de près de 10 points, le suivi des commandes a été amélioré de près de 12 points et le contrôle des illusions a également été considérablement optimisé.

Tout en conservant un raisonnement efficace, la version Flash améliore également considérablement le raisonnement des agents et les mathématiques, avec un rapport coût-performance exceptionnel.

La version Pro (15 yuans/million de jetons) se concentre sur des performances élevées, un contrôle des illusions plus stable et convient aux tâches complexes et aux scènes professionnelles. La version Flash est plus rapide et moins chère. Le prix de l'API n'est que de 1,25 yuans par million de jetons, ce qui la rend plus rentable pour une utilisation quotidienne.
L'évaluation a également souligné qu'il existe encore un écart entre le modèle et les meilleurs modèles étrangers en termes de génération de code et d'exécution d'instructions complexes. Dans l'ensemble, DeepSeek V4 s'est imposé comme le premier échelon en Chine avec ses capacités équilibrées et son coût abordable, devenant un choix de haute qualité pour le travail de bureau quotidien, le développement et la création, ainsi que le traitement de longs textes.