Classement des tests publics de programmation Web : DeepSeek-R1 a dépassé Claude 4 et a été couronné numéro un mondial

Le statut du roi de la programmation Claude est-il instable ? ? Le dernier rapport de bataille de l'arène des grands modèles est publié.La nouvelle version de DeepSeek R1 remporte la première place en programmation web, battant de peu Claude Opus 4. Il faut savoir que Claude Opus 4 est reconnu comme « le modèle d'encodage le plus performant au monde ».

Alors, quelle est l'origine de DeepSeek-R1-0528 qui peut vaincre Claude Opus 4 en programmation ?

En regardant le nom, vous pourriez penser qu'il s'agit d'une mise à jour de version mineure, mais en fait :

Il est presque égal à OpenAI o3-high sur LiveCodeBench, et de nombreux internautes ont même spéculé qu'il s'agissait du légendaire R2.

Vu de cette façon, en matière de programmation, aucun des deux côtés ne semble être facile à manipuler ~

Alors sans plus tarder, testons DeepSeek-R1-0528 pour voir à quel point Kangkang est puissant.

Testez-le en fait

Actuellement, DeepSeek-R1-0528 a été lancé sur le site Web officiel DeepSeek, l'application et le mini-programme (ouvert Deep Thinking).

Ici, nous allons directement sur le site officiel pour en faire l'expérience.

Test 1 : Créer une application animée sur le système solaire

Les mots d'invite sont les suivants :

Créez une application animée sur le système solaire à l'aide de la recherche sur le Web.

pense juste49 secondesPlus tard, DeepSeek-R1-0528 a donné un morceau de code python.

Après avoir exécuté avec VS Code, les résultats sont les suivants :

Certaines animations peuvent s'exécuter indépendamment, mais la page est relativement grossière.

Cependant, si vous passez à d'autres mots d'invite, l'effet sera évidemment différent.

Utilisez Three.js pour simuler le système solaire et afficher le nom de la planète lorsque la souris la survole.

En seulement 34 secondes, DeepSeek-R1-0528 a clarifié l'idée de conception :

La clé est cette foisPeut être exécuté directement en un seul clic, pas besoin d'ouvrir votre propre éditeur séparément.(L'exécution de la fonction donne l'impression d'ouvrir une boîte aveugle et peut ne pas toujours apparaître)

Et il a également une animation et une interaction, et l'effet va directement au Next Nevel~

Test 2 : Production de pages Web front-end

Ensuite, nous demandons à DeepSeek de générer un site Web avec le thème AGI, et les mots d'invite sont les suivants :

Veuillez concevoir une page Web sur le thème de l'intelligence artificielle générale (AGI), comprenant trois parties conceptuelles : « partage des connaissances », « communauté » et « création future ». Chaque partie doit être équipée d'une icône correspondante et d'une description concise. Le style général est moderne et technologique, mettant en valeur l'esprit innovant et collaboratif d'AGI. Utilisez HTML, CSS et JavaScript pour l'interactivité et les effets visuels.

Après avoir réfléchi pendant 23 secondes, DeepSeek-R1-0528 a ensuite fourni un morceau de code HTML, qui peut toujours être exécuté en un seul clic.

Test 3 : Créer un mini-jeu Tetris

Enfin, essayons les mots d’invite en anglais :

Créez une version complète de Tetris avec de superbes graphismes et commandes.
Créez une version complète de Tetris avec de superbes graphismes et commandes.

Comme vous pouvez le voir, DeepSeek-R1-0528 pense12 secondesEnsuite, un morceau de code python est donné.

Le résultat courant sera comme :

Bien qu'il s'agisse bien d'un mini-jeu Tetris, la démo de base présente des bugs évidents et manque de boutons d'interaction.

Ne voulant pas abandonner, nous avons essayé de laisser DeepSeek continuer à s'améliorer, mais il s'est renversé la deuxième fois.

Le jeu amélioré ne fonctionne toujours pas correctement(traverse toujours les murs), et n'implémente pas les fonctions interactives que nous avons explicitement demandées.

Pour résumer, à en juger par la simple mesure réelle ci-dessus, la nouvelle version de DeepSeek R1, en tant que modèle open source, a effectivement fait de grands progrès en termes de capacités de programmation, mais il reste encore des progrès à faire.

Mais il y a une chose à dire, c'est évidemment plus convivial pour les utilisateurs domestiques ordinaires.(Comparé au modèle Claude, il est gratuit et facile à obtenir).

Encore une chose

En plus de la mise à jour de la liste des capacités de programmation, la nouvelle version de DeepSeek R1 a également été sélectionnéeLe meilleur modèle de texte open source actuellement disponible.

Sous licence MIT, il se classe sixième sur la liste globale et premier parmi les logiciels open source.

Dans le domaine des subdivisions, il se classe 4ème en difficulté et 5ème en mathématiques. C'est un acteur très compétent dans le modèle open source.

Cependant, il convient de mentionner que le nouveau modèle de Kimi vient de remporter le code open source SOTA——

Modèle de code open source avec seulement 72 B de paramètresKimi-Dev, obtenant SOTA open source avec un score de 60,4 % sur SWE-bench Verified.

Non seulement son niveau de programmation est meilleur que celui du dernier DeepSeek-R1, mais il fonctionne également bien par rapport aux modèles fermés.

Et si nous ne connaissons pas ses véritables capacités (doge)~