D Dieu est à nouveau à l'antenne ? Vrai ou faux ? Deepseek l'a retenu pendant si longtemps, et récemment, il a finalement commencé à le laisser sortir. La semaine dernière, ils ont discrètement lancé le V4, suivi de deux baisses de prix majeures. . Liang Shen, es-tu encore venu pour sauver tous les êtres ? Du coup, aujourd'hui, c'est soudainement arrivé et m'a poussé une vague de tests gris : DeepSeek, qui a des capacités multimodales. Pour être précis, il s’agit de reconnaissance d’image.

Après avoir vérifié la carte, c'est vrai.


Ceux qui veulent essayer quelque chose de nouveau peuvent ouvrir votre DeepSeek maintenant et y jeter un œil.

S'il y a un "mode de reconnaissance d'image" dans l'interface, félicitations, vous êtes l'heureux chanceux qui a été testé en interne, et vous pouvez directement acheter gratuitement la vraie version multimodale de la V4.

Le propre chercheur de DeepSeek, Chen Xiaokang, n'a pas pu s'empêcher de publier un message. Nous, les baleines, avons enfin des yeux et ne sommes plus les moines aveugles du serveur national !


Pourquoi tout le monde est-il si excité ? En fait, DeepSeek a longtemps été critiqué car il n’a pas de multimodalité. Les trois géants étrangers ChatGPT, Gemini et Claude disposent depuis longtemps de capacités multimodales. Les modèles nationaux tels que Doubao et Qianwen se sont également très bien comportés.

Quant à cette lampe produite localement qui a de grands espoirs, elle est incapable de reconnaître ne serait-ce qu'une image depuis tant d'années. Il ne peut s'appuyer que sur l'OCR, c'est-à-dire pour reconnaître le texte dans l'image. L'expérience d'utilisation est vraiment médiocre.

Maintenant, cette lacune a enfin été comblée.

Sans plus attendre, passons directement au test.

Tout d'abord, il élimine l'OCR traditionnel et permet de vraiment voir l'ensemble de l'image. Vous pouvez être assuré à ce sujet.

Par exemple, si nous lui donnons un morceau de texte qui dit "Ceci est une ligne de texte rouge" écrit en bleu, si nous utilisons uniquement l'OCR traditionnel, il ne peut reconnaître que le texte est "Ceci est une ligne de texte rouge" et il ne reconnaîtra jamais qu'il est bleu. (Il peut même être méconnaissable)


Après avoir activé le mode visuel, il peut identifier avec précision qu'il s'agit d'une ligne de lettres bleues et rouges, et a même senti mon humour.


Non seulement cela, il possède également des capacités de raisonnement visuel.

Avez-vous tous vu ce mème ? Je crois qu’avec mon intelligence, je peux certainement comprendre ce qui est écrit sur l’image.


Je l'ai donc envoyé à DeepSeek et lui ai demandé de m'aider à analyser les points amusants.

Après y avoir réfléchi, non seulement il l'a compris, mais il a également fait une traduction localisée de "Golden Dalia", "Silver Dalia" et "Copper Dalia". Cela m'a fait rire.


Ensuite, je lui ai envoyé une photo aléatoire prise par un collègue en conduisant. C'était en fait assez flou et seules quelques informations sur l'apparence et les effets de lumière pouvaient être analysées.


En conséquence, il a deviné que la voiture était bien une Subaru, et il a fallu 13 secondes pour y réfléchir et est arrivé à la conclusion.


Considérant que le professeur D est un expert en mathématiques, nous lui avons envoyé un autre mème lié aux mathématiques. Pour être honnête, Shichao ne l'a presque pas compris. C'était le beau-père de son frère.


L'explication du professeur D est toujours parfaite.

Non seulement il a compris des opérations simples, mais il y a même vu plusieurs homophones : prendre la partie réelle signifie supprimer le nombre imaginaire "i", ce qui signifie supprimer "l'Œil", ce qui signifie retirer les yeux. Le triangle inversé est le dégradé, qui est "Grad", qui est presque le même que "Graduate", donc j'ai mis un chapeau de célibataire sur mon petit visage.

Ceux qui ont oublié leurs connaissances mathématiques peuvent les revoir mot pour mot.


D'ailleurs, j'ai également testé quelques problèmes dans la vie, comme par exemple où insérer cette fiche de 3,5 mm.


Où dois-je brancher ce port USB carré ?


Bien qu'il soit très simple, il peut comprendre mes prises de vue aléatoires lorsque je ne suis pas au point, et il peut être considéré comme compétent pour les tâches quotidiennes.

Mais en fait, selon les tests réels de Shichao, la version actuelle du professeur D n'est pas invincible.

Par exemple, nous lui avons donné une photo, une très belle vue nocturne de la terre.


DeepSeek l'a également vu très clairement et a déclaré que cette photo provenait de la Station spatiale internationale.


Mais en fait, si vous retournez la photo et la regardez, vous découvrirez que cette photo est une image de la ville sous le coucher du soleil. C'est une perspective à l'envers...

Puis je l'ai lancé à Gemini, un expert multimodal reconnu... et il l'a vraiment vu. Non, es-tu si fort même si tu as perdu la tête ?


Toujours incapable de faire en sorte que le roi de la multimodalité fasse de son mieux, Haji Whale.

Comprend la reconnaissance de certains visages et présente parfois des problèmes. Par exemple, je lui ai jeté une photo d'un pouf, et ce qu'il a reconnu pour moi était, eh bien, Luo Xiang, le chef UP de la station B.


Il y a aussi ce problème classique d’illusion d’optique. Les deux boules n’ont visiblement pas la même taille, non ? En conséquence, le professeur D a réfléchi et m'a dit que les deux balles avaient la même taille.


Mais j'ai aussi jeté un œil à son processus de réflexion. En fait, il avait déjà vu que la boule de droite était plus grosse, mais comme il a lu attentivement la question, il a senti que c'était une illusion qui lui était donnée, alors il a choisi de se tromper et a dit qu'elles avaient la même taille. . Peut-être que l'apprentissage par renforcement est trop fort.


L'évaluation complète peut vous donner une dualité de fantôme et de dieu. Quand on tasse, on tasse, et quand on tire, c'est fini. .

Mais là encore, DeepSeek vient de faire grandir ses yeux, il faut donc encore lui laisser un peu de temps pour s'adapter à ce monde.

Enfin, la bataille actuelle des géants de l'IA a depuis longtemps dépassé le stade du village novice où elle ne s'intéressait qu'aux scores en cours et aux capacités de sortie de texte.

Le niveau de codage, les capacités multimodales, la fluidité des outils d'appel, etc., sont fondamentalement indispensables.

Mais l'absence du précédent professeur Big D dans les capacités multimodales m'a toujours fait regretter. Il semble que tout le monde fredonne et travaille, mais les capacités de l'agent DeepSeeK sont considérablement réduites en raison du manque de bras et d'yeux.

Après tout, la plupart des modèles et API actuels sont multimodaux, ou du moins ont des capacités de saisie d'images.


Nous espérons également que DeepSeek pourra mettre à jour les capacités multimodales de reconnaissance d'image vers l'API du nouveau modèle V4 dès que possible.

Vous savez, avant d'avoir les yeux bandés, j'avais déjà combattu de nombreux adversaires dans les deux sens. . Désormais, enlevez le bandeau, les performances d'outils tels que Claude Code, Lobster, Cowork, etc. devraient être grandement améliorées.

De plus, à en juger par la fréquence à laquelle DeepSeek souffle des bulles pour augmenter la présence pendant cette période, on estime qu'il y a encore beaucoup de combos en attente d'exécution.

Ne parlons plus, regardons la performance du professeur D.