DeepSeek V4 sera officiellement lancé et le prix de l'API doublera pendant les heures de pointe

Le 29 juin, un e-mail de rappel de mise à niveau envoyé par DeepSeek aux utilisateurs a montré que la version officielle de DeepSeek V4 devrait être officiellement lancée à la mi-juillet, et qu'elle entraînera davantage d'optimisations de fonctionnalités et d'améliorations de performances, ainsi qu'un mécanisme de tarification de pointe et de vallée. Selon l'e-mail, les heures de pointe de 9h00 à 12h00 et de 14h00 à 18h00, heure de Pékin, sont répertoriées chaque jour, et le prix de l'appel est le double du prix habituel. Dans le même temps, DeepSeek a déclaré qu'il informerait les utilisateurs par courrier électronique 24 heures à l'avance avant que les ajustements pertinents ne soient effectués.

"Baisse permanente des prix" avant "augmentation des prix"

Il est rapporté que ce n’est pas la première fois que DeepSeek ajuste ses prix cette année. Le document officiel de l'API montre que DeepSeek est facturé par million de jetons et facturé séparément en fonction des accès au cache, des échecs de cache et des jetons de sortie. Dans le même temps, la série DeepSeek V4 elle-même a des exigences élevées en matière de puissance de calcul.

Le 24 avril, lorsque DeepSeek a publié l'aperçu de la V4, il a déclaré que la V4 Pro avait 1,6 billion de paramètres au total et 49 milliards de paramètres d'activation, et que la V4 Flash avait 284 milliards de paramètres au total et 13 milliards de paramètres d'activation. Les deux prennent en charge le contexte de 1 million de jetons.

Le document officiel montre également que la limite de concurrence de V4 Flash est de 2 500 ; tandis que le modèle haute performance de V4 Pro a une limite de concurrence de 500 et son élasticité d'offre est plus faible que celle de Flash.

Le 23 mai, DeepSeek a annoncé qu'il convertirait la réduction précédente de 75 % sur la V4 Pro en un prix permanent, et que les frais de l'API seraient réduits du maximum précédent de 24 yuans/million de jetons à un maximum de 6 yuans/million de jetons. Le marché a spéculé à l'époque que cela pourrait être lié à l'offre accrue de puces Ascend 950 de Huawei, mais DeepSeek n'a pas répondu à cette question.

Après la réduction permanente des prix, le prix normal actuel du V4 Pro est de 0,025 yuans/million de jetons pour l'entrée dans le cache, de 3 yuans/million de jetons pour l'échec du cache et de 6 yuans/million de jetons pour la sortie. Les prix correspondants du V4 Flash sont respectivement de 0,02 yuan, 1 yuan et 2 yuans. Aux heures de pointe, ces prix doubleront, mais resteront toujours inférieurs à ceux de leur publication précédente.

Pour les utilisateurs ordinaires, cet ajustement peut ne pas être directement reflété dans les modifications des frais d'application de chat ; les principaux concernés sont les développeurs, les sociétés d'applications d'IA et les entreprises clientes qui accèdent au modèle DeepSeek via des API.

En prenant V4 Pro comme exemple, lors du calcul des jetons de sortie, si une application d'IA consomme 100 millions de jetons de sortie par jour pendant les heures de pointe, le coût normal est d'environ 600 yuans et le prix de pointe est d'environ 1 200 yuans ; s'il consomme 1 milliard de jetons de production par jour, le coût passe d'environ 6 000 yuans à 12 000 yuans. Pour les applications à haute fréquence telles que le service client, les assistants de code, les agents de bureau et les questions et réponses améliorées par la recherche, doubler le prix peut affecter directement les marges bénéficiaires brutes et les stratégies d'appel.

Il ne s’agit pas d’abandonner la voie du bas prix

À l'heure actuelle, l'introduction par DeepSeek d'une tarification de pointe et de vallée ne signifie pas l'abandon de la voie des prix bas. Pour être plus précis, DeepSeek a simplement re-stratifié les ressources informatiques en fonction des périodes d'utilisation, de sorte que sa stratégie de bas prix a commencé à passer d'un bon marché unifié à un bon marché raffiné.

Parce qu'à en juger uniquement par le prix des jetons, DeepSeek se situe toujours dans la fourchette « vraiment parfumée » à bas prix après l'introduction des heures de pointe et de vallée, et est toujours très compétitif sur le marché international. C'est également la raison de l'augmentation des prix de DeepSeek.

Selon la page des prix de l'API anglaise DeepSeek, le prix de sortie de V4 Pro est de 0,87 $ US/million de jetons, soit environ 1,74 $ US sur la base du doublement du pic. En revanche, la page de prix officielle d'OpenAI montre que le prix standard de l'API de GPT-5.5 est de 5 $ pour l'entrée, 0,5 $ pour l'entrée du cache et 30 $ pour la sortie/million de jetons ; le prix régulier de Claude Opus 4.8 d'Anthropic est de 5 $ pour l'entrée et de 25 $ pour la sortie/million de jetons.

Si l’on regarde uniquement les jetons de sortie, le prix des modèles haut de gamme d’OpenAI et d’Anthropic est toujours environ 14 à 17 fois supérieur au prix maximum de DeepSeek V4 Pro.

D'un autre côté, à mesure que le modèle de tarification des grands modèles sur les marchés étrangers passe des abonnements fixes à la facturation par jetons, les coûts d'utilisation des entreprises ont commencé à augmenter considérablement. De nombreuses entreprises étrangères disposant de budgets limités se tournent davantage vers des modèles à faible coût tels que DeepSeek.

Selon des rapports précédents, prenons comme exemple le logiciel de réservation de taxis Uber. Après le changement du modèle de tarification des grands modèles, le budget IA de l'entreprise pour l'année entière a été rapidement consommé en seulement 4 mois, ce qui a obligé l'entreprise à restreindre son utilisation par les dirigeants. Elle a eu la chance d’être « la première grande entreprise à arrêter de dépenser de l’argent sur l’IA ».

Les dirigeants de Microsoft, Coinbase et d’autres sociétés ont également commencé à souligner que de nombreuses tâches d’entreprise ne nécessitent pas toujours les modèles les plus coûteux et les plus volumineux. Ces changements ont poussé les entreprises à adopter davantage de « routage multimodèle », c'est-à-dire attribuer des tâches simples à des modèles bon marché et des tâches complexes à des modèles haut de gamme.

Par conséquent, les données d'OpenRouter montrent que les modèles open source représentent environ 65 % du volume de traitement des jetons sur sa plate-forme. Parmi eux, l'utilisation de modèles à faible coût en Chine, représentés par DeepSeek, a considérablement augmenté, ce qui reflète intuitivement que les utilisateurs étrangers sont entrés dans l'ère de la « conscience des coûts ».