Aujourd'hui, Ant Bailing a officiellement lancé Ling-2.6-flash - un modèle Instruct avec un volume total de paramètres de 104B et un paramètre d'activation de 7,4B.Ce modèle se concentre sur « l’efficacité des jetons ». Tout en conservant un niveau de veille concurrentielle, il est plus rapide, plus économique et plus adapté aux applications réelles à grande échelle.
Selon les données d'analyse artificielle d'une évaluation tierce faisant autorité, Ling-2.6-flash démontre des avantages exceptionnels en matière d'efficacité des jetons, atteignant un indice d'intelligence de 26 points avec 15 millions de jetons de sortie, tout en maintenant un niveau élevé d'intelligence tout en contrôlant la consommation de sortie à une position relativement basse.

Il est entendu que Ling-2.6-flash suit la conception de l'architecture linéaire hybride de Ling 2.5. Cette architecture MoE très clairsemée présente des avantages évidents en termes de performances matérielles.
Dans la condition de 4 cartes H20, la vitesse d'inférence peut atteindre jusqu'à 340 jetons/s et le débit de pré-remplissage atteint 2,2 fois celui du Nemotron-3-Super.
Dans l'évaluation de la vitesse de sortie, Ling-2.6-flash s'est classé premier parmi les modèles du même niveau de paramètres avec une vitesse de sortie stable de 215 jetons/s.
Du point de vue de la consommation de jetons, le rapport E/S de Ling-2.6-flash a été considérablement amélioré.
Dans l'évaluation complète de l'analyse artificielle, la consommation totale de Ling-2.6-flash était de 15 millions de jetons, tandis que des modèles tels que Nemotron-3-Super ont atteint ou dépassé 110 millions de jetons. Cela signifie que Ling-2.6-flash n'utilise qu'environ 1/10 de la consommation de jetons pour effectuer des tâches d'évaluation similaires.


Ling-2.6-flash a apporté des améliorations ciblées aux scénarios d'agent. Il conserve toujours de solides capacités d’exécution de tâches tout en contrôlant la consommation de jetons. Le modèle a atteint le niveau SOTA de la même taille sur les benchmarks liés aux agents tels que BFCL-V4, TAU2-bench, SWE-bench Verified, Claw-Eval et PinchBench.
Dans le même temps, Ling-2.6-flash maintient d'excellents niveaux dans des domaines tels que les connaissances générales, le raisonnement mathématique, le suivi d'instructions et l'analyse de textes longs.

En termes de prix de l'API, Ling-2.6-flash coûte 0,1 USD par million de jetons pour l'entrée et 0,3 USD pour la sortie.Actuellement, l'API de Ling-2.6-flash a été officiellement ouverte aux utilisateurs et un essai gratuit d'une semaine à durée limitée est proposé.
Les utilisateurs peuvent obtenir les services correspondants via OpenRouter et Bailing grand modèle tbox. Il est entendu que le modèle publiera ultérieurement une version commerciale, LingDT, via Ant Digital pour servir les développeurs mondiaux et les petites et moyennes entreprises.