Dans la soirée du 16 mars, le PDG de Tesla, Musk, s’est exprimé publiquement sur les plateformes sociales, saluant les dernières réalisations technologiques de l’équipe de la société chinoise d’intelligence artificielle Kimi, affirmant que le travail était « impressionnant » et mettant en lumière les recherches de pointe sur ce grand modèle produit dans le pays.

Alors que les articles techniques étaient publiés simultanément, Guangyu Chen, qui s'est classé premier dans la liste des auteurs, a attiré l'attention de l'ensemble d'Internet - l'auteur principal était en fait un lycéen de 17 ans de Shenzhen, Guangdong.

Selon les informations indiquées dans l'annexe de l'article, Chen Guangyu, Zhang Yu et Su Jianlin sont tous des co-premiers auteurs avec des contributions égales, et les 34 auteurs participants restants n'ont pas noté cette qualification.

Parmi eux, Zhang Yu est le principal développeur de l'architecture de modèle efficace de Kimi, et Su Jianlin est le proposant du codage de position en rotation (RoPE).

Il convient de mentionner que Chen Guangyu n'est profondément impliqué dans le domaine de l'IA que depuis un an seulement. Au début, il a rapidement complété les connaissances de base et les capacités pratiques de l'IA en étudiant de manière indépendante des articles de pointe et en suivant les projets open source GitHub.

L'été dernier, il s'est rendu à San Francisco pour effectuer un stage de 7 semaines. De retour en Chine, il a rejoint l'équipe Kimi en novembre de l'année dernière pour participer au stage.

Après la publication de l'article, Chen Guangyu a publié une revue des résultats dans son cercle d'amis, mentionnant spécifiquement les trois auteurs qui ont contribué à parts égales, ainsi que les collègues de l'équipe responsables de l'expansion du modèle et de la construction des infrastructures. Il a répondu discrètement : "C'est un effort d'équipe, pas un dieu."

Selon les rapports, ce rapport technique publié par l'équipe Kimi propose un nouveau mécanisme de résidus d'attention pour réaliser une reconstruction perturbatrice de la connexion résiduelle traditionnelle utilisée dans le domaine de l'apprentissage profond depuis près de dix ans.

L'innovation de Kimi équivaut à installer un « filtre intelligent » sur l'IA, migrant le mécanisme d'attention du transformateur vers la dimension de profondeur du modèle, permettant à chaque couche de filtrer dynamiquement les informations précédemment utiles, de réduire la redondance et d'améliorer l'efficacité de la transmission.