Tang Xiaoou, leader chinois de l'IA et fondateur de SenseTime, est décédé à l'âge de 55 ans. Son dernier discours public a eu lieu lors de la cérémonie d'ouverture de la Conférence mondiale sur l'intelligence artificielle le 6 juillet. En tant qu'érudit et praticien bien connu à l'avant-garde du domaine de l'intelligence artificielle, Tang Xiaoou a déclaré qu'avant de se coucher chaque soir, il écoutait les conversations croisées du professeur Yu Qian en pensant : « Comment une machine peut-elle surpasser une âme aussi intéressante ?
Dans son discours de ce jour, il a partagé les histoires de trois étudiants Wang Xiaogang, He Kaiming et Lin Dahua poursuivant leurs rêves dans le domaine de l'apprentissage profond, et a souligné les contributions originales apportées par de jeunes universitaires chinois à la recherche sur de grands modèles. Il a également exprimé son émotion : Dans le domaine de l'intelligence artificielle, une nouvelle génération d'étudiants a démarré avec succès à Shanghai.
En revenant sur l'histoire, Tang Xiaoou a mentionné que le prix Turing 2018 a été décerné à trois prix approfondis : Joshua Bengio, Geoffrey Hinton et Yann LeCun. Le père de l'apprentissage, celui qui a sonné en premier sur cette porte, a été la percée historique dans la reconnaissance vocale par apprentissage profond réalisée par Jeffrey Hinton et l'universitaire chinois de Microsoft Deng Li en 2011. En 2012, ils ont également fait des percées historiques dans le concours de reconnaissance d'images.
Que faisaient Tang Xiaoou et ses étudiants au cours des premières années d’apprentissage profond ? Il a parlé du premier étudiant : Wang Xiaogang.
Wang Xiaogang était étudiant de premier cycle dans la classe junior de l'Université des sciences et technologies de Chine et était le premier de la classe 00. Au cours de sa maîtrise, il a étudié dans le laboratoire de Tang Xiaoou, puis est allé au MIT pour étudier pour un doctorat. Après avoir obtenu son doctorat, il est retourné au laboratoire de Tang Xiaoou à l'Université chinoise de Hong Kong en tant que professeur. De 2011 à 2013, lors de deux conférences de premier plan dans le domaine de la vision, CVPR (Conférence internationale sur la vision par ordinateur et la reconnaissance de formes) et ICCV (Conférence internationale sur la vision par ordinateur), il y a eu 29 articles sur l'apprentissage profond dans le monde, dont 14 provenaient du laboratoire de Tang Xiaoou et 15 ont été rédigés par d'autres laboratoires du monde entier.
« Nous avons 18 projets qui appliquent l'apprentissage profond aux problèmes de vision pour la première fois au monde, notamment la reconnaissance faciale, la détection faciale, la reconstruction faciale, la détection d'objets, la posture humaine, la super-résolution d'images, la reconnaissance de formes tridimensionnelles et d'autres problèmes fondamentaux de la vision par ordinateur. À la porte de l'apprentissage profond, nous avons sonné à la porte 18 fois. Tang Xiaoou a dit.
Il a expliqué que Wang Xiaogang avait également pour tâche de rendre la reconnaissance faciale automatique meilleure que celle des yeux humains, ce qui a été fait avant Facebook. En 2015, Wang Xiaogang a dirigé une équipe qui a battu l'équipe de Google et remporté le premier championnat du monde ImogeNet (un concours international basé sur la classification d'images et la reconnaissance d'objets) de l'histoire des universitaires chinois.
Le deuxième étudiant est He Kaiming, qui a été le meilleur score à l'examen d'entrée à l'université du Guangdong en 2003. Il a étudié la physique à l'Université Tsinghua pour son diplôme de premier cycle et a obtenu son doctorat dans le laboratoire de Tang Xiaoou à l'Université chinoise de Hong Kong. Tang Xiaoou a déclaré que He Kaiming avait publié son premier article alors qu'il étudiait pour une maîtrise en laboratoire et avait remporté le meilleur article au CVPR. Il s’agit du premier meilleur article d’Asie au cours des 25 ans d’histoire du CVPR. À cette époque, Tang Xiaoou a plaisanté avec He Kaiming, disant qu'il avait atteint le sommet dès qu'il avait agi et que sa carrière universitaire ne ferait que se détériorer à partir de ce moment-là. En conséquence, il est allé travailler chez Microsoft et Facebook et a gravi les échelons.
Le premier emploi de He Kaiming était chez MSR (Microsoft Research). Avant 2015, le deep learning ne pouvait être formé que sur plus de 20 couches au maximum. He Kaiming a introduit un canal de connexion directe dans chaque couche du réseau, résolvant ainsi le problème du transfert de gradient dans les réseaux profonds et remportant le meilleur article en 2016. Après cela, plus d'une centaine de couches d'apprentissage profond peuvent être efficacement formées. À l'ère des grands modèles, les grands modèles avec Transformer comme noyau, y compris la série GPT, adoptaient également généralement cette structure pour prendre en charge l'empilement de centaines de couches.
Tang Xiaoou a conclu que He Kaiming a rendu le réseau plus profond et que Google a élargi l'entrée du réseau, ce qui a conduit au grand modèle d'aujourd'hui.
Le deuxième travail de He Kaiming, MaskR-CNN, a été réalisé sur Facebook. Il a proposé pour la première fois un cadre de détection d'objets et d'algorithme véritablement performant et a remporté le meilleur article de l'ICCV 2017. Tang Xiaoou a déclaré que He Kaiming est la seule personne au monde à avoir remporté les meilleurs articles du CVPR et de l'ICCV en tant que premier auteur à trois reprises en moins de dix ans après l'obtention de son diplôme. Pour la première fois, il a appliqué l'idée de l'auto-codage basé sur le code original à l'apprentissage non supervisé dans le domaine visuel, ouvrant la porte à l'apprentissage auto-supervisé dans le domaine de la vision par ordinateur et en l'étendant aux domaines tridimensionnels, audio et même à l'IA.
Le troisième étudiant, Lin Dahua, a étudié à l'Université des sciences et technologies de Chine pour son diplôme de premier cycle, sa maîtrise à l'Université chinoise de Hong Kong et son doctorat au MIT. Alors qu'il préparait son doctorat au MIT en 2010, il a remporté le meilleur article étudiant au NIPS. En 2014, il retourne au laboratoire de Tang Xiaoou en tant que professeur.
Le premier travail de Lin Dahua était OpenMMLab. Il est né d’une petite équipe en 2018 et est devenu le système open source d’algorithme visuel le plus influent au monde grâce au bouche à oreille sans investissement dans la promotion. Actuellement, il compte des utilisateurs dans plus de 140 pays et régions du monde.
Tang Xiaoou a également présenté deux autres résultats du travail de Lin Dahua, le modèle multilingue grand langage « Scholar·Puyu » qui sera bientôt publié avec 100 milliards de paramètres et 8K, et LandMark, un modèle 3D à grande échelle réel au niveau de la ville avec 200 milliards de paramètres et couvrant 100 kilomètres carrés.
Concernant les réalisations des trois étudiants dans le domaine de l'intelligence artificielle, Tang Xiaoou a commenté : Wang Xiaogang a semé de nombreuses graines originales dans les premières années de l'essor de l'apprentissage profond ; He Kaiming a posé les bases de l'apprentissage profond de manière très ferme et profonde ; Lin Dahua l'a fait prospérer grâce au développement et aux grands modèles.
Tang Xiaoou a déclaré : « Je suis très heureux que ce grand arbre ait commencé à porter ses fruits. Il y a à peine deux semaines, notre grand modèle de conduite autonome s'est démarqué parmi 9 155 articles et a remporté le prix du meilleur article CVPR 2023. »
Citant les statistiques de Google Scholar, il a déclaré qu'il s'agissait du premier meilleur article des trois plus grandes conférences internationales de vision par ordinateur réalisées par des universitaires chinois au cours de plus de 40 ans de réforme et d'ouverture. L'auteur principal de l'article était titulaire d'un doctorat. présenté par Wang Xiaogang. De plus, OpenMMLab a été créé par Chen Kai, titulaire d'un doctorat. présenté par Lin Dahua. Lu Chaochao, l'auteur d'un autre article sur la reconnaissance faciale qui dépasse l'œil humain, a été réalisé par le laboratoire de Tang Xiaoou. Il a également obtenu un doctorat à l'Université de Cambridge et est retourné à Shanghai. Il travaille actuellement avec le seul lauréat chinois du prix Turing, M. Yao Qizhi, à l'Institut de recherche Qizhi de Shanghai pour s'engager dans des recherches théoriques fondamentales sur l'IA. "Une nouvelle génération d'étudiants a démarré avec succès à Shanghai."
À la fin de son discours, Tang Xiaoou a une fois de plus remercié Shanghai et ces étudiants, et a cité une phrase du film "Hello Teacher" de Yu Qian, une "âme intéressante" qu'il croyait difficile à surpasser en IA : "Je ne vous ai pas rencontré au meilleur moment, mais je vous ai rencontré et j'ai passé ce meilleur moment."