Une équipe de recherche chinoise publie l'ensemble de données multi-vues « FreeMan » pour résoudre les limites de la pose humaine en 3D estimation

L'estimation de la structure tridimensionnelle du corps humain à partir de scènes réelles est une tâche difficile et revêt une grande importance pour des domaines tels que l'intelligence artificielle, le graphisme et l'interaction homme-machine. Cependant, les ensembles de données d'estimation de pose humaine 3D existants sont généralement collectés dans des conditions contrôlées avec des arrière-plans statiques et ne parviennent pas à représenter la diversité des scènes du monde réel, limitant ainsi le développement de modèles précis pour des applications réelles.

À cet égard, les ensembles de données existants similaires à Human3.6M et HuMMan sont largement utilisés pour l'estimation de la pose humaine en 3D, mais ils sont collectés dans des environnements de laboratoire contrôlés et ne peuvent pas pleinement capturer la complexité des environnements du monde réel. Ces ensembles de données présentent des limites en termes de diversité des scènes, de mouvement humain et d'évolutivité. Les chercheurs ont proposé divers modèles pour l’estimation de la pose humaine en 3D, mais leur efficacité est souvent entravée lorsqu’elle est appliquée à des scènes réelles en raison des limites des ensembles de données existants.

Une équipe de recherche en Chine a lancé « FreeMan », un projet développé conjointement par des équipes de l'Université chinoise de Hong Kong (Shenzhen) et Tencent et d'autres institutions. Il est salué comme un ensemble de données multi-vues innovant et vise à apporter de nouvelles avancées dans le domaine de l’estimation de la pose humaine en 3D.

FreeMan est un nouvel ensemble de données multi-vues à grande échelle conçu pour répondre aux limites des ensembles de données existants dans l'estimation de la pose humaine en 3D dans des scènes réelles. FreeMan est une contribution importante visant à faciliter le développement de modèles plus précis et plus robustes.

L'une des caractéristiques du projet FreeMan est la taille et la diversité de ses jeux de données. L'ensemble de données comprend des enregistrements simultanés de 8 smartphones dans différents scénarios, dont 10 scènes différentes et 27 lieux réels, et contient un total de plus de 11 millions d'images vidéo. Chaque scène couvre différentes conditions d’éclairage, faisant de cet ensemble de données une ressource unique.

L'ensemble de données FreeMan est open source pour promouvoir le développement d'ensembles de données de pré-entraînement à grande échelle et fournit également une nouvelle référence pour l'estimation de la pose humaine 3D en extérieur. Cet ensemble de données comprend non seulement des vidéos, mais fournit également de riches informations d'annotation, notamment des points clés du corps humain en 2D et 3D, des paramètres SMPL, des cadres de délimitation, etc., offrant ainsi aux chercheurs de riches ressources pour promouvoir la recherche dans des domaines connexes.

Il convient de noter que FreeMan introduit des modifications dans les paramètres de la caméra et dans l'échelle humaine pour la rendre plus représentative. L'équipe de recherche a développé un processus d'annotation automatisé pour générer efficacement des annotations 3D précises à partir des données collectées. Ce processus comprend la détection humaine, la détection des points clés 2D, l'estimation de la pose 3D et l'annotation du maillage. L'ensemble de données résultant est précieux pour diverses tâches, notamment l'estimation 3D monoculaire, la conversion 2D en 3D, l'estimation 3D multi-vues et le rendu neuronal de sujets humains.

Les chercheurs fournissent une base d’évaluation complète de FreeMan sur une variété de tâches. Ils ont comparé les performances des modèles formés sur FreeMan avec ceux formés sur Human3.6M et HuMMan. Notamment, le modèle formé sur FreeMan a montré des performances nettement meilleures lorsqu'il a été testé sur l'ensemble de données 3DPW, mettant en évidence la capacité de généralisation supérieure de FreeMan dans des scénarios du monde réel.

Dans l'expérience d'estimation de pose humaine 3D multi-vues, par rapport au modèle formé sur Human3.6M, le modèle formé sur FreeMan a montré une meilleure capacité de généralisation lorsqu'il a été testé sur des ensembles de données inter-domaines. Les résultats montrent systématiquement les avantages de la diversité et de l'échelle de FreeMan.

Dans l’expérience de conversion de pose 2D en 3D, le défi de FreeMan est évident, car le modèle formé sur cet ensemble de données est confronté à de plus grandes difficultés. Cependant, lorsque le modèle a été entraîné sur l'ensemble de l'ensemble d'entraînement FreeMan, ses performances se sont améliorées, montrant le potentiel de cet ensemble de données pour améliorer les performances du modèle.

La disponibilité de FreeMan devrait stimuler les progrès dans les domaines de la modélisation du corps humain, de la vision par ordinateur et de l'interaction homme-machine, comblant ainsi le fossé entre les conditions contrôlées de laboratoire et les scénarios réels.