Nvidiaaujourd'huiLancement d'OpenReasoning-Nemotron, une collection de quatre modèles d'inférence rationalisés avec 1,5 milliard, 7 milliards, 14 milliards et 32 milliards de paramètres, tous dérivés de DeepSeek R1 0528 avec 67,1 milliards de paramètres. En compressant un énorme modèle « enseignant » en quatre modèles « étudiants » basés sur Qwen-2.5, NVIDIA permet des expériences d'inférence avancées même sur des appareils de jeu standard sans se soucier des frais GPU élevés et de l'utilisation du cloud.

La clé ne réside pas dans les techniques sophistiquées, mais dans les données brutes. NVIDIA a utilisé le pipeline NeMo Skills pour générer 5 millions de solutions mathématiques, scientifiques et codées, puis a peaufiné chaque solution grâce à un apprentissage purement supervisé. Actuellement, le modèle à 32 milliards de paramètres a obtenu 89,2 points sur AIME24 et 73,8 points lors du concours HMMT de février, tandis que même la version à 1,5 milliard de paramètres a obtenu de solides scores de 55,5 et 31,5 points.
NVIDIA considère ces modèles comme de puissantes boîtes à outils de recherche. Les quatre points de contrôle sont disponibles en téléchargement sur Hugging Face, fournissant une base solide pour explorer l'inférence basée sur l'apprentissage par renforcement ou personnaliser des modèles pour des tâches spécifiques. En utilisant le mode GenSelect (plusieurs itérations par question), il est possible de générer plusieurs constructions parallèles et de sélectionner la meilleure réponse, ce qui entraîne des performances exceptionnelles du modèle 32B qui rivalisent ou même dépassent les performances o3-high d'OpenAI sur plusieurs tests de mathématiques et de codage.


Étant donné que NVIDIA a formé ces modèles en utilisant uniquement un réglage fin supervisé et non un apprentissage par renforcement, la communauté dispose d'un point de départ clair et avancé pour les futures expériences d'apprentissage par renforcement. Pour les joueurs et les passionnés de maison, si vous disposez d’un GPU de jeu plus puissant, nous obtenons un modèle entièrement localisé qui peut se rapprocher très près de l’état de l’art.