L'ancien développeur principal de Windows, Dave Plummer, a exécuté avec succès le modèle Transformer sur un ordinateur PDP-11/44 de 47 ans et a suivi une formation en IA avec un processeur de 6 MHz et 64 Ko de mémoire.Le modèle exécuté par ce PDP-11 s'appelle ATTN-11, écrit par Damien Boureille en langage assembleur PDP-11, pour implémenter un transformateur monocouche et monotête, contenant seulement 1216 paramètres.

La tâche du modèle semble simple, c'est-à-dire saisir une chaîne de nombres et générer le résultat inversé.Mais pour accomplir cette tâche, le modèle doit apprendre indépendamment les règles structurelles de l’inversion de séquence. Plummer estime que cela capture exactement l'essence même du fonctionnement des grands modèles modernes tels que ChatGPT.

Afin de fonctionner sur un matériel extrêmement limité, ATTN-11 a procédé à de nombreuses optimisations extrêmes. La précision de la propagation vers l'avant est réduite à des nombres à virgule fixe de 8 bits et chaque cycle du processeur est optimisé.

Enfin, Plummer a utilisé une carte de cache pourAprès environ 350 étapes de formation, le modèle a atteint une précision de 100 % et l'ensemble du processus a duré environ 3,5 minutes.

Plummer décrit le processus de formation dans la vidéo :"Le modèle commence par être stupide, avec des pertes élevées, puis à un moment donné, les poids commencent à converger, le mécanisme d'attention découvre la cartographie d'inversion et la machine franchit cette ligne invisible entre la supposition et la connaissance."

Son point central est que l’essence de l’IA moderne n’est pas un pouvoir mystérieux, mais « la machine met à jour à plusieurs reprises la force de milliers de connexions pondérées, rendant la réponse suivante légèrement moins fausse que la dernière fois ».

Plummer a enfin souligné qu'à mesure que les ressources informatiques deviennent de plus en plus un goulot d'étranglement, les entreprises qui peuvent revenir à la recherche ultime de l'efficacité et de l'optimisation auront un plus grand avantage dans la future concurrence en matière d'IA.