En octobre 2024, AMD et Intel ont créé conjointement le x86 Ecosystem Advisory Group (x86 Ecosystem Advisory Group) pour rassembler les leaders de l'industrie afin de promouvoir conjointement l'avenir de l'architecture informatique x86. Lors de la création d'EAG, il a annoncé quatre fonctionnalités principales : FRED, AVX10, ChkTag et ACE.Aujourd'hui, AMD et Intel ont publié conjointement le livre blanc ACE, faisant officiellement la promotion de ce jeu d'instructions connu sous le nom de « Architecture d'accélération matricielle standard x86 » auprès de la communauté des développeurs.

L’objectif principal d’ACE est simple : améliorer les performances de multiplication matricielle des puces x86 de plusieurs ordres de grandeur.
La multiplication matricielle est l'unité informatique de base des réseaux de neurones et des grands modèles de langage. Bien que les jeux d'instructions SIMD existants tels que AVX10 puissent effectuer des opérations matricielles, il existe des goulots d'étranglement évidents en termes de densité de calcul et d'évolutivité.
En introduisant un mécanisme d'accélération matricielle basé sur les opérations de produits externes, ACE atteint une densité de calcul 16 fois supérieure à celle de l'opération équivalente de multiplication-accumulation AVX10 tout en consommant le même vecteur d'entrée.
En termes de prise en charge du format de données, ACE couvre nativement les normes de précision actuelles dans le domaine de l'IA, notamment INT8, OCP FP8, OCP MXFP8, OCP MXINT8 et BF16.
En tant que jeu d'instructions étendu de l'AVX10, l'adaptation écologique du logiciel ACE est déjà en cours. Les bibliothèques sous-jacentes au Deep Learning et au HPC, les bibliothèques de calcul scientifique Python telles que NumPy et SciPy, et les frameworks d'apprentissage automatique grand public tels que PyTorch et TensorFlow ont tous commencé le travail d'intégration.
AMD et Intel ont souligné dans le livre blanc que le concept de conception d'ACE repose sur une faible friction et une large couverture. Des ordinateurs portables aux superordinateurs, les développeurs n’ont pas besoin de réécrire le code pour différentes plates-formes matérielles.
Cela contraste fortement avec la solution consistant à migrer l’informatique de l’IA vers des accélérateurs dédiés, qui nécessite souvent des coûts supplémentaires d’adaptation du code et de migration.
