Apple révèle sa stratégie de formation de modèles d'IA : du web scraping à grande échelle aux transactions secrètement autorisées et au contenu synthétique

La conférence WWDC s'est concentrée sur le design Liquid, le nouveau langage de conception visuelle à venir pour son système d'exploitation, et Apple a également annoncé la prochaine génération de modèles de base d'IA qui prendront en charge à la fois l'appareil et le cloud. Après la conférence, le géant de la technologie semble prêt à mieux comprendre la stratégie d'Apple en matière d'IA grâce à un rapport technique détaillé qui donnera aux utilisateurs et à la communauté technologique un aperçu du processus de formation et d'optimisation de ses modèles. Apple a souligné dans le rapport qu'il se concentre véritablement sur la confidentialité et l'efficacité lors de la formation des modèles.

Bien que cela ne soit pas très important dans le domaine actuel de l'intelligence artificielle, Apple a publié un rapport détaillé sur son modèle de base appelé "Apple Intelligence Basic Language Model - 2025 Technical Report", qui fournit une introduction approfondie aux éléments clés du dernier modèle d'intelligence artificielle. Ce rapport couvre presque tout, de l'architecture du modèle à la phase de formation, en passant par la phase post-formation, et comment affiner le modèle. Le rapport explore également les méthodes utilisées pour garantir des améliorations techniques des modèles afin d'augmenter l'efficacité du modèle tout en évitant les violations de la vie privée.

Bien qu'Apple ait déjà partagé les modèles d'IA sur appareil disponibles pour les développeurs et les 3 milliards de paramètres dont il dispose, la limite est que sa structure a été jusqu'à présent clairsemée. Le modèle serait divisé en plusieurs parties pour améliorer l'efficacité. La première partie est appelée Bloc 1 et contient plus de 60 % des éléments de base (appelés couches de transformation). L’IA comprend alors les principales expressions du langage et génère des réponses.

La deuxième partie, appelée Bloc 2, est plus légère en raison de la suppression de deux composants techniques gourmands en mémoire : la projection de clé et de valeur. Grâce à cette stratégie, Apple a pu réduire l’empreinte mémoire du modèle d’environ 38 % et même accélérer le temps de réponse du modèle. La société a étudié comment améliorer nativement les performances de ses modèles d'IA et a exploré il y a quelques années l'idée d'exécuter un modèle plus grand que la capacité de mémoire de l'appareil. Même s'ils n'ont pas finalement adopté la solution établie, ils ont cherché des moyens de gérer les limitations matérielles et d'autres défis.

Concernant le côté serveur du modèle d’IA, Apple assure que son système de cloud computing privé adopte une architecture personnalisée. Cette approche s’appelle Parallel Orbit Mixed Experts (PT-MoE), et il s’agit d’une stratégie intelligente qui, en termes simples, décompose les grands modèles d’IA en parties plus petites appelées experts. Désormais, en divisant le modèle entre un mélange d’experts, il n’est pas nécessaire que le modèle soit entièrement exécuté à chaque fois ; au lieu de cela, il peut se concentrer uniquement sur les experts pertinents pour la tâche en cours. Seules les parties du modèle possédant une expertise du domaine sont activées, ce qui permet d'économiser des performances et d'augmenter l'efficacité.

En outre, Apple a également conçu une nouvelle architecture Transformer appelée « Parallel Track Transformer », qui comporte plusieurs pistes indépendantes qui fonctionnent ensemble uniquement à des points clés. Pour cette raison, ce modèle ne subit pas de latence à l’échelle du système. Le géant de la technologie a également résolu l'un des plus gros problèmes d'Apple Intelligence : la prise en charge linguistique limitée.

Avec le nouveau modèle, Apple a considérablement amélioré ses capacités multilingues. Pour étendre la prise en charge linguistique, Apple a augmenté la proportion de données non anglaises dans le processus de formation de 8 % à 30 %, couvrant le contenu réel et le contenu généré par l'IA, améliorant ainsi la compréhension du modèle et prenant en charge un plus large éventail de langues. Cela améliorera le fonctionnement des fonctionnalités telles que les outils d’écriture. Lors de la formation du nouveau système d'IA, Apple s'appuie fortement sur les données Web collectées par Applebot, son robot d'exploration Web développé en interne, qui a également été utilisé dans les modèles précédents. Fait intéressant, étant donné qu'Apple respecte la vie privée, si un site Web ne souhaite pas être exploré, son contenu ne sera pas utilisé.

L'entreprise utilise diverses techniques pour former ses modèles ; utilisant principalement des données Web publiques comme matériel de formation. Apple a tendance à filtrer le contenu non pertinent et à se concentrer sur des ensembles de données utiles et pertinents. De même, le géant de la technologie s’appuie sur les éditeurs pour le contenu sous licence, bien qu’il ait révélé les noms des sociétés de médias sur lesquelles il s’appuie. L'entreprise utilise également des modèles plus petits pour collecter des données synthétiques, notamment lorsqu'il s'agit de tâches de langage d'image, d'exécution de code ou d'instructions, pour un meilleur réglage.

Cette multi-approche implique également des données visuelles, puisque le géant possède plus de 10 milliards de paires image-légende, dont des captures d’écran et des notes manuscrites. Il utilise également son propre modèle pour générer des sous-titres plus riches. Toutes ces méthodes de formation aident Apple à créer des modèles plus intelligents et plus puissants. L’approche d’Apple en matière de formation de ses modèles d’IA est très claire. Il s’agit d’une stratégie d’équilibrage qui garantit que le système reste puissant et polyvalent sans compromettre sa valeur fondamentale : la confidentialité.