L'intelligence artificielle (IA) n'est pas prête à remplacer votre gestionnaire de fonds, et une série de tests publics illustrent pourquoi. Dans une nouvelle série de compétitions commerciales impliquant les principaux modèles d'IA au monde, les performances de l'IA jusqu'à présent n'ont pas été excellentes. La plupart des systèmes ont subi des pertes. Ils échangent trop fréquemment et prennent des décisions complètement différentes lorsqu'ils reçoivent exactement les mêmes instructions . Et personne ne sait encore si ces défauts disparaîtront à mesure que le modèle sera mis à niveau de manière itérative, ou s’ils révéleront un écart fondamental entre les grands modèles linguistiques et le fonctionnement réel des marchés.

Prenons comme exemple l'Alpha Arena gérée par la startup technologique Nof1. La plate-forme oppose huit systèmes d’IA de pointe majeurs dans quatre compétitions, dont Claude d’Anthropic, Gemini de Google, ChatGPT d’OpenAI et Grok d’Elon Musk. Chaque système a été financé avec 10 000 $ avant chaque match, puis a négocié indépendamment des actions technologiques américaines pendant deux semaines. Les défis incluent le trading sur plusieurs signaux, l'adoption de stratégies défensives, la réaction aux performances des concurrents et l'exploitation avec un effet de levier élevé.

Le portefeuille global a fini par perdre environ un tiers de son capital. Parmi les 32 ensembles de résultats, le modèle n’a atteint la rentabilité que 6 fois. Grok 4.20 obtient les meilleurs résultats dans un défi qui donne un aperçu des performances des concurrents. Elle n'a effectué que 158 transactions ; Qianwen d'Alibaba a effectué 1 418 transactions sous la même invite.

Alpha Arena n'est qu'une expérience parmi un nombre croissant d'expériences connexes. Ces expériences testent si les grands modèles de langage peuvent accomplir la tâche la plus difficile en finance : battre le marché. Bien que ces concours soient loin d'être rigoureux sur le plan académique, ils constituent la démonstration la plus publique de ce qui se passe lorsque ces systèmes tentent d'accepter certains des emplois les plus lucratifs et les plus risqués de Wall Street.

La raison pour laquelle ces résultats préliminaires sont importants est que le trading est l'un des rares métiers de la finance qui hésite encore à s'en remettre entièrement à l'IA. Au cours des dernières années, des géants du secteur, de JPMorgan Chase à Balyasny Asset Management, ont utilisé cette technologie dans presque tous les autres aspects. Aujourd’hui, de grands modèles linguistiques sont utilisés dans les institutions quantitatives pour analyser l’actualité, dans les hedge funds pour rédiger des mémos, dans les grandes banques pour identifier les fraudes, et bien plus encore. Mais lorsqu’il s’agit de transactions réelles sur l’or et l’argent, la « participation humaine » reste le credo de l’industrie, et cela semble compréhensible. Jay Azhang, fondateur de

Nof1创始人Jay Azhang
Nof1

Jay Azhang, fondateur de TAGPH20Nof1, a déclaré : « Le grand modèle de langage en lui-même ne peut pas vraiment rapporter de l'argent. Vous avez fondamentalement besoin d'un ensemble très complexe de cadres de contraintes, de systèmes de support et de plates-formes de données pour leur donner une chance de jouer. »

Il a déclaré que les grands modèles de langage sont efficaces pour effectuer des recherches, mais également pour trouver et appeler des outils appropriés pour certaines tâches. Mais ils ne savent toujours pas quelle est l’importance de chacune des nombreuses variables qui influencent les mouvements des cours des actions, notamment les notes des analystes, les délits d’initiés et les changements de sentiment du marché. Ils ont tendance à mal planifier leurs transactions, à dimensionner leurs positions de manière incorrecte et à acheter et vendre trop fréquemment.

Le blog AI Flat Circle a suivi 11 plates-formes concurrentielles liées au marché, qui ont toutes au moins un modèle qui a atteint la rentabilité. Mais parmi ces 11 plateformes, seuls deux modèles médians ont atteint la rentabilité, ce qui indique que la plupart des modèles ont eu du mal à battre le marché.

Ce résultat est cohérent avec la performance humaine, car il est connu que la plupart des fonds gérés activement sont également sous-performants par rapport au marché. Et tout comme les humains, ces modèles sont sujets à des biais importants. De nombreux concours ont montré que les systèmes d’IA prennent des décisions très différentes lorsqu’on leur donne les mêmes instructions, ce qui a des implications importantes pour les institutions qui les déploient. Azhang a donné un exemple. Lors du dernier tour de compétition à Alpha Arena, Claude avait généralement tendance à être long, Gemini n'était pas opposé à la vente à découvert et Qianwen était plus disposée à prendre des risques avec l'aide d'un effet de levier élevé.

Doug Clinton, qui dirige Intelligent Alpha, a déclaré : « Ils ont leur propre « personnalité » et vous devez les gérer comme vous le feriez pour un analyste humain. Les résultats peuvent être améliorés si le modèle prend conscience qu'il présente une sorte de biais, a-t-il déclaré. Intelligent Alpha dispose d'un fonds alimenté par de grands modèles linguistiques qui publie son propre indice de référence sur la manière dont l'IA prédit les bénéfices des entreprises.

Le benchmark d'Intelligent Alpha fournit 10 modèles d'IA avec accès aux documents financiers, aux prévisions d'analystes, aux minutes d'appels sur les résultats, aux données macroéconomiques et jusqu'à 10 recherches sur le Web. Les grands modèles de langage fonctionnent de manière plus agressive dans ce test en raison de leur portée plus étroite. Au quatrième trimestre 2025, la précision de ChatGPT d'OpenAI dans l'évaluation de la direction des changements attendus des bénéfices a atteint 68 %, établissant le meilleur résultat à ce jour. Ces modèles continuent généralement de s'améliorer à chaque nouvelle version, a déclaré Clinton.