Ark Invest : L’état actuel et l’avenir de l’infrastructure IA

Source : Frank Downing, Ark Invest ; Traduction : Golden Finance Claw

Les dépenses en infrastructure IA augmentent de façon explosive

Depuis la publication de ChatGPT, la demande de calcul accéléré a explosé. Le chiffre d’affaires annuel de Nvidia a bondi d’environ 8 fois, passant de 27 milliards de dollars en 2022 à 216 milliards de dollars en 2025, et le consensus du marché prévoit qu’il augmentera encore de 62 % en 2026 pour atteindre 350 milliards de dollars. Le rythme de progression des investissements des centres de données à l’échelle mondiale (y compris le matériel de calcul, de réseau et de stockage) est passé d’environ 5 % de croissance annuelle moyenne sur la décennie jusqu’en 2022 à 30 % au cours des trois dernières années, et il est prévu qu’il augmente encore de plus de 30 % en 2026 pour atteindre 653 milliards de dollars.

Les recherches d’ARK montrent que, l’accélération du calcul (par rapport aux CPU généralistes) alimentée par les GPU et les circuits intégrés (ASIC) dédiés à l’IA, domine désormais les investissements serveurs, représentant 86 % des revenus des serveurs de calcul.

Une baisse brutale des coûts favorise l’adoption

Les moteurs qui poussent les dépenses en infrastructures de calcul accéléré nécessaires pour exécuter des modèles IA continuent de s’intensifier, portés par l’extension constante des cas d’usage de l’IA générative tant côté consommation que côté entreprise, ainsi que par le besoin de modèles de base plus intelligents à entraîner au cours de la quête de la « super intelligence ».

La baisse rapide des coûts accélère davantage la croissance de la demande. D’après nos recherches, les coûts d’entraînement de l’IA diminuent de 75 % par an. Les coûts d’inférence diminuent encore plus vite — dans les benchmarks suivis par Artificial Analysis, parmi les modèles dont la note dépasse 50 %, la baisse médiane annualisée du coût peut atteindre 95 %.

Deux forces conjuguées ont entraîné une chute massive des coûts : d’une part, des leaders du secteur comme Nvidia lancent chaque année de nouveaux produits, apportant des améliorations de performances matérielles génération après génération ; d’autre part, des progrès au niveau des algorithmes logiciels, améliorant continuellement l’efficacité de l’entraînement et de l’inférence sur le même matériel.

Des signaux de forte demande émis par les consommateurs et les entreprises

Le rythme d’adoption de l’IA par les consommateurs est nettement plus rapide que celui de l’adoption d’Internet à l’époque. En trois ans, le taux de pénétration de l’IA s’est étendu à environ 20 %, soit plus du double de la vitesse à laquelle les consommateurs se sont tournés vers Internet.

La demande des entreprises augmente elle aussi à une vitesse impressionnante. Par exemple, d’après les données d’OpenRouter, depuis décembre 2024, la demande en tokens a été multipliée par 28.

Au cours des deux dernières années, le laboratoire IA Anthropic — particulièrement plébiscité par les clients entreprises — a réalisé une croissance spectaculaire d’environ 100 fois de ses revenus, passant d’1 milliard de dollars de revenus d’exploitation annualisés à la fin 2023 à une estimation de 8 à 10 milliards de dollars à la fin 2025. L’élan d’Anthropic en 2026 se poursuit : en février de cette année, la société a annoncé un revenu annualisé de 14 milliards de dollars, et a bouclé un tour de financement de 30 milliards de dollars avec une valorisation de 380 milliards de dollars.

Sur le front de la concurrence simultanée entre consommateurs et entreprises, OpenAI — qui obtient aussi une forte croissance auprès des utilisateurs professionnels — comptait déjà 1 million de clients entreprises au 1er novembre 2025. Selon Sarah Friar, directrice financière, la croissance des revenus tirés des entreprises est plus rapide que celle du segment consommateurs ; elle prévoit qu’en 2026, elle représentera 50 % des revenus totaux de l’entreprise. Friar a également détaillé dans un billet de blog de janvier 2026 les raisons d’investir davantage dans les infrastructures : au cours des trois dernières années, les revenus d’OpenAI ont augmenté proportionnellement à sa capacité de calcul.

Le marché du privé fournit le financement pour construire l’IA

Pour répondre aux signaux de forte demande, de lourds investissements dans des infrastructures à grande échelle sont devenus nécessaires. D’après les données de Crunchbase, en 2025, le financement des laboratoires IA privés a dépassé 200 milliards de dollars, dont environ 80 milliards de dollars ont été dirigés vers des développeurs de modèles de base comme OpenAI, Anthropic et xAI. Sur les marchés publics, les géants du cloud à très grande échelle mobilisent leurs réserves de trésorerie et cherchent d’autres modes de financement pour soutenir leur programme de dépenses en capitaux liés à l’IA — qui pourrait atteindre jusqu’à 700 milliards de dollars en 2026.

Selon des informations, la transaction de 30 milliards de dollars conclue par Meta avec Blue Owl est la plus importante transaction de capital privé de l’histoire. Cette opération a été structurée sous la forme d’une coentreprise, financée principalement par de la dette ; sa structure de véhicule à finalité spéciale (SPV) fera en sorte que la dette du projet n’apparaisse pas au bilan de Meta, ce qui a suscité une controverse considérable.

AMD et d’autres acteurs deviennent de solides challengers de Nvidia

En dehors des centres de données physiques, les puces de calcul ont toujours été au cœur des dépenses en capitaux liés à l’IA. Nvidia est resté à l’avant-garde de l’ère du calcul accéléré, mais aujourd’hui, le plus grand acheteur de puces IA cherche à améliorer la quantité de puissance de calcul IA obtenue pour chaque dollar investi. Depuis l’acquisition d’ATI Technologies en 2006, Advanced Micro Devices (AMD) a longtemps été un vendeur de GPU de pair avec Nvidia sur le marché des consommateurs ; elle est désormais aussi un nouveau concurrent émergent sur le marché des entreprises. Depuis le lancement de la série de processeurs EPYC en 2017, la part d’AMD sur le marché des CPU serveurs est passée d’une croissance presque nulle en 2017 à 40 % en 2025.

Pour l’inférence de petits modèles, les GPU AMD ont déjà atteint un niveau comparable à Nvidia en termes de performance relative au coût total de possession (TCO). Le TCO prend en compte à la fois le coût d’achat initial des puces (dépenses d’investissement) et les coûts d’exploitation pendant la durée de vie d’utilisation des puces (dépenses d’exploitation). Les benchmarks de performance utilisent l’indicateur InferenceMax de SemiAnalysis, mesurant le nombre de tokens traités par GPU et par seconde lorsque l’on optimise pour le débit ; les benchmarks de coûts s’appuient sur les estimations de SemiAnalysis des dépenses en capital et des dépenses d’exploitation par heure.

Bien qu’AMD ait déjà « rattrapé son retard » en performance pour les petits modèles, Nvidia conserve un avantage nettement supérieur pour les grands modèles, comme le montre l’illustration ci-dessous.

La solution au niveau rack de Nvidia, Grace Blackwell, relie 72 GPU Grace Blackwell (GB200), les faisant fonctionner comme un très grand GPU à mémoire partagée. Cette interconnexion étroite entre les puces renforce les capacités d’inférence des grands modèles — les grands modèles doivent répartir les poids du modèle sur plusieurs GPU, ce qui nécessite plus de bande passante de communication que pour les petits modèles. Pour réduire l’écart avant le lancement de Nvidia Vera Rubin, la solution au niveau rack d’AMD est prévue pour la seconde moitié 2026. À ce jour, AMD a déjà remporté des commandes auprès de clients tels que Microsoft, Meta, OpenAI, xAI et Oracle.

Les fournisseurs de cloud hyperscale mènent la révolution des puces sur mesure

En plus des fournisseurs de GPU commerciaux, les fournisseurs de cloud hyperscale et les laboratoires IA cherchent aussi à reprendre le contrôle de l’influence de Nvidia grâce à des puces développées en interne afin de réduire les coûts de calcul IA. Depuis plus d’une dizaine d’années, Google conçoit ses propres circuits intégrés dédiés à l’IA — les unités de traitement de tenseurs (TPU) — pour exécuter des modèles de recommandation pour ses activités de recherche, et a optimisé la performance de la dernière génération de TPU v7 pour l’IA générative. Selon SemiAnalysis, grâce aux TPU développées en interne pour traiter des charges de travail internes, le coût par calcul de Google peut être réduit de 62 % par rapport à Nvidia. Anthropic et Meta utilisent des extensions de TPU de Google pour étendre leur capacité de calcul, ce qui pourrait confirmer que l’estimation de 62 % n’est pas très éloignée de la réalité.

La puce Trainium d’Amazon semble être la solution la plus avancée qui suit. Après le rachat d’Annapurna Labs en 2015, Amazon a été l’un des premiers à développer des puces sur mesure pour ses activités cloud, étendant les CPU Graviton basés sur l’architecture ARM et les unités de traitement de données Nitro (DPU) afin de soutenir les capacités de calcul importantes d’AWS (Amazon Web Services). Récemment, Amazon a annoncé que, depuis 2025, Graviton fournit pour la troisième année consécutive plus de la moitié de la nouvelle capacité CPU ajoutée à AWS. En plus d’utiliser des TPU, Anthropic utilise aussi AWS et Trainium comme ses plateformes d’entraînement privilégiées.

Microsoft n’est entré que tardivement, en 2023, dans le domaine des puces sur mesure, avec le lancement de son accélérateur IA Maia 100, mais à l’époque, il n’était pas axé sur l’IA générative ; aujourd’hui, sa deuxième génération de produits est en cours de déploiement, ciblant principalement les scénarios d’inférence IA.

Broadcom domine le marché des services de puces sur mesure

Google et Amazon se concentrent sur la conception des puces en amont (architecture et fonctionnalités), tandis que les partenaires en aval conçoivent la manière de transformer sa logique en tranches de silicium, gèrent l’emballage avancé, et coordonnent la production avec des fonderies de semi-conducteurs comme TSMC. Dans le contexte des difficultés rencontrées par l’activité de fonderie d’Intel, TSMC est devenue le partenaire de choix pour la majorité des principaux projets de puces IA, tandis que Broadcom est devenu le principal partenaire de conception en aval pour les puces sur mesure que Google (TPU), Meta (MTIA) et OpenAI lanceront à partir de 2026. Apple conçoit traditionnellement en interne l’ensemble du cycle pour ses puces de téléphone et de PC, mais des rumeurs indiquent qu’il pourrait aussi collaborer avec Broadcom pour développer des puces IA. Citigroup estime que les revenus IA de Broadcom pourraient être multipliés par cinq au cours des deux prochaines années, passant de 20 milliards de dollars en 2025 à 100 milliards de dollars en 2027.

Le chemin de R&D de Trainium d’Amazon est assez particulier par rapport à ses pairs : selon des informations, Trainium 2 a collaboré avec Marvell, puis, en raison de la mauvaise exécution de Marvell, Trainium 3 et Trainium 4 ont basculé vers Alchip. Le fait qu’Amazon puisse changer de partenaires en aval montre que l’intégration verticale comporte bien un certain risque pour des entreprises comme Broadcom. Il convient de noter qu’Apple et Tesla collaborent directement avec des fonderies. Google pourrait aussi faire de même avec sa TPU v8 : ce produit a deux SKU — l’un co-conçu avec Broadcom, et l’autre conçu et piloté en interne par Google avec le support de MediaTek.

Les activités des startups de puces s’intensifient

Nos recherches montrent qu’une longue traîne constituée de startups essayant de nouvelles paradigmes d’architecture pourrait encore remettre en cause la position sur le marché des fabricants de puces existants. Cerebras est connue pour son moteur au niveau de la plaquette (un gigantesque chip fabriqué à partir d’une seule plaquette de silicium, de la taille d’une boîte à pizza), offrant les vitesses de traitement de tokens par seconde les plus rapides du marché, et serait en train de préparer son lancement cette année. La société a récemment annoncé un partenariat avec OpenAI pour lancer un modèle de programmation haut débit, Codex Spark ; auparavant, les deux parties avaient déjà conclu un accord de partenariat en janvier de cette année. Groq, elle aussi, grâce à ses performances exceptionnelles en traitement de tokens par seconde, a récemment signé avec Nvidia un accord de licence non exclusive de propriété intellectuelle d’une valeur de 20 milliards de dollars ; l’accord inclut 90 % des employés de Groq et le PDG ainsi que cofondateur du TPU, Jonathan Ross. En réalité, il s’agit d’une acquisition de l’équipe Groq et de sa technologie ; ce type de structure de transaction devient de plus en plus populaire sur le marché des fusions et acquisitions, car les géants de la technologie cherchent à contourner les retards liés à l’examen réglementaire. Concernant d’autres dynamiques d’acquisitions, Intel s’est récemment tournée vers un partenariat avec SambaNova après l’échec, rapporté, de négociations d’acquisition. Intel a réalisé quatre acquisitions dans le domaine de l’IA depuis 2014, mais n’a jamais réussi à lancer un produit IA largement reconnu par le marché ; ce bilan est plutôt décevant.

Envisager l’avenir : une taille de 1,4 mille milliards de dollars en 2030

D’après nos recherches, la croissance continue de la demande et l’amélioration continue des performances au cours des cinq prochaines années stimuleront le développement du logiciel IA et des services cloud. Les dépenses en infrastructures IA devraient faire tripler au cours des cinq prochaines années — passant de 500 milliards de dollars en 2025 à près de 1 500 milliards de dollars en 2030.

Nos prévisions reposent sur l’observation historique des investissements dans les systèmes des centres de données par rapport aux revenus des logiciels. Au début des années 2010, avec l’essor du cloud computing, les investissements systèmes représentaient environ 50 % des dépenses mondiales en logiciels. En 2021, après l’excès d’investissements post-pandémie de Covid et l’optimisation des clients, la proportion des investissements systèmes par rapport aux dépenses logicielles est descendue à un niveau bas de plus ou moins 20 %. Notre prévision de 1 500 milliards de dollars suppose que, d’ici 2030, le montant investi représentera 20 % du scénario neutre de prévision pour les dépenses mondiales en logiciels (à savoir 7000 milliards de dollars en juillet 2030), ratio que nous avons détaillé dans un billet de blog de l’an dernier. Nous pensons que ce niveau de 20 % tient suffisamment compte des risques potentiels de surinvestissement avant 2030, ainsi que de la possibilité que les revenus des logiciels augmentent plus lentement que dans le scénario neutre — dans ce dernier cas, nous pensons que les investissements dans les infrastructures continueront à croître à un rythme élevé, comme au début des années 2010.

À mesure que la demande en puissance de calcul tirée par l’IA continue de croître, nous nous attendons à ce que la part des puces sur mesure dans les dépenses de calcul augmente continuellement — car le temps et les investissements nécessaires pour concevoir des puces dédiées à des charges de travail spécifiques se traduiront par un avantage de performance par dollar de plus en plus important lors de la mise à l’échelle. Nous pensons qu’en 2030, la part des ASIC sur mesure sur le marché du calcul pourrait dépasser le tiers.

Dans l’ensemble, nos recherches montrent que l’infrastructure en cours de construction n’est pas une bulle sur le point d’éclater, mais le socle d’une transformation de plateforme rare et inestimable. ARK prévoit que les dépenses annuelles en infrastructure IA en 2030 approcheront 1 500 milliards de dollars, un marché porté par une demande réelle, continue et accélérée en provenance à la fois des consommateurs et des entreprises, tandis que la baisse constante des coûts valide et libère de nouveaux cas d’usage. Nous croyons que, dans les cinq prochaines années, les entreprises qui se démarqueront seront celles capables de concevoir les puces les plus efficaces, de construire les modèles les plus puissants, puis de déployer ces deux éléments à grande échelle.

Comme l’a expliqué le PDG de Nvidia, Jensen Huang, lors de la conférence téléphonique sur les résultats du quatrième trimestre de l’exercice 2026, les agents IA réellement pratiques ne commencent à être déployés à grande échelle que depuis les derniers mois. Ils consomment une énorme quantité de tokens, mais leurs capacités dépassent largement les produits IA auxquels la plupart des utilisateurs étaient habitués auparavant. Étendre ces agents à des millions d’entreprises sera un travail extrêmement intensif en calcul ; et selon nous, les gains de productivité qui en résulteront justifieront totalement ces investissements.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler