Dans cet article Dans cet article
Le coût de l’intelligence artificielle est devenu, en quelques mois, la ligne budgétaire qui affole les directions techniques. Une publication très relayée sur X vient de cristalliser cette tension : selon Ricardo (@Ric_RTP), Coinbase, l’une des plus grandes plateformes d’échange de cryptomonnaies cotées en Bourse, aurait purement abandonné OpenAI et Anthropic au profit de modèles chinois, en réduisant de près de moitié sa dépense interne d’intelligence artificielle.
Ces modèles dits en open-weight ont une particularité : leurs poids, le cœur numérique du modèle, sont librement téléchargeables, ce qui permet à une entreprise de les faire tourner sur ses propres serveurs plutôt que de payer un fournisseur à chaque requête. Cette bascule s’inscrit dans un mouvement de fond, où les laboratoires chinois grignotent le terrain des géants américains à coups de tarifs agressifs.
La formule qui accompagne l’annonce est martiale : ce serait le moment où l’IA chinoise a battu l’IA américaine. Reste à savoir si un tel basculement raconte la défaite technologique d’OpenAI et d’Anthropic, ou si la vérité tient surtout à une réorganisation logicielle et à un pari que peu d’entreprises mesurent vraiment. À quoi tient réellement cette facture divisée par deux ?
Une annonce virale, un basculement pourtant réel
Derrière la punchline se cache une annonce vérifiable. Brian Armstrong, le PDG de Coinbase, a détaillé fin juin sur X la méthode qui a permis de diviser par deux la note d’IA interne, sans réduire l’accès de ses ingénieurs aux outils. Les tâches routinières, revues de code, résumés et brouillons sont désormais dirigées par défaut vers des modèles chinois en open-weight, le GLM de Zhipu en tête, aux côtés de modèles comme DeepSeek.
La publication de Ricardo, elle, a fait le tour du secteur en quelques heures, portée par une lecture géopolitique du sujet. Elle condense en une phrase ce que beaucoup redoutent dans les directions techniques : que l’avantage tarifaire chinois devienne un argument irrésistible face à des budgets qui explosent.
Le chiffre de 50 % ne sort pas de nulle part. Il correspond à une réorganisation assumée publiquement, au moment précis où l’ensemble de l’industrie découvre que ses dépenses d’inférence dépassent toutes les prévisions établies avant l’arrivée des agents autonomes.
Trois leviers, pas un simple changement de modèle
Réduire la facture n’a pas tenu à un unique interrupteur. Armstrong décrit une méthode en trois temps, applicable selon lui par n’importe quelle organisation, et dont le changement de modèle n’est que la partie visible. Trois leviers se combinent :
- le choix du modèle par défaut, avec des tâches courantes routées vers des modèles chinois bien moins chers, quand 91 % des ingénieurs n’atteignaient de toute façon jamais leurs plafonds d’usage ;
- le routage intelligent, qui analyse chaque requête pour l’envoyer vers le modèle le moins coûteux capable de la traiter, en réservant les modèles de pointe aux tâches complexes ;
- la mise en cache agressive des réponses, qui évite de refacturer une requête déjà traitée et constitue le poste d’économie le plus décisif.
Le levier le plus spectaculaire n’est pas le drapeau du modèle, mais le cache. Après optimisation de son outil interne, Coinbase a vu son taux de réponses servies depuis le cache passer de 5 à 60 %, soit une multiplication par douze des requêtes quasi gratuites.
Quand une requête est déjà en cache, la puissance du modèle sous-jacent devient presque indifférente au coût. L’économie de Coinbase est d’abord une affaire d’architecture logicielle, et les modèles chinois n’en sont que l’ancre tarifaire pour les requêtes à froid.
Un écart de prix qui déplace les lignes
Les chiffres expliquent l’aimant. D’après les données rapportées par Tech Times, le GLM 5.2 de Zhipu est facturé 1,40 $ par million de tokens en entrée et 4,40 $ en sortie, quand l’Opus 4.8 d’Anthropic affiche 5 $ en entrée et 25 $ en sortie. L’écart atteint près de six fois sur les tokens produits, avant même toute mise en cache.
Sur une charge de travail d’entreprise comparable, la même source évoque un coût de 4 811 $ via Claude contre 544 $ via le modèle de Zhipu, un rapport de un à neuf. Cette efficacité tient à l’architecture dite Mixture-of-Experts, où seule une fraction des paramètres s’active à chaque token : le GLM 5.2 mobilise environ 40 des 744 milliards de paramètres qu’il embarque.
Plutôt que d’abaisser les plafonds et de multiplier les alertes, nous basculons vers des modèles par défaut moins chers.
Brian Armstrong, cofondateur et PDG de Coinbase, dans un message publié sur X en juin 2026
Ce raisonnement, purement gestionnaire, éclaire la nature réelle de la bascule. Il ne s’agit pas d’un verdict sur la qualité intrinsèque des modèles, mais d’un arbitrage entre le coût par tâche et la capacité réellement nécessaire, mesuré tâche par tâche.
Des performances qui dépendent de la tâche
Le tableau se complique dès qu’on regarde les évaluations. Sur le banc d’essai SWE-bench Pro, qui mesure des tâches de code sur la durée, le GLM 5.2 devance le GPT-5.5 avec 62,1 % contre 58,6 %, et s’impose comme le meilleur modèle en open-weight du moment sur cet exercice précis. Ce résultat prolonge une recomposition déjà visible, quand la hiérarchie des modèles de code s’est brouillée ces derniers mois.
La photo s’inverse sur d’autres terrains. Le modèle de Zhipu reste cinq à dix points derrière l’Opus 4.8 sur le raisonnement scientifique et l’usage d’outils en plusieurs étapes, là où les tâches complexes restent le domaine des modèles de pointe. Un cabinet d’évaluation cité par Tech Times relève par ailleurs un écart moyen de 37 % entre les scores de benchmark et les performances réelles en production.
Le risque que la facture ne dit pas
Le prix bas a une contrepartie que l’annonce passe sous silence. Zhipu et les autres laboratoires concernés opèrent sous la loi chinoise sur le renseignement national de 2017, dont l’article 7 impose à toute organisation de coopérer avec les services de l’État. Zhipu figure d’ailleurs sur la liste d’entités du département du Commerce américain depuis janvier 2025, et une commission du Congrès a ouvert en mai 2026 une enquête visant nommément les principaux fournisseurs de modèles chinois.
L’auto-hébergement des poids, tel que le pratique Coinbase, règle une partie du problème : aucune donnée sensible ne transite vers un serveur en Chine. Il ne dit rien, en revanche, de la provenance des modèles. Anthropic a affirmé devant le Sénat américain qu’un laboratoire chinois avait mené 28,8 millions d’échanges non autorisés via près de 25 000 faux comptes pour distiller les capacités de ses propres modèles.
Pour un acteur régulé qui manipule des fonds, ce point n’a rien d’anecdotique. Coinbase n’est pas seul à emprunter ce chemin, puisque d’autres géants se tournent vers les modèles chinois, mais chaque bascule déplace un peu plus la frontière entre économie immédiate et dépendance de long terme.
Ce que ce basculement dit du marché
Le cas Coinbase n’est que la pointe visible d’une lame de fond. Les modèles chinois représentaient déjà, en mai 2026, plus de 60 % des tokens consommés sur certaines plateformes d’agrégation, et la pression sur les budgets pousse des groupes entiers à revoir leurs arbitrages, au point que le calcul est devenu le vrai nerf de la guerre. Les mêmes tensions expliquent que des fermes crypto se reconvertissent en usines à calcul.
Pour OpenAI et Anthropic, l’enjeu dépasse la seule concurrence. Anthropic a déposé début juin 2026 un dossier d’introduction en Bourse, et la migration des charges d’ingénierie vers des alternatives chinoises bon marché pèse directement sur le récit de croissance que tout prospectus devra désormais défendre. La vraie question n’est plus de savoir qui gagne un banc d’essai, mais ce qu’une entreprise accepte de payer, en argent comme en souveraineté, pour chaque token qu’elle consomme.

