OpenAI disparaît du top 10 des IA pour le code : ce que révèle la nouvelle hiérarchie des modèles

Dans cet article

Anthropic verrouille le sommet du classement
La percée chinoise, vraie surprise de juin
Le top 10 de juin 2026 en un tableau
Ce qu’un score Elo dit, et ce qu’il tait
Quand le palmarès retarde sur les sorties
Ce que cette recomposition laisse entrevoir

Chaque mois, un même rituel agite le monde de l’intelligence artificielle : la publication d’un nouveau classement. La WebDevArena, opérée par la plateforme LMArena, évalue les modèles sur des tâches de développement web en les faisant s’affronter en duel. Son édition de juin 2026, parue le 1er juin, vient de rebattre les cartes du code généré par IA.

Ces palmarès mensuels sont devenus le thermomètre officieux d’un secteur qui avance vite. Ils condensent en une poignée de lignes des mois de recherche, des milliards d’euros investis et la réputation d’entreprises qui pèsent désormais autant que des États. Le signal le plus frappant de juin tient en deux mouvements opposés : OpenAI disparaît purement et simplement du top 10, pendant que les modèles chinois grimpent. Que révèle vraiment ce reclassement sur la course à l’IA ?

Anthropic verrouille le sommet du classement

Sur le terrain du code, une entreprise impose son rythme depuis plusieurs mois. Anthropic place cinq de ses modèles dans le top 10 de juin, soit un quasi-monopole sur les premières places. Les versions « thinking » et standard de Claude Opus 4.7, déployées à la mi-avril, occupent les deux premières marches du podium, devant Claude Opus 4.6 Thinking.

Le détail des scores en dit long sur l’écart creusé. Claude Opus 4.7 Thinking caracole en tête avec un score Elo de 1 567 points, suivi de près par sa version standard à 1 562. La firme complète sa moisson avec Claude Opus 4.6 en cinquième position et Claude Sonnet 4.6 en septième. Seule sortie à signaler dans ses rangs, Claude Opus 4.5 quitte le tableau.

Cette domination ne tombe pas du ciel. Elle prolonge une trajectoire observée depuis l’automne 2025, quand le même éditeur a commencé à truster les comparatifs de codage. La régularité de cette avance interroge autant qu’elle impressionne, car aucun concurrent direct n’a, pour l’instant, trouvé la parade.

La percée chinoise, vraie surprise de juin

Derrière l’ogre américain, la nouveauté du mois vient d’Asie. Trois modèles chinois se hissent dans le top 10, un fait encore inédit à cette échelle il y a quelques mois à peine. Voici les acteurs qui s’invitent dans la hiérarchie :

Alibaba, avec Qwen3.7-max, signe le retour le plus spectaculaire en prenant directement la quatrième place, devenant le meilleur modèle hors écurie Anthropic à 1 541 points ;
Z.ai maintient son modèle GLM-5.1, publié sous licence libre MIT, à la sixième position du classement ;
Moonshot place Kimi-k2.6 à la huitième place, confirmant la profondeur du vivier chinois.

Cette irruption n’a rien d’anecdotique. Elle confirme que l’avance occidentale sur les grands modèles n’est plus un acquis durable, et que la dynamique open source, portée notamment par les laboratoires chinois, gagne du terrain à chaque nouvelle livraison.

Le top 10 de juin 2026 en un tableau

Pour saisir d’un coup d’œil l’équilibre des forces, rien ne vaut le tableau complet. Le classement met côte à côte éditeurs américains et chinois, avec des scores Elo resserrés sur une soixantaine de points entre la première et la dixième place.

Rang	Modèle	Éditeur	Score Elo
1	Claude Opus 4.7 Thinking	Anthropic	1 567
2	Claude Opus 4.7	Anthropic	1 562
3	Claude Opus 4.6 Thinking	Anthropic	1 542
4	Qwen3.7-max	Alibaba	1 541
5	Claude Opus 4.6	Anthropic	1 538
6	GLM-5.1	Z.ai	1 533
7	Claude Sonnet 4.6	Anthropic	1 523
8	Kimi-k2.6	Moonshot	1 518
9	Muse Spark	Meta	1 508
10	Gemini 3.5 Flash	Google	1 506

La lecture de ce tableau éclaire les autres séismes du mois. OpenAI, dont GPT-5.5 High pointait encore à la dixième place en mai, sort entièrement de la liste. Google y refait au contraire une entrée discrète avec Gemini 3.5 Flash, tandis que Meta sauve sa neuvième position grâce à Muse Spark.

Ce qu’un score Elo dit, et ce qu’il tait

Avant d’en tirer des conclusions, il faut comprendre ce que mesure ce palmarès. Le principe de la WebDevArena tient en un mot : le duel. Deux modèles répondent à une même requête et les internautes votent à l’aveugle pour la meilleure copie, sans savoir qui se cache derrière. Ces votes alimentent un score Elo, le système de notation hérité du jeu d’échecs. Le procédé reflète une préférence humaine réelle, mais il porte une limite que les statisticiens connaissent bien.

Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure.
Marilyn Strathern, anthropologue, reformulation de la loi de Goodhart, 1997

Transposée aux modèles d’IA, cette mise en garde appelle à la prudence. Un écart de quelques points Elo ne se traduit pas forcément par une différence sensible dans le travail réel, d’autant que les scores des nouveaux venus, comme Qwen3.7-max ou Gemini 3.5 Flash, restent préliminaires et susceptibles d’évoluer.

Quand le palmarès retarde sur les sorties

Un classement par votes souffre d’un défaut structurel : il regarde dans le rétroviseur. La preuve avec le modèle le plus capable du moment, Claude Opus 4.8, sorti le 28 mai 2026, qui n’a pas encore intégré la WebDevArena faute d’un volume de votes suffisant. Le palmarès de juin couronne donc une génération déjà supplantée dans les faits.

Les indices agrégés racontent d’ailleurs une histoire un peu différente. Selon Artificial Analysis, qui compile plusieurs tests, Claude Opus 4.8 mène l’indice d’intelligence avec 61,4 points contre 60,2 pour GPT-5.5, Gemini 3.1 Pro suivant à 57. Sur le banc d’essai SWE-bench Verified, dédié au génie logiciel, l’écart se creuse encore : 88,6 % de réussite pour Opus 4.8, contre 58,6 % pour GPT-5.5.

Ce contraste pose une question de méthode que le secteur n’a pas tranchée : faut-il se fier au vote populaire de l’arène ou aux bancs d’essai techniques ? Les deux ne désignent pas le même gagnant, et la question d’un éventuel plafond des performances s’était déjà posée quand Claude Opus 4.6 reprenait la tête de LMArena.

Ce que cette recomposition laisse entrevoir

Au-delà du jeu de chaises musicales, ce reclassement dessine une bascule plus profonde. La concurrence chinoise et l’open source tirent les prix de l’inférence vers le bas et fragilisent le modèle économique des laboratoires américains, sommés de justifier des dépenses vertigineuses, quitte à tailler dans leurs effectifs.

Pour celles et ceux qui codent au quotidien, l’enjeu est très concret. Le choix d’un assistant ne se résume plus à prendre le mieux classé : le coût d’usage devient un critère décisif, à l’heure où la facturation passe à l’unité de jeton consommé. Un modèle un peu moins bien noté mais nettement moins cher peut alors s’avérer plus rationnel.

La vraie information de ce mois de juin n’est donc pas le nom du modèle en tête, mais la vitesse à laquelle la hiérarchie se redessine. Un classement chasse l’autre, et la frontière entre laboratoires et puissances publiques s’estompe à mesure que la souveraineté technologique devient un sujet politique. Les prochaines semaines diront si la domination d’aujourd’hui résiste à une concurrence qui n’a jamais paru aussi mobile.