Dans cet article Dans cet article
Dans le vocabulaire du jeu vidéo, le sigle IA n’a jamais désigné ce que le grand public imagine. Il recouvre l’ensemble des règles qui pilotent les personnages non joueurs, ces gardes, marchands ou compagnons de route des mondes virtuels. Depuis ChatGPT, le même sigle évoque des modèles de langage qui conversent librement, et la collision entre les deux sens devient explosive.
L’industrie qui se pose la question pèse lourd : 200 milliards de dollars et près de 3 milliards de joueurs, selon les chiffres rappelés en ouverture d’une conférence Pour la Science consacrée à la science des jeux vidéo. Greffer un modèle de langage sur un PNJ semble à portée de main. Reste une énigme que les studios n’ont pas résolue : pourquoi des personnages vraiment intelligents menacent-ils la cohérence narrative que les concepteurs mettent des années à construire ?
Une IA de jeu vidéo qui n’a jamais été celle qu’on croit
Le comportement des PNJ repose depuis toujours sur l’IA dite symbolique : des règles explicites du type « si ceci, alors cela », écrites à la main. Cette tradition remonte loin, puisque le premier chatbot de l’histoire, Eliza, date de 1966, et que la victoire de Deep Blue sur Garry Kasparov en 1997 reposait elle aussi sur des règles d’experts.
Cette approche a des vertus solides. Elle tourne vite, ce qui compte quand des centaines de personnages s’animent simultanément à l’écran, comme dans les foules d’Assassin’s Creed Unity en 2014. Elle reste surtout lisible : quand un garde adopte un comportement étrange, un développeur peut ouvrir le code et comprendre quelle règle s’est déclenchée.
Ce confort a un prix. Les dialogues sont scriptés, les réactions prévisibles, et le joueur de 2026 trouve ses PNJ bien rigides face aux assistants conversationnels qu’il fréquente quotidiennement. La tentation de tout remplacer par un modèle de langage se heurte pourtant à des obstacles que les sciences cognitives commencent à peine à cartographier, comme l’a montré cette rencontre parisienne.
Ce que la conférence Pour la Science met sur la table
Sur scène se croisaient David Louapre, directeur scientifique d’Ubisoft et auteur du livre Le labo du jeu vidéo, une géographe de l’équipe de recherche en sciences humaines de l’éditeur et l’astrophysicien Roland Lehoucq. Leur fil rouge tenait en trois mots : l’émergence, la physique et l’intelligence artificielle, aux sens différents côté laboratoire et côté manette. Le design multiplicatif de Zelda Breath of the Wild, vendu à plus de 32 millions d’exemplaires, y incarne l’émergence maîtrisée : feu, vent et foudre s’y combinent selon des règles simples recalculées 30 à 60 fois par seconde.
La partie la plus stimulante de l’échange porte sur les personnages. Louapre y détaille pourquoi un modèle de langage seul ne fera jamais un PNJ convaincant : dans un cerveau humain, le langage n’existe pas en isolation, il dialogue avec la perception, la mémoire, la décision et les émotions. Or un chatbot greffé sur un personnage ne couvre que la case langage, le reste demeurant assuré par la bonne vieille IA symbolique. Le fossé entre ce que le personnage dit et ce qu’il fait devient alors le cœur du problème.
Le piège du marchand de Skyrim
Une démonstration célèbre illustre l’impasse. Des moddeurs ont branché un chatbot sur Skyrim, jeu sorti en 2011 et écoulé à plus de 60 millions d’exemplaires, pour discuter librement avec ses habitants. L’illusion tient quelques minutes, puis s’effondre : proposez 30 pièces d’or pour un bouclier, le marchand accepte avec enthousiasme, et le bouclier reste obstinément accroché à son mur. Le dialogue ne pilote rien, il flotte au-dessus du jeu sans prise sur lui.
Si on veut espérer utiliser des techniques du type modèle de langage pour incarner des personnages non joueurs, il va falloir essayer de mieux connecter toutes ces branches.
David Louapre, directeur scientifique d’Ubisoft, conférence Pour la Science autour de son livre Le labo du jeu vidéo, 2025
Cette connexion entre paroles et actes ne relève pas du détail technique. Elle conditionne la confiance que le joueur accorde au monde : un personnage qui promet sans agir brise le contrat de plausibilité, ce que Roland Lehoucq appelle la suspension d’incrédulité. La question devient très concrète pour ceux qui écrivent ces personnages.
Trois apprentissages imposés à un PNJ sous modèle de langage
Les retours de la narrative designer du projet, lors de la conférence, décrivent un travail d’écriture inédit, mené sur des productions dont les cycles s’étirent jusqu’à sept ans. Pour tenir son rôle, un personnage animé par un modèle de langage doit intégrer trois couches bien distinctes :
- la connaissance de son univers, c’est-à-dire le monde dans lequel il vit, les événements qui s’y déroulent et les protagonistes avec lesquels il interagit ;
- sa propre identité de personnage, avec une histoire, des traits de personnalité, un rôle précis dans l’intrigue et un point de vue qui lui appartient ;
- sa fonction de jeu, qui l’oblige à livrer des informations utiles et cohérentes, et même à orienter le joueur quand celui-ci ne pose jamais la bonne question.
L’anecdote la plus parlante concerne un personnage conçu pour être vantard. Sommé de se mettre en avant, le modèle inventait des exploits et s’attribuait des rôles jamais tenus, cassant l’intégrité des informations nécessaires à la progression. La logique était implacable : les gens qui se vantent mentent sur ce qu’ils ont fait, donc le modèle mentait. Donner une personnalité forte sans compromettre la vérité du récit relève de l’exercice d’équilibriste.
Planifier un casse avec une machine
Ubisoft a montré à la GDC 2024 une démonstration où le joueur prépare un cambriolage en discutant avec un personnage nommé Iron. Fini la liste de missions imposée : il faut convaincre, rapporter des observations de terrain, négocier le plan. Le personnage possède ses propres capacités de planification, connectées au dialogue, et révise sa stratégie selon les informations qu’on lui apporte.
Cette liberté a des effets de bord, exactement comme la physique simulée en a depuis Half-Life 2 en 2004. Louapre le résume d’une formule : tolérer l’émergence, c’est tolérer les effets de bord. L’équipe l’a vécu le jour où une mise à jour du modèle a transformé du tout au tout les réponses du personnage, laissant aux développeurs l’impression qu’un collègue avait subi un lavage de cerveau pendant la nuit.
S’ajoutent des contraintes économiques rarement évoquées : chaque réplique générée a un coût d’inférence, une latence, une empreinte serveur. Sur des productions triple A portées par des budgets de plusieurs centaines de millions de dollars, personne ne signe pour un personnage imprévisible capable de ruiner une classification d’âge.
L’auteur, la machine et le contrat de plausibilité
Le chemin le plus probable n’est pas le remplacement, mais l’hybridation : un modèle de langage pour la texture des dialogues, une IA symbolique pour les décisions, la mémoire et les actions, et des garde-fous d’écriture pour que la personnalité ne dévore pas la vérité du monde. Ce partage des rôles ressemble à ce que le jeu vidéo a toujours fait avec la physique : simplifier les équations sans trahir l’intuition du joueur, à l’image de ces fluides volontairement plus visqueux que nature évoqués dans la conférence.
Ce qui se joue dépasse la prouesse technique. Un PNJ vraiment libre interroge la place de l’auteur, la valeur d’un récit écrit et la nature du pacte passé avec le joueur, au moment même où le cinéma affronte ses propres générateurs de vidéo. Les studios qui trouveront le point d’équilibre entre émergence et intention narrative tiendront sans doute la prochaine grande mutation du médium, celle qui fera paraître nos mondes ouverts actuels aussi rigides que les sauts asymétriques du premier Mario de 1985.


