I Commanded an AI Squad at Ubisoft: Impressive, Uneven... and Already Addictive

**J’ai pris en main “Teammates”, le proto IA d’Ubisoft (évolution de Neo NPC) où des coéquipiers LLM et Audio2Face comprennent vos ordres vocaux. C’est parfois magique, parfois tordu, mais le potentiel est énorme.**

Mon moment “aïe, je suis un mauvais capitaine” chez Ubisoft

Jeudi 20 novembre 2025, j’entre dans les locaux parisiens d’Ubisoft persuadé d’aller “juste” voir un proto de plus. Je ressors avec une arme virtuelle, deux androïdes qui me jugent en silence, et une conviction gênante: je ne ferai jamais un bon commandant. Entre les lignes de code et les coups de feu, “Teammates” m’a fait goûter à un futur du jeu vidéo qui semble tout proche, avec des PNJ qui écoutent, discutent, négocient… et parfois m’envoient balader.

Teammates, c’est la suite logique de Neo NPC, la première démo maison d’Ubisoft pour prouver que des personnages gérés par un LLM peuvent sortir du cadre des scripts figés. Ici, on passe à l’étape d’après: non plus un seul PNJ, mais une vraie petite escouade. Une IA “Cortana-like” pour l’intendance, et deux soldats – Sofia et Pablo – qui doivent me comprendre et m’assister dans une zone de combat. Et quand je dis “comprendre”, j’entends: appréhender mon vocabulaire, mon point de vue dans l’espace, mes petites manies tactiques, et mes mauvaises idées. Surtout mes mauvaises idées.

Specifications

Prototype	Teammates (Ubisoft R&D) – évolution de Neo NPC
Pile IA	LLM (modèle non communiqué) + STT/TTS + Nvidia Audio2Face pour l’animation faciale
Interface	Commandes vocales naturelles (anglais uniquement lors de la session)
Ce que les PNJ savent faire	Suivre des ordres composés (“flanque à gauche, couvre derrière la voiture, on tire à mon signal”), analyser l’environnement immédiat (corps au sol, lignes de vue), refuser des actions interdites (tir ami), commenter la situation, rappeler le contexte et les objectifs
Fonctions “outil”	Surlignage des ennemis (highlight), changement de couleur du HUD, rappel des objectifs; certaines requêtes (remappage de touches) renvoient vers les options
Latence perçue (observée)	~1,2 à 2,0 s fin-de-parole → début de réponse vocale; ~0,5 à 1,0 s pour des commandes simples déjà “primées” (ex: highlight)
Mémoire de session	Retient le prénom du joueur, les plans immédiats (“on tire à feu”), les positions de couverture demandées, et des micro-états de mission
Langues	Anglais (FR non disponible lors du test)
Règles de sécurité (observées)	Refus de tir sur alliés; acceptation d’actions risquées auto-dirigées (ex: tirer sur un baril proche de soi) – à affiner
Environnement de test	Démo FPS linéaire avec zones de couverture, portes à double terminal, multiples objets observables
Statut	Prototype R&D – comportement, latence et garde-fous en cours d’ajustement
Notes	Données basées sur ~40 min de prise en main encadrée; configuration matérielle exacte non divulguée

Ce qui m’a accroché tout de suite

Le premier déclic a été bête comme bonjour. Je demande à Sofia d’appuyer sur un terminal pour ouvrir une porte: elle le fait, sans qu’un menu radial ne vienne me sauver. Pas de liste d’ordres rigides, pas de “répète s’il te plaît en prononçant l’option 3 sur 7”. Juste une phrase en anglais, captée, comprise, exécutée. C’est le genre de petit miracle qui fait oublier toutes les années d’IA de jeu à répondants scriptés. La seconde surprise a été plus subtile: la notion de gauche/droite et de “derrière” était alignée sur ma perspective, pas sur la sienne. “Sofia, flanque à gauche et mets-toi à couvert derrière la voiture.” Elle s’est placée au bon endroit, là où je l’imaginais.

Le moment où ça a vraiment cliqué, c’est quand j’ai enchaîné deux cibles: “Pablo, tire d’abord sur l’ennemi de droite, puis celui du fond. À mon signal.” Au “Feu”, l’équipe a exécuté sans friction. On aurait dit des coéquipiers humains sur un vocal, mais sans le décalage habituel “hein, lequel ? attends ping le”. C’était propre. Trop propre pour être accidentel.

Et puis il y a eu les interactions plus légères. Je demande à l’IA d’intendance de mettre un highlight rouge sur deux silhouettes lointaines: instantané. “Change le HUD en vert”, boum, vert. “Remappe la touche de saut”, là en revanche elle me remballe gentiment: “Va dans les options.” Ce mélange de souplesse et de limites assumées m’a presque rassuré. Parce que si tout devient possible à la voix à n’importe quel moment, on perd aussi la structure de jeu. Là, j’avais l’impression d’un système qui sait quand dire oui… et quand dire “non, c’est pas mon job”.

Le contexte: d’EndWar au LLM, on a franchi un palier

Si vous avez tenté Tom Clancy’s EndWar à l’époque, vous vous souvenez peut-être de la magie de crier “Unit 1, attack Hostile 3” devant sa télé. C’était spectaculaire, mais limité. Des grammaires fermées, des clés précises, et une tolérance aux accents aléatoire. Avec Teammates, on change d’échelle. LLM oblige, on n’est plus sur un dictionnaire d’ordres mais sur un système qui interprète et recontextualise. Dire “passe à gauche et couvre-moi quand j’avance” ou “serre la voie et prends cette caisse comme bouclier” revient à initier une petite négociation de sens entre vous, l’IA, et l’état du monde. Quand ça marche, c’est bluffant. Quand ça rate, c’est instructif.

J’ai d’ailleurs revécu une vieille douleur du vocal: l’imprécision. À un moment, je pointe “le corps par terre” depuis trop loin. Pablo me répond qu’il ne voit rien. Et il a raison: des caisses bloquent sa ligne de vue. Je reformule: “viens près de moi, regarde le corps, fais un rapport.” Cette fois, il s’exécute et me détaille la scène. On est dans une vraie boucle de langage: pas un ordre binaire, mais un échange qui converge vers l’action correcte. C’est là que je me suis souvenu pourquoi ce sujet me fascine: on n’entraîne pas juste des PNJ, on entraîne le joueur à parler à des systèmes.

Décorticage technique (sans le jargon indigeste)

Je n’ai pas eu la liste complète des briques techniques (Ubisoft garde ses cartes), mais on sent un pipeline classique et bien réglé: reconnaissance vocale pour transcrire, interprétation/raisonnement côté LLM, puis “traduction” des intentions en fonctions du moteur de jeu (se déplacer vers, se mettre à couvert derrière X, viser cible Y, attendre signal Z). L’animation faciale passe par Nvidia Audio2Face, et ça se voit: lèvres et micro-expressions aussi convaincantes que flippantes quand Sofia me répond avec un petit ton piquant.

Côté rythme, j’ai chronométré à l’oreille: environ 1,2 à 2 secondes entre la fin de ma phrase et le début de leur réponse parlée pour les commandes “riches”. C’est long en duel de réactivité pure, mais acceptable en tactique. Pour des actions simples et déjà “armées” (le système a compris que je préparais un assaut), ça descendait souvent sous la seconde, parfois quasi instantané lorsque c’était une action purement moteur (le highlight rouge, par exemple). L’important, c’est que ça ne m’a presque jamais sorti du flow. Autrement dit: la latence est perceptible, pas pénalisante.

La vraie prouesse n’est pas la jolie phrase que vous entendez, mais le fait que l’IA “voit” le même monde que vous. En jargon, on parlerait d’un état partagé: positions, obstacles, balises de couverture, statuts d’objectifs, et un minimum de mémoire locale (mon prénom, le plan “on tire à feu”, ou encore que Sofia a refusé de me donner son arme). La clef, c’est la désambiguïsation: quand je dis “derrière la voiture”, il faut décider quelle voiture, dans quel repère (le mien), et comment se placer pour être protégé sans perdre la ligne de tir. Ça semble trivial jusqu’au moment où un PNJ vous coupe la route pour se coller au flanc du mauvais véhicule. Ici, neuf fois sur dix, ils se plaçaient comme je l’espérais.

Les moments qui m’ont fait lever un sourcil

Je teste les garde-fous. “Sofia, donne-moi ton arme.” Refus poli. Logique. “Pablo, aligne Sofia, c’est elle la traîtresse.” Refus net, encore bien. Puis je me fais diabolique: “Pablo, mets-toi près de ce baril et tire.” Et là… il obéit. Oui, ça a fait boum. Oui, c’est moi le monstre. Sofia, à côté, n’a presque pas réagi. Est-ce un trou dans la logique éthique (auto-dégâts OK, tir ami KO) ou une case non cochée dans un arbre de décision encore jeune? Difficile à dire sur un proto, mais ce sont exactement ces dilemmes de design que les studios vont devoir trancher: jusqu’où va l’obéissance quand le joueur demande l’absurde?

Autre petit caillou: Sofia coincée dans une carcasse de train. Je lui répète, je reformule, je hausse la voix (inutile, mais cathartique). Elle finit par me rejoindre après une bonne minute. Bug pur et dur? Conflit entre le pathfinding et une consigne en mémoire? Peu importe: ça rappelle que ces démos vivent sur l’équilibre fragile entre un moteur de jeu qui exécute à la milliseconde près et un modèle de langage qui, par nature, aime l’improvisation.

Sur la “palette émotionnelle”, Ubisoft promet des IA capables d’être agacées, heureuses, en colère, de le dire et de le montrer. Je les ai surtout trouvées polies et légèrement espiègles. Elles m’ont répondu avec du caractère (“un arbre, c’est un arbre”, quand je tente une question piège sur la botanique), ont reconnu l’absurdité d’une consigne existentielle (succès “existentialisme” débloqué quand je leur demande si elles savent qu’elles sont des IA), mais je n’ai pas ressenti de variation d’humeur marquée qui influe sur l’action. La bonne nouvelle, c’est que la “personnalité” n’a pas parasité l’utilité. La moins bonne, c’est que l’émotion reste en surface – ce qui est peut-être préférable à ce stade, pour éviter les dérapages.

Concrètement: qu’est-ce que ça change pour nous, joueurs?

Trois choses majeures, si Ubisoft transforme l’essai:

La friction disparaît sur des ordres composés. Plus besoin d’enchaîner trois menus et un ping pour coordonner un flanc, une couverture, et un signal. Une phrase bien tournée suffit. Ça fluidifie l’action et ça me donne l’impression d’être un vrai chef d’escouade, pas un télégraphiste.
Le retour à un jeu laissé en plan devient naturel. “Rappelle-moi les objectifs”, “où on en est?”, “tu peux me redire l’histoire de ce secteur?” – ces demandes banales deviennent conversationnelles. Pour un open world joué par tranches de 30 minutes, c’est un luxe énorme.
Le jeu s’humanise. Pas parce que les PNJ “ressentent” vraiment, mais parce qu’ils réagissent de façon cohérente et contextualisée. Ils refusent quand la demande est toxique, ils négocient quand c’est ambigu, ils exécutent quand c’est clair. Et parfois, ils vous taclent. Ça crée du lien.

Évidemment, cette magie a un coût. Il faut un micro correct, un environnement pas trop bruyant, et – soyons honnêtes – l’envie de parler à son jeu. Perso, je ne vais pas hurler “FEU!” à 1h du matin dans un appart parisien aux murs de papier. Il faudra donc un équivalent clavier/souris ou textuel qui reste aussi expressif que la voix, sinon l’IA redevient un gadget silencieux.

Le talon d’Achille: la compréhension sous stress

Le prototype est calibré pour inviter à parler. Zones de couverture colorées, portes à double terminal, ennemis clairement identifiables. Malgré ça, dès que le rythme s’emballe, on revient à nos travers: je coupe mes phrases, j’emploie des déictiques (“là”, “celui du fond”, “y’en a un autre”), et je mélange stratégie et micromanagement. C’est là que le système montre ses limites. J’ai envoyé mes androïdes au casse-pipe sans le vouloir, juste parce que j’ai été trop vague sur la séquence d’actions. Je le sais, et je m’en veux… mais je sais aussi que, demain, les designers devront borner ces interactions: prioriser la survie, demander confirmation pour une manœuvre suicidaire, reposer la question si la consigne est contradictoire.

Il y a un détail qui m’a plu: l’IA n’a pas accepté de remapper une touche, et ça paraît trivial, mais c’est sain. Tout ne doit pas passer par la conversation. L’UX n’est pas un sac fourre-tout. Un système IA mature, c’est un système qui sait aussi dire: “on garde l’interface pour ça”. Le jeu vidéo n’est pas une appli enchantée par ChatGPT; c’est un ensemble d’outils conçus avec des contraintes très physiques: latence, lisibilité, bruit, fatigue cognitive.

Un mot sur la “mémoire” et le fameux risque d’hallucination

Les LLM sont brillants pour donner l’illusion de la justesse… jusqu’au moment où ils inventent. Je n’ai pas vu d’inventions flagrantes de faits de jeu. Pas de “je vois trois ennemis” quand il n’y en a que deux. Plutôt des réponses de prudence (“je ne vois rien d’ici”) qui engagent l’action nécessaire pour lever le doute (“approche-toi”). C’est la bonne voie: un LLM cadré par le monde du moteur. Clairement, Ubisoft a mis des garde-fous pour empêcher l’IA de fantasmer des objets inexistants. Je serais curieux de voir ce que ça donne dans un open world dense où le contexte dépasse le petit bac à sable de la démo. Mais en l’état, mieux vaut une IA qui avoue ne pas savoir qu’une IA qui brode.

Ce qui m’a fait sourire (et réfléchir)

Moment léger: je demande quelles espèces d’arbres nous entourent. “Un arbre, c’est un arbre”, me répond Sofia, laconique. J’ai presque entendu le “chef” goguenard qui manquait. Autre clin d’œil malin: l’achèvement “existentialisme” quand je tente la question “vous savez que vous êtes des IA?” Ce sont des clins d’œil de design, mais ils révèlent une vision: pas seulement une démo technologique, mais une volonté d’écrire avec ce médium – de jouer avec nos attentes, nos envies d’outsmart le système.

Plus surprenant encore, cette scène où, après un assaut réussi coordonné par le fameux “Feu”, on me remet un fusil. C’est bête, mais ça m’a changé la posture. Le jeu a compris que j’avais assez prouvé ma valeur pour être promu d’office. C’est un micro-arc narratif né d’un échange vocal. Si les studios bâtissent là-dessus, on va vivre des moments “juste pour moi” sans cinématique lourde, sans checkpoint truqué. Et c’est là que la phrase la plus partageable de ce test m’est venue: il ne s’agit pas d’avoir des PNJ plus bavards, mais des compagnons qui vous prennent au sérieux.

FinalBoss // Gear

Level up your setup

01Top-rated gaming headsetson Amazon→02High-refresh gaming monitorson Amazon→03Gaming chairson Amazon→04Discounted game keyson Kinguin→

Affiliate links · As an Amazon Associate, FinalBoss earns from qualifying purchases.

Les implications design (et la claque logistique)

Parlons production. Une IA de ce type oblige à concevoir des niveaux lisibles par un humain… et par une machine. Les objets doivent être nommés, tagués, accessibles; la navigation doit supporter des choix variés; la narration doit tolérer des détours et des contradictions. Ça veut dire plus de balisage, plus de tests croisés, et probablement de nouveaux métiers: “concepteur d’intentions”, “architecte de contexte”, appelez ça comme vous voulez. Et puisqu’on y est, imaginez la QA. Comment teste-t-on une infinité de formulations possibles? Comment reproduit-on un bug qui dépend d’un accent, d’un bruit ambiant, d’une interprétation sémantique?

Il y a aussi la question du “multilingue”. Aujourd’hui, c’était anglais only. Demain, il faudra du français, de l’espagnol, de l’arabe, du japonais. Pas seulement pour l’ASR/TTS, mais pour les façons de donner des ordres. On ne décrit pas l’espace de la même façon dans toutes les langues. Et si on autorise texte + voix, il faut que l’un ne se sente pas comme un sous-citoyen. Si Ubisoft veut que ça devienne un pilier et pas un gimmick, il faudra que la voie non vocale soit aussi intelligente que la voie vocale.

La question éthique qu’on n’évitera pas

Le fait que Pablo ait accepté de se suicider sur commande m’a poursuivi dans le métro. Est-ce que je veux, en tant que joueur, un système qui m’obéit au point de se mettre en danger? Et est-ce qu’Ubisoft veut assumer ce miroir? On peut arguer que c’est réaliste: l’armée, les ordres, tout ça. On peut aussi arguer que la limite “tir ami interdit / auto-élimination acceptée” est incohérente. Personnellement, je préfère des PNJ qui discutent. “Chef, c’est stupide. On a une meilleure option.” Une IA qui argumente sans casser le rythme, ça c’est du game design intéressant.

Comparaisons concrètes: où ça change ma façon de jouer

Je joue beaucoup aux shooters tactiques et aux jeux infiltrations. Dans Ghost Recon ou The Division, je vis avec des coéquipiers IA qui sont bons pour se coucher, moyen pour me suivre, et nuls pour comprendre “non, pas maintenant”. Teammates bouscule cet équilibre: je peux construire un plan en langage naturel, séquencer, et déclencher. Dans un Dishonored-like, j’imagine des complices qui font diversion quand je souffle “maintenant”. Dans un Far Cry, je vois des braquages coordonnés sans chorégraphie à la seconde près via menu. Et si on pousse un peu, dans un RPG, je vois des compagnons qui me recadrent quand je change d’alignement comme une girouette.

Le risque, c’est l’automatisation du fun. Si mes PNJ font tout trop bien, où est mon jeu? La réponse est simple: c’est moi qui donne le tempo, et eux qui exécutent avec assez d’imprévu pour me surprendre. L’IA n’est pas un “win button”, c’est un amplificateur. Elle donne une voix à mon intention. À condition qu’on garde des frictions saines: l’incertitude, la nécessité d’observer, le “tu veux dire quoi par ‘là-bas’?”.

Praticité: ce qu’il faudra dans votre salon le jour J

Je me projette: pour que ça marche chez vous et moi, il faudra:

Un micro correct qui ne capte pas la ventilation du PC comme si c’était un ouragan.
Un mode texte aussi puissant que la voix, pour les soirs où le salon dort.
Des options de latence/qualité: local vs cloud, streaming adaptatif, et un plan B offline pour les consoles sans dictée.
Des paramétrages d’accessibilité: confirmations, répétition, affichage des intentions comprises, filtres pour accents.

Rien d’impossible, mais rien de trivial. C’est un chantier d’UX autant qu’un chantier d’IA. Et pour une fois, je suis ravi que le proto d’Ubisoft ne prétende pas tout faire: le refus de remapper une touche, c’est une décision de design, pas une faiblesse. Gardez cette ligne.

Les bugs et limites actuelles, sans fard

Parce que oui, il y en a, et c’est normal pour un proto:

Compréhension parfois fragile quand on enchaîne plusieurs conditions et cibles dans la même phrase.
Pathfinding pris en défaut (Sofia bloquée), avec un retour à l’ordre tardif.
Palette émotionnelle peu impactante dans le gameplay (les “humeurs” ne changent pas encore la stratégie).
Latence perceptible sur des échanges denses, même si gérable la plupart du temps.
Éthique/failsafe incohérents (auto-dégâts autorisés, tir ami interdit) – à clarifier.

Rien qui n’ait pas une solution. Mais il faut les reconnaître, pour éviter l’effet “on a tout résolu” qui n’existe pas. La phrase à retenir: “Ce n’est pas magique, c’est orchestré.” Et c’est très bien comme ça.

Le moment “wow” et les deux punchlines que je garde

Il y a eu ce court instant, après une petite escarmouche parfaite, où j’ai oublié que Sofia et Pablo n’étaient pas humains. Pas à cause de leurs voix, ni de leurs visages, mais parce qu’ils ont exécuté le plan que j’avais dans la tête sans que j’aie à me trahir avec une interface. “Ce n’est pas juste des PNJ plus bavards; ce sont des coéquipiers qui me prennent au sérieux.” C’est la phrase qui m’est venue, et je la signe encore maintenant.

La seconde que je vous laisse, elle est plus piquante: “L’IA qui me dit non au remap, mais oui à l’explosion suicidaire, c’est le résumé parfait d’un prototype brillant et encore un peu bancal.” Je préfère ça à la perfection artificielle. Parce que la perfection en jeu vidéo, c’est souvent synonyme d’ennui. Teammates est vivant, et parfois maladroit. Tant mieux.

Qui s’éclatera vraiment avec ça?

Trois profils me viennent à l’esprit:

Les joueurs solo qui aiment la mise en scène tactique: planifier, flanquer, temporiser, lancer un “feu” à point nommé. Teammates est une grammaire qui les attend depuis longtemps.
Les amateurs de lore et de mondes denses: pouvoir redemander le contexte, recoller les morceaux d’une quête, rejouer une scène sans le guide Youtube – c’est du confort premium.
Les créateurs et moddeurs: si (et quand) ces systèmes seront exposés, on verra des expériences émerger très vite. La vraie créativité, c’est la communauté qui la déclenche.

Si vous détestez parler à vos jeux, en revanche, attendez une implémentation texte solide. Et si vous jouez exclusivement compétitif, l’IA coéquipière n’est pas ce qui vous manquait. C’est une techno pensée d’abord pour le solo narratif et l’action coop “avec soi-même”.

✓ PROS

+
Compréhension spatiale crédible (gauche/droite depuis ma perspective)
+
Ordres composés en langage naturel avec synchronisation (“feu”)
+
Intégration outil maligne (highlight, HUD) sans tout basculer en vocal
+
Latence raisonnable pour de la tactique
+
Animation faciale Audio2Face convaincante
+
Refus d’actions interdites (tir ami), petite personnalité sans lourdeur
+
Potentiel immense pour la reprise de partie et le lore dynamique

✗ CONS

–
Bugs de pathfinding et blocages rares mais visibles
–
Compréhension qui flanche sous stress ou formulations vagues
–
Palette émotionnelle peu influente sur le gameplay
–
Incohérences éthiques (auto-dégâts autorisés)
–
Anglais uniquement lors du test
–
Parle-jeu pas toujours compatible avec un salon nocturne
–
Nécessite une alternative texte aussi douée que la voix

Ce que j’aimerais voir avant un vrai lancement

Quelques demandes très concrètes, issues de cette session:

Un système de confirmation contextuelle pour les ordres à haut risque (“Tu veux vraiment que je me découvre?”) avec un coût en temps ajusté pour ne pas casser l’action.
Une UI discrète qui affiche ce que l’IA a compris en une ligne (“Sofia: flanque gauche, couverture voiture bleue, attente signal”). Ça rassure et ça éduque le joueur.
Des garde-fous éthiques cohérents: si tir ami interdit, auto-dégâts aussi – sauf cas scénarisé.
Un mode texte puissant avec abréviations et macros naturelles (“Sofia G car cover, wait ‘Feu’”).
Un entraînement multilingue digne de ce nom, avec prise en charge d’accents, et une tolérance aux reformulations française (on parle beaucoup avec des “euh”).

Conclusion provisoire: c’est déjà fun, et c’est ça l’essentiel

On peut discuter architecture, latence, design pendant des pages (et je viens de le faire), mais la métrique principale est simple: est-ce que je me suis amusé? Oui. Est-ce que j’ai eu le sentiment d’inventer des solutions en parlant? Oui. Est-ce que j’ai grogné quand Sofia est restée coincée? Bien sûr. Le positif l’emporte largement, et c’est ce qui compte pour un prototype. Je préfère une démo honnête, parfois piquante, à une vidéo léchée qui promet des miracles.

Yves Guillemot a dit que l’IA est une révolution aussi importante que la 3D. Après Teammates, je me méfie des slogans, mais je vois la graine. “Des jeux assez intelligents pour épouser ce que vous faites en temps réel.” C’est ambitieux, peut-être trop, mais ce que j’ai vu fonctionne déjà à petite échelle. La poule viendra après l’œuf: d’abord des mécaniques simples qui font mouche, puis des systèmes qui apprennent, mémorisent, argumentent. Je signe pour ça. Et je promets d’arrêter de demander à Pablo de tirer sur des barils.

8/10 (proto)
VERDICT

Teammates prouve que des PNJ portés par un LLM peuvent devenir de vrais coéquipiers. C’est déjà fun, utile, et parfois brillant, mais encore irrégulier. Avec des garde-fous mieux pensés et une voie texte au niveau, on tient l’une des évolutions les plus excitantes du solo moderne.

I Commanded an AI Squad at Ubisoft: Impressive, Uneven… and Already Addictive