Clonage de voix par IA : formidable outil de création, redoutable machine à mentir

Dans cet article

Une technologie devenue triviale en trois ans
Un formidable levier pour les créateurs de contenus
Les outils qui dominent le marché
Le jour où un journaliste a retrouvé sa voix sur TikTok
De la contrefaçon à la déstabilisation d’un pays
Un cadre juridique qui court après la technologie
Vivre avec des voix qu’on ne peut plus croire sur parole

Quelques secondes d’audio récupérées sur TikTok ou YouTube, un compte gratuit sur une plateforme spécialisée, et voilà votre voix capable de dire ce que vous n’avez jamais prononcé. Le clonage vocal par intelligence artificielle consiste à entraîner un modèle sur des extraits d’une voix réelle pour ensuite lui faire lire n’importe quel texte, avec le même timbre, le même rythme et les mêmes intonations que l’original.

Cette technologie s’est imposée en trois ans comme un outil de production de masse pour les créateurs de contenus, tout en devenant l’arme favorite des usurpateurs d’identité. Entre les vidéastes qui doublent leurs chaînes en dix langues et les journalistes qui découvrent leur voix volée sur des comptes de football, le même logiciel sert les deux camps. Comment un outil aussi puissant a-t-il pu se banaliser aussi vite, et que peut-on encore faire des dérives qu’il alimente ?

Une technologie devenue triviale en trois ans

Cloner une voix demandait encore récemment des compétences en traitement du signal, des heures d’enregistrement en studio et des moyens dignes d’un laboratoire de recherche. Les modèles de synthèse neuronale ont pulvérisé cette barrière : quelques secondes d’échantillon suffisent désormais aux meilleurs outils pour produire une imitation convaincante, accessible depuis un simple navigateur.

Le fonctionnement tient en trois étapes : on téléverse des extraits de la voix cible, le modèle s’entraîne en quelques secondes ou minutes, puis il génère la parole à partir de n’importe quel texte tapé au clavier. Le rendu conserve parfois une pointe de raideur robotique, mais largement suffisante pour semer le doute chez un auditeur pressé. Avant d’en mesurer les dangers, il faut comprendre pourquoi les créateurs s’en sont emparés massivement.

Un formidable levier pour les créateurs de contenus

Produire plus, sans studio ni micro

Pour un vidéaste TikTok ou YouTube, la voix off représente un goulot d’étranglement quotidien : réenregistrer une phrase ratée, corriger une erreur factuelle après montage, maintenir une énergie constante sur des dizaines de vidéos par semaine. Le clonage de sa propre voix transforme cette corvée en simple travail d’écriture, où chaque correction se fait au clavier sans rallumer le micro.

Les chaînes dites sans visage, qui reposent entièrement sur une narration posée sur des images, en ont fait un outil de production industrielle. Un créateur peut décliner des dizaines de formats courts par jour, tester plusieurs tons de narration et publier à des horaires où il dort, ce qui explique l’explosion de ces contenus semi-automatisés dans les flux de recommandation, au point que la chasse aux contenus IA lancée par YouTube en a fait des cibles prioritaires.

Traduire et doubler pour exister partout

Le second usage massif tient au doublage multilingue. Les pistes audio alternatives déployées par YouTube permettent à une même vidéo de parler anglais, espagnol ou hindi, et les gros créateurs comme MrBeast ont montré la voie en doublant leurs catalogues pour multiplier leur audience sans tourner une image de plus. Le clonage vocal pousse la logique un cran plus loin, puisque la version doublée conserve la voix originale du créateur.

Cette promesse touche aussi le podcast, le livre audio et la formation en ligne, où la traduction vocale coûtait jusqu’ici des fortunes en comédiens et en studio. La contrepartie sociale est réelle : les professionnels du doublage voient leur marché se contracter à mesure que les outils progressent, comme l’a montré l’abandon du doublage français de Fable côté jeu vidéo.

Des usages qui dépassent le divertissement

Au-delà du contenu grand public, la voix synthétique rend des services difficiles à contester, et c’est précisément ce qui complique le débat :

les personnes atteintes de maladies dégénératives comme la SLA peuvent sauvegarder leur voix avant de la perdre, puis continuer à parler à travers elle ;
les dispositifs de lecture vocale aident les publics dyslexiques ou malvoyants à accéder à n’importe quel texte ;
les entreprises uniformisent leurs contenus de formation et leurs serveurs vocaux sans réenregistrer à chaque mise à jour ;
les studios restaurent des voix d’archives pour des documentaires, avec l’accord des ayants droit.

Ces cas d’usage légitimes servent de vitrine aux éditeurs de logiciels, qui préfèrent évidemment parler d’accessibilité que d’usurpation. Le marché s’est structuré autour de quelques acteurs dominants, dont trois plateformes concentrent l’essentiel des usages créatifs aujourd’hui.

Les outils qui dominent le marché

ElevenLabs, la référence incontournable

Fondée en 2022 à Londres par deux ingénieurs polonais, Mati Staniszewski et Piotr Dabkowski, ElevenLabs s’est imposée comme le standard du secteur, au point de lever 180 millions de dollars début 2025 sur une valorisation dépassant les 3 milliards de dollars. Sa force tient à la qualité du rendu, parmi les plus naturels du marché, et à une gamme qui couvre le clonage instantané, le doublage automatique de vidéos et une API utilisée par des milliers d’applications tierces.

Le clonage rapide s’appuie sur une poignée de minutes d’audio, quand le clonage professionnel, entraîné sur plusieurs heures, produit une copie difficile à distinguer de l’original dans une trentaine de langues avec la même empreinte vocale. L’offre démarre gratuitement avec quelques milliers de caractères par mois, puis s’échelonne par abonnements, ce qui la met à la portée du premier créateur venu.

Descript, le studio de montage qui parle

Descript, lancé par Andrew Mason, ancien patron de Groupon, aborde la voix par le montage : le logiciel transcrit vos enregistrements audio et vidéo, puis vous montez votre contenu en éditant le texte comme dans un traitement de documents. Supprimer une phrase du transcript la supprime de la piste audio, une approche qui a conquis les podcasteurs et les équipes de vidéo d’entreprise.

Sa fonction de clonage, historiquement baptisée Overdub, s’intègre directement dans ce flux de travail : une phrase mal enregistrée se corrige en la retapant, la voix clonée comblant le trou sans retour au micro. L’outil impose un consentement vocal explicite pour entraîner un clone, une précaution que tous ses concurrents sont loin d’appliquer avec la même rigueur.

Speechify, la voix pour tous les écrans

Speechify vient d’un tout autre horizon : son fondateur, Cliff Weitzman, dyslexique, a d’abord conçu un lecteur vocal capable de lire à voix haute n’importe quel texte, page web ou PDF. L’application revendique des dizaines de millions d’utilisateurs et s’est offert des voix de célébrités sous licence officielle, de Snoop Dogg à Gwyneth Paltrow, preuve qu’un marché légal de la voix existe bel et bien.

Son module de clonage vise le grand public et les créateurs occasionnels, avec une prise en main immédiate sur mobile comme sur navigateur. La qualité se situe un cran sous ElevenLabs pour les usages exigeants, mais la simplicité d’usage en fait la porte d’entrée la plus accessible vers la voix synthétique, pour le meilleur comme pour le pire.

Trois philosophies, un même pouvoir

Le tableau suivant résume ce qui distingue ces trois plateformes, au-delà de leur socle technique commun et de leurs promesses marketing :

Outil	Point fort	Public visé	Garde-fous affichés
ElevenLabs	Qualité du rendu et doublage multilingue	Créateurs, studios, développeurs	Case d’auto-certification, détection maison
Descript	Montage par le texte intégré	Podcasteurs, équipes vidéo	Consentement vocal obligatoire
Speechify	Simplicité et accessibilité	Grand public, lecture vocale	Voix de célébrités sous licence

Murf, PlayHT ou Resemble AI complètent un paysage devenu très concurrentiel, où chaque acteur promet la voix la plus naturelle du marché. Cette course à la qualité a un angle mort, celui de la vérification de l’identité du cloneur, et les affaires récentes montrent l’ampleur du problème.

Le jour où un journaliste a retrouvé sa voix sur TikTok

Un reportage du Parisien raconte la mésaventure d’un de ses journalistes sportifs, alerté par un ami : sa voix narrait des dizaines de vidéos de football sur des comptes TikTok qu’il ne connaissait pas, évoquant les rumeurs de transfert de Cristiano Ronaldo ou un PSG condamné à verser 61 millions d’euros à Kylian Mbappé. Le ton, le rythme, les intonations, tout y était, au point que ses propres sujets auraient pu s’y glisser sans éveiller de soupçon.

Confondu après une mise en demeure du journal, le gestionnaire du compte a supprimé les vidéos dans la journée et répondu aux questions du journaliste avec une décontraction glaçante : la voix avait été aspirée depuis YouTube ou TikTok, il ne savait plus trop, puis clonée avec ElevenLabs, comme celles d’autres journalistes et célébrités dont il pillait le timbre pour habiller ses contenus.

La rédaction a refait l’expérience en interne pour mesurer la facilité de l’opération. Le constat du service Data et Innovation du quotidien tient en une phrase : pour utiliser une voix qui ne vous appartient pas, il suffit de cocher une case déclarant qu’on en a le droit, un dispositif qui permet surtout à la plateforme de se dédouaner en cas d’usage frauduleux. Ce vol de voix aux conséquences limitées n’était pourtant qu’un avant-goût.

De la contrefaçon à la déstabilisation d’un pays

En avril 2025, Arthur Ponchelet, journaliste à RFI, a découvert sa voix clonée dans un faux bulletin d’information diffusé en République démocratique du Congo. Le montage lui faisait annoncer le retrait de Corneille Nangaa, chef politique de la rébellion soutenue par le M23, avec de fausses excuses au peuple congolais, soit une manipulation insérée dans un conflit armé bien réel.

Le faux ne volait pas seulement une voix, il détournait la crédibilité d’une radio écoutée massivement en Afrique francophone. Le montage a circulé sur les réseaux sociaux et surtout dans des groupes WhatsApp, où il devient presque impossible de remonter jusqu’à l’auteur initial, et où les démentis ne rattrapent jamais la rumeur, un mécanisme qui rejoint les mécaniques de désinformation de masse déjà documentées ailleurs.

L’info prend l’escalier et la fake news prend l’ascenseur.
Arthur Ponchelet, journaliste à RFI victime d’un clonage vocal, dans un reportage du Parisien, 2026

Les précédents s’accumulent au-delà du journalisme : un faux appel automatisé imitant la voix de Joe Biden avait appelé des électeurs du New Hampshire à ne pas voter à la primaire de 2024, valant à son commanditaire une amende de 6 millions de dollars infligée par le régulateur américain des télécoms. Les arnaques téléphoniques aux proches en détresse exploitent le même procédé, avec la voix d’un enfant ou d’un parent reconstituée pour extorquer un virement.

Un cadre juridique qui court après la technologie

En droit français, la voix est protégée comme attribut de la personnalité et l’usurpation d’identité numérique est punie d’un an d’emprisonnement et de 15 000 € d’amende. La théorie se heurte à la pratique : encore faut-il identifier l’auteur, souvent anonyme ou à l’étranger, puis prouver que la voix clonée est bien la vôtre, une démonstration technique que les victimes décrivent comme presque impossible.

Le règlement européen sur l’IA impose désormais le marquage des contenus générés et les plateformes développent leurs outils de détection, mais ces garde-fous supposent des acteurs de bonne foi. Les comédiens et doubleurs, eux, n’ont pas attendu : les grèves hollywoodiennes portées par le syndicat SAG-AFTRA ont arraché les premières clauses encadrant la réplique vocale des artistes, un précédent dont les autres professions de la voix s’inspirent déjà.

Vivre avec des voix qu’on ne peut plus croire sur parole

La voix rejoint la photographie et la vidéo dans la catégorie des preuves qui n’en sont plus. Les solutions techniques progressent, du tatouage numérique inséré dans l’audio généré aux standards de traçabilité des contenus, mais aucune ne dispensera les auditeurs d’un nouveau réflexe : considérer qu’un enregistrement isolé, aussi convaincant soit-il, ne vaut plus authentification tant que sa source n’est pas vérifiée.

Le paradoxe restera entier pour les créateurs de contenus, premiers bénéficiaires et premières victimes potentielles de ces outils : chaque vidéo publiée enrichit le stock d’échantillons disponibles pour un cloneur. La bataille qui s’engage entre plateformes de génération, outils de détection et législateurs déterminera si la voix humaine reste un bien qu’on possède ou une matière première qu’on subit, et elle se jouera dans les toutes prochaines années.