En chiffres

Trois approches pour recréer les voix du passé

Enregistrées et archivées pour la postérité depuis l’invention du phonographe en 1877, les voix du passé sont désormais générées artificiellement pour faire ressentir l’émotion historique. Balises expose trois méthodes pour reconstituer les voix des disparu·es, dont celle qui sera présentée à l’occasion de la rencontre « Archives vivantes », le 16 juin 2023 : la voix clonée du général de Gaulle prononçant le discours original de l’appel du 18 juin 1940.

Ressusciter une voix avec les nouvelles technologies

En 2023, Le Monde et l’Institut de recherche et coordination acoustique/musique (Ircam) reconstituent l’appel du 18 juin de Charles de Gaulle, par clonage vocal à l’aide de l’intelligence artificielle. La voix du général prononce à nouveau le discours mythique, que personne ne peut plus écouter car il ne figure pas dans les archives de la BBC. Il est probable qu’il n’ait jamais été enregistré le 18 juin, puisque la seule version connue et passée à la postérité remonte au 22 juin 1940. L’outil de clonage vocal a fabriqué l’identité de la voix du Général à partir de discours qu’il a prononcés au micro de la BBC en 1940, et celle du comédien François Morel, qui jouait de Gaulle, en reproduisant le rythme et les envolées de sa voix. L’acteur interprétait l’intervention reconstituée par des historien·nes, d’après la traduction d’une retranscription en allemand réalisée par un service d’écoute militaire et qui figurait dans les archives fédérales suisses. La voix du Général se superpose ensuite sur le discours du comédien.

Certain·es auditeur·rices disent reconnaître la voix de l’acteur dans le discours reconstitué, d’autres ne reconnaissent pas celle de Charles de Gaulle sans les grésillements de la BBC, mais le résultat est techniquement impressionnant. Le tout est vraisemblable, mais pas authentique. Il ne peut pas être qualifié de deepfake car, pour couper court aux potentielles critiques, le projet est présenté pour ce qu’il est : la voix du général recréée à partir d’un discours revu par des historien·nes et lu par un comédien. Il n’y a eu aucun ajout au texte, les auteur·rices du projet n’ont pas fait prononcer au célèbre orateur des phrases qu’il n’aurait pas prononcées. L’émotion, à l’écoute de ce discours, est déclenchée par la voix, qui apporte de nombreuses indications sur le caractère de la personne et sur la dimension historique de l’événement (celui de 1940 comme celui de 2023), tout autant que par le jeu du comédien, primordial dans l’incarnation du personnage.

Le procédé n’est pas nouveau, car l’Ircam a déjà ressuscité des voix, mais aussi fait parler des archives. En 2015 notamment, pour le documentaire Juger Pétain d’Arte, les chercheur·ses de l’Ircam avaient produit les voix de Philippe Pétain et d’autres protagonistes, pour fabriquer une bande-son qui s’ajoute aux images muettes archivées de son procès. Le texte, restitué grâce à la lecture sur les lèvres, était lu par des acteur·ices à la voix similaire à celle de leur modèle. Celleux-ci calaient leurs paroles et les intonations sur les images. Ensuite, une voix était composée à partir d’archives sonores comportant les voix des intervenants au procès.

L’intelligence artificielle permet un gain d’efficacité, de précision et de coût. Le cinéma et l’audiovisuel ont régulièrement recours aux nouvelles technologies et expérimentent – parfois aux limites de l’éthique, interviewant ou faisant jouer des acteur·rices décédé·es dans de nouveaux films. En 2023, l’ouverture d’outils d’intelligence artificielle au grand public inquiète car la fabrication de deepfake vocaux devient accessible à tous·tes.

Ressusciter une voix par l’étude linguistique et historique

Les méthodes de clonage vocal sont possibles lorsqu’on dispose d’échantillons de voix de la personne. Or, pour les personnages historiques d’avant l’invention du phonogramme (1877), de telles sources n’existent pas. Il faut donc s’appuyer sur un corpus de témoignages, mais aussi sur des connaissances historiques, linguistiques et anatomiques. En 2018, des chercheur·ses ont travaillé avec l’agence de publicité BETC pour recréer la voix de Louis XIV. Iels ont recoupé de nombreuses informations pour déterminer la sonorité de la voix et le rythme des paroles du monarque. La taille de l’homme et son journal de santé ont apporté des indications sur le timbre de sa voix, sa hauteur et son phrasé, d’après les commanditaires des travaux. Le couplage de cette voix, créée par synthèse vocale, avec l’intelligence artificielle, permet de dialoguer avec le roi, mais interroge sur la rigueur scientifique et éthique du produit.

En 2023, un autre personnage va recouvrer sa voix, le temps d’interpréter un texte historique. Le projet est mené par le Centre des monuments nationaux (CMN) pour l’ouverture de la Cité internationale de la langue française au château de Villers-Cotterêts, fin juin 2023. Le parcours de visite annonce la lecture de l’ordonnance historique de Villers-Cotterêts (qui imposa l’usage du français dans les actes administratifs et juridiques) par la voix du monarque François Ier. Cette fois, le résultat n’est plus vraisemblable, mais plausible. Il s’agit de reproduire la façon de parler et non la voix. Un comédien lit son texte avec des consignes pour reproduire des intonations, un rythme, une façon de parler de l’époque, reconstitués à partir de sources livresques. Au 16e siècle, la manière d’écrire était proche du son et de nombreux commentaires ont permis de retrouver la façon de prononcer, explique Gilles Soufi, chercheur associé au projet. On sait aussi que les contemporain·es de François 1er roulaient les « r », par exemple. Mais plus on remonte le temps, moins on possède d’indications. Le parcours de visite proposera d’autres voix plus anciennes encore, dont celle de Jeanne d’Arc, prononçant des phrases emblématiques de l’époque, qui pourront être comparées à celles proposées lors de l’exposition « Parlez-vous français ? », proposée en 1987 par la Bpi.

Ressusciter les voix, travaux d’archéologie

Comment retrouver les voix encore plus anciennes ? Par les empreintes qu’elles ont laissées dans les peintures rupestres ou sur les poteries, répondent les chercheur·ses en archéologie acoustique. Le pionnier de cette science peu connue fut Richard G. Woodbridge qui affirmait, en 1969, pouvoir trouver et lire, sur certaines poteries antiques, les traces sonores de personnes présentes lors de leur fabrication. Il aurait entendu le mot « bleu » dans un trait de peinture. Les recherches en archéologie acoustique ont repris dans les années 1990, mais ont fait l’objet de peu de publications jusqu’à la découverte de fossiles sonores par le paléoanthropologue Franck Bessière. Avec son équipe, il a réussi à faire jouer ces sons préhistoriques et, « par un travail de modulation sonore articulé à une recherche scientifique, un bruitage et un mixage hors pair », les faire parler. Ce sont bien des voix néandertaliennes que l’on entend dans la restitution réalisée pour le documentaire Fossile sonore (2020), de France Culture.

En 2020, des chercheur·ses ont exploré une autre piste pour faire parler les mort·es en réalisant un moulage, imprimé en 3D, de la gorge d’une momie vieille de 3 000 ans. Iels l’ont ensuite relié à un larynx artificiel. Le résultat est un peu décevant, puisqu’il est bref et ressemble plus à un son qu’à une parole, car les cordes vocales sont absentes. Les scientifiques sont néanmoins parvenu·es à reconstituer le timbre de la voix de cette momie et espèrent obtenir plus de sons assemblés en manipulant la forme de l’appareil vocal par ordinateur.

Publié le 12/06/2023 - CC BY-SA 4.0

Pour aller plus loin

« Clonage de voix et synthèse vocale : des IA qui parlent (presque) comme des humains », par Olivier Zhang | The Conversation

L’article explore les limites actuelles de technologies de synthèse vocale et s’intéresse aux possibles avancées permises par l’intelligence artificielle.

Rédiger un commentaire

Les champs signalés avec une étoile (*) sont obligatoires

Réagissez sur le sujet