Interview

Appartient au dossier : Les intelligences artificielles aujourd’hui

Manipuler la voix, de Farinelli au deepfake
Entretien avec Jean-Louis Giavitto

Sciences et techniques

Jean-Louis Giavitto, IRCAM-CNRS

La voix est un phénomène complexe, porteur d’harmonie et de sens, qui intéresse les équipes de l’Institut de recherche et coordination acoustique/musique (IRCAM). Elles travaillent depuis plusieurs années à produire et manipuler les voix grâce à l’informatique, avec des applications dans des domaines artistiques, ou pour accompagner des projets scientifiques. Pour comprendre ces recherches, Balises a rencontré Jean-Louis Giavitto, chercheur au CNRS et à l’IRCAM et conseiller scientifique de la rencontre « Manipuler les voix », en janvier 2023 à la Bpi.

Sur quels projets autour de la manipulation des voix l’IRCAM travaille-t-il ?

Une des missions de l’IRCAM, depuis l’origine, est de porter des recherches sur la musique et le son organisé, ce qui inclut la voix. Un des premiers projets marquants, dans les années quatre-vingt, a été de reproduire la voix de Farinelli pour un film : l’IRCAM a été chargé d’élaborer, pour ce castrat, une voix de haute-contre. À l’époque, il a fallu faire un mixage entre des voix d’hommes et de femmes, puis des traitements audio qui changent la fréquence fondamentale du son. Cette idée de travestissement vocal intéresse beaucoup le cinéma et l’audiovisuel. On est par exemple venu nous voir pour gommer des accents — ce qu’on ne sait pas faire. Plus récemment, Arte nous a demandé de recréer la voix du maréchal Pétain pour un documentaire : le procès de Pétain a été filmé et il existe une transcription de tout ce qui s’est dit, mais aucun enregistrement audio. La volonté d’Arte a été de rajouter le son de la voix de Pétain sur les images existantes qui sont muettes. 

Récemment encore, nous avons travaillé, à la demande de Thierry Ardisson, sur la voix de Dalida pour L’Hôtel du temps, une émission dans laquelle il effectue des interviews imaginaires avec des célébrités décédées. Une entreprise travaille sur les images, en parallèle avec nous.

Concrètement, comment se modifie la voix ? 

Nous avons développé le logiciel Trax qui est plutôt utilisé pour corriger « artisanalement » des voix de cinéma, faire du travestissement vocal ou des retouches. De même qu’on peut retoucher une image, on peut retoucher du son ou des voix. 

Pour Pétain, l’approche a été différente : nous partons de la voix d’un acteur qui ressemble un peu à celle de Pétain — évidemment, c’est plus facile avec des voix qui sont proches — et nous lui faisons dire, avec la même intonation, un certain nombre de phrases dont on a l’enregistrement avec la voix originale. La machine apprend comment passer de la voix de l’acteur à la voix de Pétain. Ensuite, l’acteur peut dire quelque chose dont il n’existe pas d’enregistrement, et nous appliquons la transformation apprise pour transformer la voix de l’acteur en celle de Pétain.

Quelles sont les technologies utilisées ? 

Au cours des années, les méthodes ont évolué. Aujourd’hui, nous nous servons de méthodes qui relèvent de l’apprentissage profond, le deep learning, une branche de l’intelligence artificielle qui conçoit et étudie la mise en œuvre de réseaux de neurones. Ces technologies ont été imaginées à la fin des années cinquante, mais les contraintes scientifiques et technologiques ont provoqué plusieurs « hivers » dans la discipline. À la fin des années soixante, on ne disposait pas d’algorithme d’apprentissage permettant de contrôler plusieurs couches de neurones. Dans les années quatre-vingt, on a de meilleurs algorithmes mais la puissance de calcul et la masse de données nécessaires à ces apprentissages ne sont pas disponibles. Au début des années deux mille, des algorithmes plus performants et les masses de données rendues disponibles par la numérisation et la mise en réseau du monde ont permis à la discipline de se développer et devenir pleinement opérationnelle. 

Ces techniques donnent aujourd’hui de meilleurs résultats que ce qu’on faisait auparavant. Les avancées sur le traitement des images sont par exemple visibles un peu partout. Mais traiter la voix reste compliqué parce que c’est un phénomène qui se déroule dans le temps et que plusieurs échelles de temps coexistent et interagissent, de l’échantillonnage audionumérique (1/44.000 s.) à la prosodie (de l’ordre de quelques secondes). 

Un enfant crie devant un micro
Photo de Jason Rosewell sur Unsplash – CC0

Vous appuyez-vous sur des études psychologiques ?

La voix est un phénomène complexe qui comporte non seulement une dimension sémantique — ce qu’on veut dire — mais aussi tout un contexte véhiculé par les intonations : une même phrase peut être sentie comme un ordre ou comme une question, suivant la prosodie. Ce sont ces attributs importants que nous essayons de comprendre. 

Nous menons des études à la fois cognitives, psychoacoustiques et psychologiques. Une étude s’est par exemple focalisée sur le Bonjour : quand quelqu’un dit ce mot très court, cela peut être d’une façon volontaire, martiale, interrogative, etc. Nous cherchons à comprendre et à reconnaître les affects qui sont associés à ce bonjour

En manipulant la voix, nous pouvons présenter des variantes de manière contrôlée, pour déterminer quel paramètre est impliqué dans un ressenti donné : la hauteur de la voix, le vibrato, le débit… La simulation par les machines permet ainsi d’alimenter des études expérimentales de psychologie ou de perception et de les objectiver rigoureusement.

Il y a un aller-retour constant entre la compréhension du domaine et nos outils : la compréhension du domaine permet d’améliorer les outils et, en retour, les outils permettent d’améliorer la compréhension du domaine. 

Pour quelles applications concrètes ? 

Il y a de premiers résultats en psychologie, par exemple : il semblerait que l’intonation de notre voix ait un effet sur notre propre humeur. Et donc en faisant entendre à quelqu’un sa propre voix, mais en y ajoutant un peu de « bonne humeur », cela pourrait aider des personnes qui font face à un stress post-traumatique ou une dépression, en changeant la perception de la personne qui a un trouble. Tout cela est encore très expérimental, rien n’est validé : le chemin sera long, mais il est engagé. 

Quelles sont les implications éthiques de ces recherches ? 

On connaissait les deepfakes visuels et désormais, on a des deepfakes vocaux ! Cela pose quantité de questions. Par exemple : est-ce qu’on a le droit de faire parler les morts ? 

Pour la voix de Dalida, Thierry Ardisson est assez précautionneux : les propos sont issus d’autres interviews, et il a travaillé en amont avec le frère de la chanteuse pour être sûr qu’il ne trahissait pas sa pensée. Mais, de même que l’on parle d’atteinte à l’image, peut-être qu’il faudra parler un jour d’atteinte à la voix, à l’identité sonore. 

Ces technologies font inévitablement penser à la fable des langues d’Ésope : elles peuvent dire la vérité ou le mensonge. Concernant les deepfakes, il faut discuter des aspects éthiques avec le public. Un scientifique peut dire, d’un point de vue technique, ce qu’il sait faire ou pas. Mais est-ce souhaitable ? Quels garde-fous mettre en place ?

Plus généralement, le numérique s’attache maintenant à analyser des phénomènes comme les sensations, les émotions ou les affects, qui deviennent également des marchandises. Ces domaines ont d’abord été parcourus par les artistes. L’IRCAM, qui est un carrefour entre sciences, techniques et créations artistiques, est bien placé pour croiser les regards et susciter des rencontres entre ces communautés afin de porter les termes du débat devant le public : c’est l’un des objectifs des rencontres Fictions-Science. 

Publié le 26/12/2022 - CC BY-NC-ND 3.0 FR

Rédiger un commentaire

Les champs signalés avec une étoile (*) sont obligatoires

Réagissez sur le sujet