Entretien avec Jean-Louis Giavitto

La voix est un phénomène complexe, porteur d’harmonie et de sens, qui intéresse les équipes de l’Institut de recherche et coordination acoustique/musique (IRCAM). Elles travaillent depuis plusieurs années à produire et manipuler les voix grâce à l’informatique, avec des applications dans des domaines artistiques, ou pour accompagner des projets scientifiques. Pour comprendre ces recherches, Balises a rencontré Jean-Louis Giavitto, chercheur au CNRS et à l’IRCAM et conseiller scientifique de la rencontre « Manipuler les voix », en janvier 2023 à la Bpi.

Sur quels projets autour de la manipulation des voix l’IRCAM travaille-t-il ?

Une des missions de l’IRCAM, depuis l’origine, est de porter des recherches sur la musique et le son organisé, ce qui inclut la voix. Un des premiers projets marquants, dans les années quatre-vingt, a été de reproduire la voix de Farinelli pour un film : l’IRCAM a été chargé d’élaborer, pour ce castrat, une voix de haute-contre. À l’époque, il a fallu faire un mixage entre des voix d’hommes et de femmes, puis des traitements audio qui changent la fréquence fondamentale du son. Cette idée de travestissement vocal intéresse beaucoup le cinéma et l’audiovisuel. On est par exemple venu nous voir pour gommer des accents — ce qu’on ne sait pas faire. Plus récemment, Arte nous a demandé de recréer la voix du maréchal Pétain pour un documentaire : le procès de Pétain a été filmé et il existe une transcription de tout ce qui s’est dit, mais aucun enregistrement audio. La volonté d’Arte a été de rajouter le son de la voix de Pétain sur les images existantes qui sont muettes.

Récemment encore, nous avons travaillé, à la demande de Thierry Ardisson, sur la voix de Dalida pour L’Hôtel du temps, une émission dans laquelle il effectue des interviews imaginaires avec des célébrités décédées. Une entreprise travaille sur les images, en parallèle avec nous.

Concrètement, comment se modifie la voix ?

Nous avons développé le logiciel Trax qui est plutôt utilisé pour corriger « artisanalement » des voix de cinéma, faire du travestissement vocal ou des retouches. De même qu’on peut retoucher une image, on peut retoucher du son ou des voix.

Pour Pétain, l’approche a été différente : nous partons de la voix d’un acteur qui ressemble un peu à celle de Pétain — évidemment, c’est plus facile avec des voix qui sont proches — et nous lui faisons dire, avec la même intonation, un certain nombre de phrases dont on a l’enregistrement avec la voix originale. La machine apprend comment passer de la voix de l’acteur à la voix de Pétain. Ensuite, l’acteur peut dire quelque chose dont il n’existe pas d’enregistrement, et nous appliquons la transformation apprise pour transformer la voix de l’acteur en celle de Pétain.

Quelles sont les technologies utilisées ?

Au cours des années, les méthodes ont évolué. Aujourd’hui, nous nous servons de méthodes qui relèvent de l’apprentissage profond, le deep learning, une branche de l’intelligence artificielle qui conçoit et étudie la mise en œuvre de réseaux de neurones. Ces technologies ont été imaginées à la fin des années cinquante, mais les contraintes scientifiques et technologiques ont provoqué plusieurs « hivers » dans la discipline. À la fin des années soixante, on ne disposait pas d’algorithme d’apprentissage permettant de contrôler plusieurs couches de neurones. Dans les années quatre-vingt, on a de meilleurs algorithmes mais la puissance de calcul et la masse de données nécessaires à ces apprentissages ne sont pas disponibles. Au début des années deux mille, des algorithmes plus performants et les masses de données rendues disponibles par la numérisation et la mise en réseau du monde ont permis à la discipline de se développer et devenir pleinement opérationnelle.

Ces techniques donnent aujourd’hui de meilleurs résultats que ce qu’on faisait auparavant. Les avancées sur le traitement des images sont par exemple visibles un peu partout. Mais traiter la voix reste compliqué parce que c’est un phénomène qui se déroule dans le temps et que plusieurs échelles de temps coexistent et interagissent, de l’échantillonnage audionumérique (1/44.000 s.) à la prosodie (de l’ordre de quelques secondes).

Un enfant crie devant un micro — Photo de Jason Rosewell sur Unsplash – CC0

Vous appuyez-vous sur des études psychologiques ?

La voix est un phénomène complexe qui comporte non seulement une dimension sémantique — ce qu’on veut dire — mais aussi tout un contexte véhiculé par les intonations : une même phrase peut être sentie comme un ordre ou comme une question, suivant la prosodie. Ce sont ces attributs importants que nous essayons de comprendre.

Nous menons des études à la fois cognitives, psychoacoustiques et psychologiques. Une étude s’est par exemple focalisée sur le Bonjour : quand quelqu’un dit ce mot très court, cela peut être d’une façon volontaire, martiale, interrogative, etc. Nous cherchons à comprendre et à reconnaître les affects qui sont associés à ce bonjour.

En manipulant la voix, nous pouvons présenter des variantes de manière contrôlée, pour déterminer quel paramètre est impliqué dans un ressenti donné : la hauteur de la voix, le vibrato, le débit… La simulation par les machines permet ainsi d’alimenter des études expérimentales de psychologie ou de perception et de les objectiver rigoureusement.

Il y a un aller-retour constant entre la compréhension du domaine et nos outils : la compréhension du domaine permet d’améliorer les outils et, en retour, les outils permettent d’améliorer la compréhension du domaine.

Pour quelles applications concrètes ?

Il y a de premiers résultats en psychologie, par exemple : il semblerait que l’intonation de notre voix ait un effet sur notre propre humeur. Et donc en faisant entendre à quelqu’un sa propre voix, mais en y ajoutant un peu de « bonne humeur », cela pourrait aider des personnes qui font face à un stress post-traumatique ou une dépression, en changeant la perception de la personne qui a un trouble. Tout cela est encore très expérimental, rien n’est validé : le chemin sera long, mais il est engagé.

Quelles sont les implications éthiques de ces recherches ?

On connaissait les deepfakes visuels et désormais, on a des deepfakes vocaux ! Cela pose quantité de questions. Par exemple : est-ce qu’on a le droit de faire parler les morts ?

Pour la voix de Dalida, Thierry Ardisson est assez précautionneux : les propos sont issus d’autres interviews, et il a travaillé en amont avec le frère de la chanteuse pour être sûr qu’il ne trahissait pas sa pensée. Mais, de même que l’on parle d’atteinte à l’image, peut-être qu’il faudra parler un jour d’atteinte à la voix, à l’identité sonore.

Ces technologies font inévitablement penser à la fable des langues d’Ésope : elles peuvent dire la vérité ou le mensonge. Concernant les deepfakes, il faut discuter des aspects éthiques avec le public. Un scientifique peut dire, d’un point de vue technique, ce qu’il sait faire ou pas. Mais est-ce souhaitable ? Quels garde-fous mettre en place ?

Plus généralement, le numérique s’attache maintenant à analyser des phénomènes comme les sensations, les émotions ou les affects, qui deviennent également des marchandises. Ces domaines ont d’abord été parcourus par les artistes. L’IRCAM, qui est un carrefour entre sciences, techniques et créations artistiques, est bien placé pour croiser les regards et susciter des rencontres entre ces communautés afin de porter les termes du débat devant le public : c’est l’un des objectifs des rencontres Fictions-Science.

Publié le 26/12/2022 - CC BY-NC-ND 3.0 FR

Voir aussi

Archives vivantes

02/06/2023

Sciences et techniques

Résumé : En 2023, Le Monde, l'Ircam et Ircam Amplify, reconstituaient l'appel du 18 juin du général de Gaulle par...

Manipuler les voix

13/01/2023 à 19:00
Salle Stravinsky

Musique - Sciences et techniques

Vous n’avez pas idée de ce que peut une voix ! La Fictions-Science de janvier se consacre à la manipulation...

Les intelligences artificielles ont-elles l’oreille musicale ?

31/05/2022

Culture numérique - Musique

En 1950, l’informatique en est à ses débuts quand Alan Turing propose un test pour mesurer l’intelligence des machines. En...

Rédiger un commentaire

Les champs signalés avec une étoile (*) sont obligatoires

Réagissez sur le sujet Annuler la réponse

Cookie	Type	Durée	Description
_pk_id.*		13 mois	Ce cookie est installé par l'outil d'analyse Web Matomo. Le cookie _pk_id est utilisé pour stocker des détails sur l'utilisateur tels que l'identifiant unique (ID). Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses. Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
_pk_ses.*		30 minutes	Ce cookie est installé par l'outil d'analyse Web Matomo. Ce cookie _pk_ses de courte durée est utilisé pour stocker temporairement les données de la visite. Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses. Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/

Cookie	Durée	Description
bcookie	2 years	Ce cookie est installé par LinkedIn pour activer les fonctions de LinkedIn sur ce site.
cookielawinfo-checkbox-necessary	11 months	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-non-necessary	11 months	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Non nécessaire».
csrftoken	11 months	Ce cookie est associé à la plateforme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes intersites
lidc	1 day	Ce cookie est défini par LinkedIn et utilisé pour le routage.
viewed_cookie_policy	11 months	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.

Cookie	Type	Durée	Description
everest_g_v2	0	1 year	Le cookie est défini sous le domaine eversttech.net. Le but du cookie est de mapper les clics sur d'autres événements sur le site Web du client.
GPS	0	30 minutes	Ce cookie est défini par Youtube et enregistre un identifiant unique pour suivre les utilisateurs en fonction de leur emplacement géographique
mc	0	1 year	Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web.
MR	0	1 week	Ce cookie est utilisé pour mesurer l'utilisation du site Web à des fins d'analyse.
VISITOR_INFO1_LIVE	1	5 months	Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web.
YSC	1		Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées.

Cookie	Type	Durée	Description
ATN	1	2 years	Ce cookie est installé par atdmt.com et stockent des données sur le comportement de l'utilisateur sur plusieurs sites Web. Les données sont ensuite utilisées pour diffuser des publicités pertinentes aux utilisateurs du site Web.
bito	0	1 year
bitoIsSecure	0	1 year
bscookie	1	2 years
chkChromeAb67Sec	0	2 months
CMID	0	1 year
CMPRO	0	2 months
CMPS	0	2 months
CMST	0	1 day
cref	0	1 year
damd	0	1 year
dc	0	9 years
dmvk	0
dmxId	0	9 months
fr	1	2 months	Le cookie est installé par Facebook pour montrer des publicités pertinentes aux utilisateurs et mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook.
GED_PLAYLIST_ACTIVITY	0
glassbox-session-id	0	30 minutes
IDE	1	2 years	Utilisé par Google DoubleClick, ce cookie stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur.
KADUSERCOOKIE	0	2 months
KTPCACOOKIE	0	1 day
lang	0		Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web.
lissc	0	1 year
li_sugr	0	2 months
matchbidswitch	0	1 month
MUID	0	1 year	Utilisé par Microsoft comme identifiant unique. Le cookie est défini par des scripts Microsoft intégrés. Le but de ce cookie est de synchroniser l'ID sur de nombreux domaines Microsoft différents pour permettre le suivi des utilisateurs.
pardot	0		Le cookie est défini lorsque le visiteur est connecté en tant qu'utilisateur Pardot.
personalization_id	0	2 years	Ce cookie est utilisé par Twitter pour intégrer les fonctionnalités de partage de ce média social. Il stocke également des informations sur la manière dont l'utilisateur utilise le site Web pour le suivi et le ciblage.
PUBMDCID	0	2 months	Ce cookie est défini par pubmatic.com. Le cookie stocke un identifiant utilisé pour afficher des publicités sur le navigateur des utilisateurs.
ROUTEID	0
ss	1	9 years
SyncRTB3	0	2 months
TDCPM	0	1 year	Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
TDID	0	1 year	Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
test_cookie	0	11 months
ts	1	1 year
tuuid	0	9 years	Ce cookie est défini par .bidswitch.net. Les cookies stockent un identifiant unique dans le but de déterminer les publicités que les utilisateurs ont vues si vous avez visité l'un des sites Web des annonceurs. Les informations sont utilisées pour déterminer quand et à quelle fréquence les utilisateurs verront une certaine bannière.
u	0	2 months
UserMatchHistory	0	1 month
usprivacy	0	1 year
ut	0	9 years
v1st	0	1 year
viewer_token	0	1 month
wfivefivec	0	1 year
_fbp	0	2 months	Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web.
_gcl_au	0	2 months
_pin_unauth	0	1 year
_ptref	0	1 day
_rdt_uuid	0	2 months
_uetsid	0	1 day
_uetvid	0	2 weeks
__putma	0	19 years