La voix est un phénomène complexe, porteur d’harmonie et de sens, qui intéresse les équipes de l’Institut de recherche et coordination acoustique/musique (IRCAM). Elles travaillent depuis plusieurs années à produire et manipuler les voix grâce à l’informatique, avec des applications dans des domaines artistiques, ou pour accompagner des projets scientifiques. Pour comprendre ces recherches, Balises a rencontré Jean-Louis Giavitto, chercheur au CNRS et à l’IRCAM et conseiller scientifique de la rencontre « Manipuler les voix », en janvier 2023 à la Bpi.
Sur quels projets autour de la manipulation des voix l’IRCAM travaille-t-il ?
Une des missions de l’IRCAM, depuis l’origine, est de porter des recherches sur la musique et le son organisé, ce qui inclut la voix. Un des premiers projets marquants, dans les années quatre-vingt, a été de reproduire la voix de Farinelli pour un film : l’IRCAM a été chargé d’élaborer, pour ce castrat, une voix de haute-contre. À l’époque, il a fallu faire un mixage entre des voix d’hommes et de femmes, puis des traitements audio qui changent la fréquence fondamentale du son. Cette idée de travestissement vocal intéresse beaucoup le cinéma et l’audiovisuel. On est par exemple venu nous voir pour gommer des accents — ce qu’on ne sait pas faire. Plus récemment, Arte nous a demandé de recréer la voix du maréchal Pétain pour un documentaire : le procès de Pétain a été filmé et il existe une transcription de tout ce qui s’est dit, mais aucun enregistrement audio. La volonté d’Arte a été de rajouter le son de la voix de Pétain sur les images existantes qui sont muettes.
Récemment encore, nous avons travaillé, à la demande de Thierry Ardisson, sur la voix de Dalida pour L’Hôtel du temps, une émission dans laquelle il effectue des interviews imaginaires avec des célébrités décédées. Une entreprise travaille sur les images, en parallèle avec nous.
Concrètement, comment se modifie la voix ?
Nous avons développé le logiciel Trax qui est plutôt utilisé pour corriger « artisanalement » des voix de cinéma, faire du travestissement vocal ou des retouches. De même qu’on peut retoucher une image, on peut retoucher du son ou des voix.
Pour Pétain, l’approche a été différente : nous partons de la voix d’un acteur qui ressemble un peu à celle de Pétain — évidemment, c’est plus facile avec des voix qui sont proches — et nous lui faisons dire, avec la même intonation, un certain nombre de phrases dont on a l’enregistrement avec la voix originale. La machine apprend comment passer de la voix de l’acteur à la voix de Pétain. Ensuite, l’acteur peut dire quelque chose dont il n’existe pas d’enregistrement, et nous appliquons la transformation apprise pour transformer la voix de l’acteur en celle de Pétain.
Quelles sont les technologies utilisées ?
Au cours des années, les méthodes ont évolué. Aujourd’hui, nous nous servons de méthodes qui relèvent de l’apprentissage profond, le deep learning, une branche de l’intelligence artificielle qui conçoit et étudie la mise en œuvre de réseaux de neurones. Ces technologies ont été imaginées à la fin des années cinquante, mais les contraintes scientifiques et technologiques ont provoqué plusieurs « hivers » dans la discipline. À la fin des années soixante, on ne disposait pas d’algorithme d’apprentissage permettant de contrôler plusieurs couches de neurones. Dans les années quatre-vingt, on a de meilleurs algorithmes mais la puissance de calcul et la masse de données nécessaires à ces apprentissages ne sont pas disponibles. Au début des années deux mille, des algorithmes plus performants et les masses de données rendues disponibles par la numérisation et la mise en réseau du monde ont permis à la discipline de se développer et devenir pleinement opérationnelle.
Ces techniques donnent aujourd’hui de meilleurs résultats que ce qu’on faisait auparavant. Les avancées sur le traitement des images sont par exemple visibles un peu partout. Mais traiter la voix reste compliqué parce que c’est un phénomène qui se déroule dans le temps et que plusieurs échelles de temps coexistent et interagissent, de l’échantillonnage audionumérique (1/44.000 s.) à la prosodie (de l’ordre de quelques secondes).
Vous appuyez-vous sur des études psychologiques ?
La voix est un phénomène complexe qui comporte non seulement une dimension sémantique — ce qu’on veut dire — mais aussi tout un contexte véhiculé par les intonations : une même phrase peut être sentie comme un ordre ou comme une question, suivant la prosodie. Ce sont ces attributs importants que nous essayons de comprendre.
Nous menons des études à la fois cognitives, psychoacoustiques et psychologiques. Une étude s’est par exemple focalisée sur le Bonjour : quand quelqu’un dit ce mot très court, cela peut être d’une façon volontaire, martiale, interrogative, etc. Nous cherchons à comprendre et à reconnaître les affects qui sont associés à ce bonjour.
En manipulant la voix, nous pouvons présenter des variantes de manière contrôlée, pour déterminer quel paramètre est impliqué dans un ressenti donné : la hauteur de la voix, le vibrato, le débit… La simulation par les machines permet ainsi d’alimenter des études expérimentales de psychologie ou de perception et de les objectiver rigoureusement.
Il y a un aller-retour constant entre la compréhension du domaine et nos outils : la compréhension du domaine permet d’améliorer les outils et, en retour, les outils permettent d’améliorer la compréhension du domaine.
Pour quelles applications concrètes ?
Il y a de premiers résultats en psychologie, par exemple : il semblerait que l’intonation de notre voix ait un effet sur notre propre humeur. Et donc en faisant entendre à quelqu’un sa propre voix, mais en y ajoutant un peu de « bonne humeur », cela pourrait aider des personnes qui font face à un stress post-traumatique ou une dépression, en changeant la perception de la personne qui a un trouble. Tout cela est encore très expérimental, rien n’est validé : le chemin sera long, mais il est engagé.
Quelles sont les implications éthiques de ces recherches ?
On connaissait les deepfakes visuels et désormais, on a des deepfakes vocaux ! Cela pose quantité de questions. Par exemple : est-ce qu’on a le droit de faire parler les morts ?
Pour la voix de Dalida, Thierry Ardisson est assez précautionneux : les propos sont issus d’autres interviews, et il a travaillé en amont avec le frère de la chanteuse pour être sûr qu’il ne trahissait pas sa pensée. Mais, de même que l’on parle d’atteinte à l’image, peut-être qu’il faudra parler un jour d’atteinte à la voix, à l’identité sonore.
Ces technologies font inévitablement penser à la fable des langues d’Ésope : elles peuvent dire la vérité ou le mensonge. Concernant les deepfakes, il faut discuter des aspects éthiques avec le public. Un scientifique peut dire, d’un point de vue technique, ce qu’il sait faire ou pas. Mais est-ce souhaitable ? Quels garde-fous mettre en place ?
Plus généralement, le numérique s’attache maintenant à analyser des phénomènes comme les sensations, les émotions ou les affects, qui deviennent également des marchandises. Ces domaines ont d’abord été parcourus par les artistes. L’IRCAM, qui est un carrefour entre sciences, techniques et créations artistiques, est bien placé pour croiser les regards et susciter des rencontres entre ces communautés afin de porter les termes du débat devant le public : c’est l’un des objectifs des rencontres Fictions-Science.
XÉtant un service public, nous ne faisons aucun usage commercial des données collectées lors de votre navigation. Nous utilisons les cookies ou technologies similaires pour accéder uniquement à des données personnelles non sensibles stockées sur votre terminal, que nous traitons afin de réaliser des statistiques, mesurer les performances du site, ou permettre des accès à des ressources externes.
Vous pouvez à tout moment revenir sur vos choix en utilisant le lien "Personnaliser". En savoir plusRefuserAccepterPersonnaliser
Politique de confidentialité & cookies
Gestion de vos préférences sur les cookies
Ce site utilise des cookies pour améliorer votre expérience de navigation. Ces cookies sont classés en trois catégories : fonctionnel, statistiques et marketing.
Veuillez retrouver notre politique de gestions de données personnelles et de cookies : page "Informations sur les cookies" et page "Politique de confidentialité"
Ces cookies nous permettent de réaliser des statistiques de mesures d’audiences et de performances en analysant le volume et la source du trafic sur notre site. Ces cookies permettent également d’analyser de façon anonyme le comportement des visiteurs de notre site afin de mesurer et d'améliorer les performances de notre site et de nos campagnes en ligne.
Le recueil de votre consentement n’est pas requis, nous utilisons un logiciel d’analyse d’audience (Matomo) configuré selon les recommandations de la CNIL pour bénéficier de l’exemption de consentement.
https://www.cnil.fr/fr/cookies-et-autres-traceurs/regles/cookies-solutions-pour-les-outils-de-mesure-daudience
Cookie
Type
Durée
Description
_pk_id.*
13 mois
Ce cookie est installé par l'outil d'analyse Web Matomo.
Le cookie _pk_id est utilisé pour stocker des détails sur l'utilisateur tels que l'identifiant unique (ID).
Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses.
Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
_pk_ses.*
30 minutes
Ce cookie est installé par l'outil d'analyse Web Matomo.
Ce cookie _pk_ses de courte durée est utilisé pour stocker temporairement les données de la visite.
Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses.
Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
Les cookies fonctionnels aide à améliorer les performances de certaines fonctionnalités comme partager le contenu du site sur les réseaux sociaux, collecter des retour d'expérience, et autres fonctionnalités.
Cookie
Type
Durée
Description
bcookie
0
2 years
Ce cookie est installé par LinkedIn pour activer les fonctions de LinkedIn sur ce site.
cookielawinfo-checkbox-necessary
0
11 months
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-non-necessary
0
11 months
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Non nécessaire».
csrftoken
0
11 months
Ce cookie est associé à la plateforme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes intersites
lidc
0
1 day
Ce cookie est défini par LinkedIn et utilisé pour le routage.
viewed_cookie_policy
0
11 months
Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
Les cookies analytiques sont utilisés pour comprendre comment les visiteurs interagissent avec le site. Ces cookies génèrent des informations mesurables sur le nombre de visiteurs, le taux de rebond, la source du trafic etc.
Cookie
Type
Durée
Description
everest_g_v2
0
1 year
Le cookie est défini sous le domaine eversttech.net. Le but du cookie est de mapper les clics sur d'autres événements sur le site Web du client.
GPS
0
30 minutes
Ce cookie est défini par Youtube et enregistre un identifiant unique pour suivre les utilisateurs en fonction de leur emplacement géographique
mc
0
1 year
Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web.
MR
0
1 week
Ce cookie est utilisé pour mesurer l'utilisation du site Web à des fins d'analyse.
VISITOR_INFO1_LIVE
1
5 months
Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web.
YSC
1
Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées.
Les cookies publicitaires sont utilisés pour procurer une expérience optimale aux visiteurs du site avec des publicités et des campagnes marketing pertinentes. Ces cookies traquent les visiteurs à travers les sites et collectent leurs informations pour générer des publicités personnalisées.
Cookie
Type
Durée
Description
ATN
1
2 years
Ce cookie est installé par atdmt.com et stockent des données sur le comportement de l'utilisateur sur plusieurs sites Web. Les données sont ensuite utilisées pour diffuser des publicités pertinentes aux utilisateurs du site Web.
bito
0
1 year
bitoIsSecure
0
1 year
bscookie
1
2 years
chkChromeAb67Sec
0
2 months
CMID
0
1 year
CMPRO
0
2 months
CMPS
0
2 months
CMST
0
1 day
cref
0
1 year
damd
0
1 year
dc
0
9 years
dmvk
0
dmxId
0
9 months
fr
1
2 months
Le cookie est installé par Facebook pour montrer des publicités pertinentes aux utilisateurs et mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook.
GED_PLAYLIST_ACTIVITY
0
glassbox-session-id
0
30 minutes
IDE
1
2 years
Utilisé par Google DoubleClick, ce cookie stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur.
KADUSERCOOKIE
0
2 months
KTPCACOOKIE
0
1 day
lang
0
Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web.
lissc
0
1 year
li_sugr
0
2 months
matchbidswitch
0
1 month
MUID
0
1 year
Utilisé par Microsoft comme identifiant unique. Le cookie est défini par des scripts Microsoft intégrés. Le but de ce cookie est de synchroniser l'ID sur de nombreux domaines Microsoft différents pour permettre le suivi des utilisateurs.
pardot
0
Le cookie est défini lorsque le visiteur est connecté en tant qu'utilisateur Pardot.
personalization_id
0
2 years
Ce cookie est utilisé par Twitter pour intégrer les fonctionnalités de partage de ce média social. Il stocke également des informations sur la manière dont l'utilisateur utilise le site Web pour le suivi et le ciblage.
PUBMDCID
0
2 months
Ce cookie est défini par pubmatic.com. Le cookie stocke un identifiant utilisé pour afficher des publicités sur le navigateur des utilisateurs.
ROUTEID
0
ss
1
9 years
SyncRTB3
0
2 months
TDCPM
0
1 year
Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
TDID
0
1 year
Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
test_cookie
0
11 months
ts
1
1 year
tuuid
0
9 years
Ce cookie est défini par .bidswitch.net. Les cookies stockent un identifiant unique dans le but de déterminer les publicités que les utilisateurs ont vues si vous avez visité l'un des sites Web des annonceurs. Les informations sont utilisées pour déterminer quand et à quelle fréquence les utilisateurs verront une certaine bannière.
u
0
2 months
UserMatchHistory
0
1 month
usprivacy
0
1 year
ut
0
9 years
v1st
0
1 year
viewer_token
0
1 month
wfivefivec
0
1 year
_fbp
0
2 months
Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web.
Les champs signalés avec une étoile (*) sont obligatoires