En 1950, l’informatique en est à ses débuts quand Alan Turing propose un test pour mesurer l’intelligence des machines. En 2022, l’intelligence artificielle (IA) est devenue un outil dans de nombreux domaines. Mais est-elle parvenue au niveau de l’intelligence humaine au point, par exemple, de composer seule des morceaux de musique ? Balises a rencontré Alice Cohen-Hadria, maîtresse de conférences à la Faculté des sciences de Sorbonne Université et chercheuse dans l’équipe Analyse et synthèse des sons à l’Ircam, l’Institut de recherche et coordination acoustique/musique au centre Pompidou, invitée à la rencontre « Fictions-Science : Alan Turing » en juin 2022.
Sur quel projet en lien avec l’intelligence artificielle travaillez-vous à l’Ircam ?
Je travaille sur l’analyse musicale pour obtenir des descriptions musicales automatiques. Ces descriptions peuvent par exemple permettre de reconnaître les instruments sur n’importe quel morceau enregistré au format MP3, d’identifier la voix chantée, de séparer l’accompagnement de la voix ou de générer une piste par instrument. C’est ce qu’on appelle la séparation de sources. Je réalise également de l’estimation de structure musicale : j’implémente des algorithmes qui détectent automatiquement les couplets et les refrains. L’analyse des sources musicales nécessite de nombreuses descriptions. L’enjeu consiste à s’affranchir des humains en créant un programme informatique qui indique quels instruments sont joués et à quel endroit, pour chacun des fichiers qu’on lui soumet.
Le recours à l’intelligence artificielle permet l’analyse de grandes bases de données audio, ce qui intéresse beaucoup les musicologues. Par exemple, une musicologue de notre équipe travaille sur la chanson française des années cinquante et soixante. Elle étudie les modes de production vocale de différents chanteurs et chanteuses, c’est-à-dire leur manière de chanter, les intonations, leur timbre de voix… Un autre travail est en cours sur le flow dans le rap, sur la manière dont les rappeurs ou rappeuses parlent et disent les mots, sur les accents qu’ils mettent et leur place… La séparation des sources, et notamment de la voix, s’avère dans ces cas très utile. À terme, on pourrait aussi imaginer un parcours musical intelligent qui propose des playlists à partir d’un instrument souhaité. Imaginons qu’aujourd’hui, j’aie envie d’écouter du saxophone : l’IA me proposerait des morceaux qui comportent des plages de cet instrument.
L’intelligence artificielle employée répond-t-elle à l’idée d’intelligence des machines que se faisait Alan Turing ?
Alan Turing (1912-1954) est un des pionniers de l’informatique. Il a posé les bases de l’informatique et, avec le test de Turing, imaginé une expérience de pensée appliquée à la machine. Il cherchait à déterminer si la machine pouvait être intelligente « comme les humains » et à mesurer cette intelligence. Son propos était de montrer qu’il était très difficile de la mesurer.
Aujourd’hui, quand nous parlons d’IA, le mot « intelligence » est employé pour parler de manière imagée des méthodes mises en place, plutôt que pour évoquer quelque chose de réellement intelligent. Nous ne savons pas mesurer l’intelligence d’une machine, pas plus que celle des humains, car nous ne savons pas définir l’intelligence.
L’hypothèse de Turing est celle-ci : je ne peux peut-être pas définir l’intelligence, mais peut-être suis-je capable, quand je suis face à une entité humaine et à une entité informatique, de faire la différence entre les deux ? Et si l’ordinateur arrive à suffisamment bien imiter les humains, je pourrais conclure que la machine a les capacités d’un humain. Le test de Turing en anglais s’appelle d’ailleurs Imitation Game. Évidemment, ce raisonnement n’est pas parfait. C’est une expérience de pensée effectuée à une période donnée. Que déduire, par exemple, quand une intelligence artificielle réussit le test de Turing en se présentant comme un jeune enfant dont l’anglais n’était pas la langue maternelle et dont il faut excuser les fautes d’orthographe et les structures un peu bancales ?
De plus, l’IA est un champ de l’informatique très large. En ce moment, une méthode y est majoritairement employée : le machine learning ou apprentissage automatique. On remarque qu’on a remplacé le terme « intelligence » par celui d’« apprentissage ». Les programmes de génération de texte dont les algorithmes ont, aujourd’hui, les meilleures performances, passent le test de Turing mille fois. Ce test n’est pas obsolète, mais il est moins d’actualité. On essaie toujours de fabriquer des machines qui sont aussi intelligentes que des humains, mais on sait qu’il ne s’agit pas de la même intelligence que les humains. Les algorithmes sont extrêmement performants, mais pour faire ce qu’on leur demande : générer du texte, reconnaître des images, générer des visages ou de la musique…
L’apprentissage ne rend-il pas les systèmes intelligents ?
Quand on parle de mécanismes d’apprentissage, encore une fois c’est une manière de vulgariser. La machine se corrige. Elle modifie différents paramètres en fonction de l’erreur qu’elle a faite. Ces mécanismes d’apprentissage sont subordonnés à une tâche donnée. Prenons l’exemple d’un algorithme qui différencie les chats et les chiens. Quand un humain fait la différence, il est capable de dessiner un chat, de reconnaître de loin un chat ou un chien, ou de dire si c’est autre chose. Le réseau de neurones permet juste à la machine de dire que c’est un chat ou que c’est un chien mais, si on lui montre un panda, elle dira peut-être que c’est un chien. Elle sera incapable de dire que c’est un autre animal. Comprendre ce qu’est un chat ou un chien est une question de concept : cela demande une base solide de compréhension du monde, qui n’existe pas dans les paradigmes des IA d’aujourd’hui. Le champ de paramètres est si large que le programmateur lui-même ne peut pas tous les appréhender.
La machine peut-elle gérer un ensemble de tâches ?
C’est compliqué. Des chercheurs travaillent à faire quelque chose de plus large mais les IA qui fonctionnent aujourd’hui sont définies pour une tâche. Voyez pendant combien de temps les petits humains apprennent pour maîtriser les compétences de base. Énormément de concepts sont nécessaires à la compréhension du monde.
Le réseau de neurones artificiels représente une grande part de l’intelligence artificielle aujourd’hui mais ce n’est pas de l’intelligence et c’est difficilement comparable au réseau de neurones humain. Les concepteurs se sont inspirés d’une modélisation des années cinquante pour concevoir un réseau de neurones extrêmement simplifié, transposable en mathématiques : un neurone reçoit des impulsions électriques d’intensités variables, envoyées par les autres neurones auxquels il est relié. Quand les impulsions électriques reçues par ce neurone dépassent une somme déterminée, il s’active et envoie lui-même une impulsion électrique. Dans les réseaux de neurones humains, il se passe en fait des millions d’autres événements. Pour l’apprentissage, on joue sur ces intensités. On pondère les informations en fonction de l’objectif planifié. C’est pour cela qu’on parle d’apprentissage supervisé : on sait ce qu’on va prédire. L’apprentissage repose sur une grande base de données qui sont autant d’exemples différents avec l’indication de ce qu’on cherche à prédire. Par exemple, des photos de chats et de chiens et pour chaque photo l’indication « ça, c’est un chat » ou « ça, c’est un chien » pour pouvoir comparer. Pour l’apprentissage des réseaux de neurones, il faut un objectif et cette base de données annotée. Or, ce sont encore les humains qui annotent.
Donc plus la base de données est grande, plus la machine est intelligente ?
Oui, si on définit l’intelligence comme une métrique de performance pour une tâche. Plus on a de données, meilleur sera notre algorithme, en théorie. Tout un champ de recherche s’intéresse aussi à ce qu’il est possible de faire avec peu de données. Dans la musique par exemple, un problème de données se pose pour des questions de droits, mais aussi parce que ce sont des données longues, temporellement. Une piste qui dure trois minutes demande quinze minutes de travail à un humain pour reconnaître les instruments et indiquer où joue le piano ou la batterie.
Le processus d’annotation de la musique, pour alimenter la base de données, est lourd et extrêmement compliqué. La détection des instruments est réalisable par des humains qui ne sont pas spécialisés, mais des descriptions au niveau des notes qui se font à l’oreille, par exemple, nécessitent des humains extrêmement spécialisés et cela prend beaucoup de temps. On travaille donc avec peu de données. Cela fonctionne moins bien mais c’est plus rapide à utiliser que des modèles fonctionnant avec des bases de données fournies, qui prennent du temps à entraîner. Il y a bien une relation directe entre la quantité de données et la performance du modèle.
La séparation automatique des sources pose le même problème de données. L’objectif étant d’obtenir une piste par instruments à partir d’un audio de plusieurs instruments, pour entraîner le modèle il faut disposer d’une base composée à la fois du mix et des instruments séparés de chacun des morceaux. Il faudrait récupérer les pistes de studios qui n’existent plus, avant mixage. Notre base de données de référence se résume à cent cinquante morceaux. Mais, à l’Ircam, nous disposons de matériel de transformations musicales en haute définition. Il est possible d’accélérer le tempo, le réduire, monter la hauteur du son ou changer le timbre. Nous avons modifié les morceaux de référence avec ces transformations pour faire de l’augmentation de données. Nous avons fabriqué des données. D’une centaine de morceaux, on arrive à cent mille.
Peu de données pose donc problème, mais l’excédent de données en génère d’autres. Quand on a dix millions d’images par exemple, la base devient invérifiable. Se posent des problèmes de nudité, de droit à l’image, d’arrière-plans… Aucun humain ne peut les analyser toutes. Il faut utiliser des gens pour annoter. On retrouve donc cette notion d’intelligence : si ce sont des gens qui annotent des données et que la machine essaie de reproduire leur travail, elle n’est pas intelligente.
Le test de Turing reposait sur des échanges de messages écrits. Est-ce que la parole, l’oral ou le son sont plus difficiles à traiter pour la machine ?
Maintenant, non. Des algorithmes appelés text-to-speech transforment le texte en parole et sont très réalistes. D’autres machines arrivent à générer du texte, qu’il suffit de transformer en voix. Pour la voix parlée, les résultats sont assez proches de la parole humaine même si ajouter des émotions dans une voix reste compliqué. Par contre, la voix chantée pose encore problème. Il y a beaucoup plus de paramètres à mettre en œuvre : le style, le genre, le rythme, le vibrato, le grain de voix… Il est, par exemple, très compliqué de reproduire le chant très rauque et guttural des chanteurs de métal. Une chose est sûre, c’est que les données audio musicales sont des données très complexes. Elles comportent de nombreux étages d’information et plusieurs niveaux de lecture. Le premier niveau est physique : le son est une vibration et on entend une note. Il y a aussi un niveau sémantique avec le sens des paroles, et la structure temporelle avec le rythme, le battement puis les mesures et l’ensemble de mesures qui forment un couplet ou un refrain.
À l’écoute, est-on capable de faire la distinction entre le résultat de la machine et une voix humaine ?
Souvent, on ne fait pas la différence. Mais il peut rester des artefacts, des petits bruits, des petites choses qu’on entend à l’oreille et qui sont un peu gênantes. On aimerait utiliser ce qui sort de la machine tel que mais, dans les faits, il a souvent une petite intervention humaine, au moins pour que ce soit plus agréable à l’oreille.
Sur les textes aussi il peut y avoir aussi des artefacts, mais les derniers modèles sont extrêmement performants, notamment le GPT-3. C’est un très gros modèle qui génère du texte mais il lui arrive, quand on lui demande du français, de traduire en anglais. Pour générer un début de roman ou un début de poème, il faut lui demander plusieurs fois et sélectionner un résultat. Dans l’audio aussi, ce sont les compositeurs qui choisissent une production en fonction de leur sensibilité ou de leur envie. Il est rare que la machine soit l’unique autrice.
Pour aller plus loin
Philippe Esling, chercheur à l’IRCAM explique le rôle et les capacités nouvelles des machines dans les créations musicales contemporaines.
GPT-3 est une intelligence artificielle de génération de langage très performante et sans doute le modèle le plus avancé à ce jour.
« ManiFeste-2022, c’est la stimulation de l’imaginaire par l’intelligence artificielle et de l’orchestre par l’électronique (Orchestre de Paris, Philharmonique de Radio France, Orchestre national d’Île-de-France pour le Prix Élan) avec Misato Mochizuki, Jesper Nordin ou Marco Stroppa ; ManiFeste, c’est aussi la révolution d’Anton Webern en musique et la révolution d’Alan Turing en science. La trajectoire fulgurante et dramatique de ce visionnaire de l’informatique, défricheur du code et du vivant, inspire un cycle inédit de rencontres, les Fictions-Science, circulant de la puissance de la science et de l’art au pouvoir des technologies et des industries culturelles, du minoritaire au majoritaire, et retour. »
Frank Madlener, directeur de l’Ircam
Dans ce numéro de L’Étincelle qui accompagne le festival ManiFeste 2022, plusieurs articles mettent en lien l’intelligence artificielle et la créativité.
Les champs signalés avec une étoile (*) sont obligatoires