Musique et données
De la recherche aux usages

Musique, intelligence artificielle et données

Est-ce encore de l’art ?

Par Jean-Claude Heudin
Publié le 15 juin 2023
A A A
Télécharger en PDF

Jean-Claude Heudin est scientifique, compositeur et écrivain. Il est titulaire d’une habilitation à diriger des recherches de l’université Paris-Sud. Il est l’auteur de nombreux articles scientifiques, ainsi que de plusieurs ouvrages dans les domaines de l’intelligence artificielle et des systèmes complexes, notamment aux éditions Odile Jacob et Science eBook dont il est le fondateur. Sa recherche actuelle se focalise sur l’IA émotionnelle et la musique électronique avec le projet Angelia.



Résumé

Avec les avancées récentes de l’intelligence artificielle resurgissent les questionnements sur ses applications dans le domaine artistique. La polémique fait rage depuis qu’une IA permet de créer des images à partir d’une phrase. La musique n’échappe pas à ce débat, de nombreux musiciens considérant qu’il s’agit d’une négation de leur raison d’être qui provoquera à terme leur disparition.
Dans cet article, nous apportons notre éclairage en tant que chercheur en IA et compositeur sur les perspectives et les limites de l’IA pour la musique. Nous argumentons pour une approche où l’IA n’est pas utilisée pour générer de manière autonome, mais comme une augmentation des capacités créatives de l’artiste pendant la composition et l’interprétation.


Introduction

Avec les avancées récentes de l’intelligence artificielle (IA) et plus particulièrement des réseaux de neurones à apprentissage profond (deep learning) resurgissent les questionnements sur ses applications dans le domaine artistique. La polémique fait rage depuis qu’une IA a permis de créer des illustrations à partir d’une simple phrase1Gault M., « An AI-generated artwork won first place at a state fair fine arts competition, and artists are pissed », Vice, 2022, en ligne : www.vice.com/en/article/bvmvqm/an-ai-generated-artwork-won-first-place-at-a-state-fair-fine-arts-competition-and-artists-are-pissed.. Même si un outil aussi puissant s’appliquant à la musique n’existe pas encore, il est certain que, dans un avenir proche, il sera possible de générer un morceau en quelques secondes à partir d’une simple phrase. Avec ChatGPT, on peut d’ores et déjà écrire une mélodie ou une progression d’accords en dialoguant avec l’IA2Gonsalves R. A., « Using ChatGPT as a creative writing partner, part2 : music », Towards Data Science, 2023, en ligne : towardsdatascience.com/using-chatgpt-as-a-creative-writing-partner-part-2-music-d2fd7501c268.. De même, un nombre croissant d’outils génératifs comme MusicLM font leur apparition3Agostinelli A. et al., « MusicLM : generating music from text », Google Research, 2023, en ligne : google-research.github.io/seanet/musiclm/examples..

L’utilisation d’algorithmes4Un algorithme est la représentation formelle d’une suite d’instructions qui permet de résoudre une classe de problèmes. Le mot « algorithme » provient du nom de Al-Khwârizmî, un mathématicien persan du IXe siècle. et de données n’est cependant pas nouvelle pour la création musicale. Il s’agit d’une longue histoire et l’IA n’en est que la continuité logique. Malgré cela, comme à chaque transition technologique notable, l’évolution des pratiques est susceptible d’être perçue comme un danger pour certains et une opportunité à saisir pour d’autres.

En tant que chercheur en IA et compositeur, j’aimerais apporter un éclairage sur les perspectives et les limites de l’IA pour la musique : une IA peut-elle créer de façon autonome ? À partir de quelles données crée-t-elle ?

Enfin, j’aborderai des problématiques récurrentes, en particulier le statut des créations par l’IA et la menace potentielle qu’elle représente pour le travail des compositeurs et des musiciens.

Histoire des relations entre musique, algorithmes et données

L’IA est une jeune discipline scientifique née à la fin des années 1950 qui vise à reproduire sur une machine l’intelligence humaine. Les explorations musicales autour de l’IA relèvent d’un intérêt réciproque que se portent historiquement musiciens et scientifiques : la musique intéresse les scientifiques par ses qualités formelles et, vice versa, les musiciens trouvent dans les sciences de nombreuses sources d’inspiration. Ainsi, pour comprendre les liens entre musique et IA, il faut remonter à l’Antiquité et aux premières relations tissées entre musique et nombres.

L’idée d’utiliser des nombres pour créer de la musique est en effet évoquée par les Grecs, en particulier par Pythagore5Beaubois F., « Pythagore et l’art de faire entendre les nombres », fiche thématique de l’éduthèque de la Philharmonie de Paris, en ligne : edutheque.philharmoniedeparis.fr/Pythagore-entendre-les-nombres.aspx.. Pour le philosophe présocratique, la musique était inséparable des nombres : il établissait une relation directe entre les lois de la nature et l’harmonie du cosmos. Pythagore a mis en évidence la relation entre la longueur d’une corde vibrante et la hauteur du son émis, soit le rapport mathématique entre les notes. Il aurait aussi suggéré que les distances entre les orbites du soleil, de la lune et des étoiles fixes correspondent aux proportions réglant les intervalles de l’octave, de la quinte et de la quarte. Cette idée a été reprise par Platon dans le mythe poétique de la « musique des sphères6Grout D. J. et Palisca C., A History of Western Music, 5e éd., New York, Norton and Company, 1996. ». Les pythagoriciens affirmaient que la musique était une combinaison harmonieuse des contraires, une unification des multiples et un accord des opposés, proposant ainsi les premières lois harmoniques. Si ce système formel d’intervalles et de modes a certainement exercé une influence sur des musiciens de l’époque, la musique grecque était essentiellement improvisée7Ibid..

Un niveau d’abstraction supplémentaire est atteint avec la naissance de la composition « canonique » à la fin du XVe siècle. Le terme canon, qui signifie règle ou loi, consistait à définir une seule mélodie de voix et donner des instructions aux chanteurs pour créer les voix supplémentaires. Par exemple, ils pouvaient chanter en décalant la mélodie initiale d’un certain nombre de battements, ou bien appliquer une inversion ou un mouvement rétrograde.

Toutefois, c’est le siècle des Lumières qui a vu s’épanouir les relations entre les sciences et la musique. L’une des plus connues est incarnée par Johann Sebastian Bach qui utilisait des méthodes mathématiques et géométriques pour composer les contrepoints de certaines œuvres8Papadopoulos A., « Mathématiques et musique chez J.-S. Bach », L’Ouvert, no 100-101, 2000, p. 90-101.. Quelques dizaines d’années plus tard, vers 1787, Wolfgang Amadeus Mozart s’intéressa à la génération stochastique par recombinaison de fragments tirés au sort avec des dés. Dans ses « Musikalisches Wurfelspiel » (jeux de dés musicaux), en vogue à cette époque, les fragments étaient constitués de quelques mesures créées par le compositeur, formant ainsi un corpus de données répertoriées dans des tables d’indexation9Zbikowski L., Conceptualizing Music. Cognitive Structure, Theory, and Analysis, Oxford, Oxford University Press, 2002, p. 142-143..

Du côté des scientifiques, Jacques de Vaucanson créa en 1738 deux automates musiciens capables de jouer de leur instrument10Vaucanson J., Le mécanisme du flûteur automate, Paris, Archives contemporaines, 1985 [1738].. Si les automates de Vaucanson ont malheureusement disparu, ceux réalisés par Pierre Jaquet-Droz et Jean-Frédéric Leschot en Suisse (c. 1774) sont exposés au musée de Neuchâtel. La musicienne représente probablement le plus bel exemple. L’automate joue de l’orgue, grâce à son cylindre à picots permettant de « programmer » les mouvements des cames qui actionnent les bras et les doigts de l’automate, préfigurant ainsi la programmation des ordinateurs et des robots. Citons également la « Joueuse de tympanon » (1784) de Peter Kintzing, conservée au musée des Arts et Métiers à Paris.

Le XIXe siècle fut celui des grandes découvertes, avec entre autres la construction des imposants calculateurs mécaniques qui précédaient les ordinateurs. Ada Lovelace, qui assistait Charles Babbage dans la conception de sa « machine analytique », fut la première à programmer un algorithme sur cette machine, suggérant la composition musicale comme une application potentielle11Dufour C., Ada ou la beauté des nombres. La pionnière de l’informatique, Paris, Fayard, 2019. : « La machine pourrait composer de manière scientifique et élaborer des morceaux de musique de n’importe quelle longueur ou degré de complexité. »

Les premiers ordinateurs électroniques sont apparus dans les années 1950 et avec eux l’IA, mais aussi les premières expérimentations musicales algorithmiques. Bien que l’on puisse lier l’histoire de l’IA à celle du calcul beaucoup plus ancien, le projet de l’IA proprement dit est ébauché par Alan Turing dans son article de 195012Turing A. M., « Computing machinery and intelligence », Mind, vol. 59, no 36, 1950, p. 433-460. qui s’ouvre sur la question : « Une machine peut-elle penser ? » Le terme d’intelligence artificielle est utilisé pour la première fois en 1956 lors d’une conférence au Dartmouth College (États-Unis) organisée par de jeunes chercheurs dont Marvin Minsky, John McCarthy et Claude Shannon, père de la théorie de l’information. L’IA y est alors définie comme « la science qui consiste à élaborer des machines capables de faire des choses qui nécessiteraient de l’intelligence si elles étaient faites par des hommes ». Lors de cet événement, Allen Newell, Herbert Simon et Cliff Shaw présentèrent le premier programme d’IA : un démonstrateur de théorème baptisé Logic Theorist13McCorduck P., Machines Who Think. A Personal Inquiry into the History and Prospects of Artificial Intelligence, 2de éd., Natick, A. K. Peters, 2004.. Son principe était de représenter le problème à résoudre sous la forme d’une structure arborescente de données, puis de parcourir cet « arbre » à la recherche de la meilleure solution en utilisant des heuristiques, c’est-à-dire des connaissances a priori sur le domaine concerné, afin de réduire le nombre de ramifications à explorer.

Le premier morceau de musique généré par ordinateur date de la même époque. Il fut créé par Lejaren Hiller et Leonard Isaacson à l’université de l’Illinois en 1955 sur l’Illiac (Illinois Automatic Computer). La pièce se composait de quatre mouvements. Le premier créait la mélodie (cantus firmus), le second générait des segments à quatre voix en utilisant des règles stochastiques. Le troisième abordait le rythme et la dynamique, enfin le quatrième expérimentait des grammaires génératives probabilistes14Sandred O., Laurson M. et Kuuskankare M., « Revisiting the Illiac Suite. A rule based approach to stochastic processes », ResearchGate, 2009, en ligne : www.researchgate.net/publication/260791942_Revisiting_the_Illiac_Suite_-_A_rule-based_approach_to_stochastic_processes..

À la même époque, Iannis Xenakis créait des « compositions stochastiques » en formalisant une approche dans laquelle le processus global d’une œuvre est défini par des calculs de probabilités et des règles explicites15Xenakis I., Formalized Music. Thought and Mathematics in Composition, 2de éd., Sheffield, Pendragon Press, 1992.. Il fut un pionnier dans l’utilisation des ordinateurs en programmant des pièces de musique électronique stochastiques, en particulier au sein du groupe de recherches musicales (GRM) créé par Pierre Schaeffer. Deux décennies plus tard, la première « International Computer Music Conference » organisée par l’université d’État du Michigan en 1974 atteste de la vigueur de la recherche académique en matière d’algorithmes et de musique.

En 1980, David Cope de l’université de Californie à Santa Cruz développait EMI (experiments in musical intelligence), un programme IA en langage LISP capable de composer des morceaux dans les styles de Bach, Mozart, Brahms et bien d’autres16Cope D., Virtual Music, Cambridge, MIT Press, 2001.. EMI comprenait une importante base de données de descriptions de styles, de règles de recombinaisons, et différentes stratégies de composition. Encore aujourd’hui, même en comparaison avec les résultats obtenus par l’apprentissage profond, les créations musicales de David Cope restent impressionnantes par leur capacité d’imitation d’un style précis. En 1986, Laurie Spiegel se faisait connaître pour son utilisation de l’algorithmique dans le processus de composition, en particulier avec le logiciel Music Mouse disponible sur micro ordinateurs17Spiegel L., « Music Mouse : an intelligent instrument », Academia.edu, en ligne : www.academia.edu/664808/Music_Mouse_An_Intelligent_Instrument..

En France, l’Institut de recherche et de coordination acoustique-musique (Ircam) a ouvert ses portes en 1977. Dans les années 1980, ses recherches ont débouché, entre autres, sur le logiciel Max/MSP permettant de créer des algorithmes musicaux sous la forme de structures graphiques18Voir la page Wikipédia du logiciel MAX : fr.wikipedia.org/wiki/Max/MSP.. Toutefois, c’est la diffusion des DAW (digital audio workstations) qui va modifier profondément la manière dont la musique est produite. Autrefois réservés aux studios, les outils de production numériques se sont peu à peu démocratisés grâce aux ordinateurs personnels et à une offre grandissante de logiciels musicaux, d’instruments virtuels basés sur des données d’échantillons (samples), et l’avènement du standard Midi19Voir le site de l’association MIDI : www.midi.org. (musical instrument digital interface). On peut considérer depuis que les algorithmes et les données sont devenus une part importante et continuellement croissante de la production musicale.

Réseaux de neurones et musique

Les récents progrès en IA ont permis des avancées spectaculaires dans de nombreux domaines. Moins médiatisées quand il s’agit de la musique, les applications de l’IA n’en sont pas moins importantes pour la reconnaissance automatique, la recommandation et la création. Néanmoins, avant d’aborder plus en détail ces dernières, revenons sur la portée de ces avancées, plus particulièrement avec le domaine de l’apprentissage profond (deep learning20Heudin J.-C., Comprendre le Deep Learning, Une introduction aux réseaux de neurones, Paris, Science-eBook, 2016.). En effet, bien qu’il existe d’autres paradigmes d’apprentissage machine, comme nous le verrons un peu plus loin avec les algorithmes évolutionnaires, l’apprentissage profond focalise souvent le centre de l’attention.

L’histoire des réseaux de neurones artificiels débute une douzaine d’années avant celle de l’IA. En effet, dans le contexte de la cybernétique, Warren McCulloch et Walter Pitts publièrent en 1943 le premier modèle formel inspiré par les neurones qui composent le cerveau humain21McCulloch W. et Pitts W., « A logical calculus of the ideas immanent in nervous activity », Bulletin of Mathematical Biophysics, vol. 5, 1943, p. 115-133.. Le premier réseau de neurones artificiels proprement dit fut créé par Frank Rosenblatt à la fin des années 195022Rosenblatt F., « The Perceptron. A probabilistic model for information storage and organization in the brain », Psychological Review, vol. 65, no 6, 1958, p. 386-408..

Malgré ces réussites, la communauté scientifique a rapidement déchanté. En effet, si les réseaux neuromimétiques s’étaient révélés potentiellement aussi puissants qu’un ordinateur classique, aucun algorithme suffisamment efficace n’avait pu être trouvé pour leur apprendre à reconnaître certaines formes23Minsky M. et Papert S., Perceptrons. An Introduction to Computational Geometry, Cambridge, The MIT Press, 1969.. Il fallut attendre le milieu des années 1980 pour lever cette difficulté, du moins théoriquement, car, en pratique, les résultats restaient décevants24Rumelhart D., Hinton G. E. et Williams R., « Learning representations by backpropagating errors », Nature, vol. 323, 1986, p. 533-536..

Ce n’est qu’au début des années 2010 que l’on réussit finalement à entraîner des réseaux dotés d’un nombre arbitraire de couches de neurones pour des applications convaincantes25Lecun Y., Bengio Y. et Hinton G. E., « Deep Learning », Nature, vol. 521, 2015, p. 436-444.. Pour une large part, ces progrès sont les conséquences d’un accès facilité à de grands volumes de données et de l’accroissement des performances lors des phases d’entraînements via l’utilisation astucieuse de cartes accélératrices GPU (graphical processing unit). Dès lors, les recherches et les expérimentations se sont multipliées et ont débouché sur des avancées significatives. Le point d’orgue fut atteint en 2016, lorsque l’un des meilleurs joueurs de go au monde a été battu par AlphaGo, un réseau de neurones profond développé par DeepMind, une filiale de Google26Silver D. et al., « Mastering the game of Go with deep neural networks and tree search », Nature, vol. 529, 2016, p. 484-489.. Cette victoire a marqué une hausse sans précédent des investissements dans les recherches en IA. Il n’est donc pas surprenant que l’apprentissage profond permette aujourd’hui de franchir un cap dans les ambitions des applications pour la musique.

Parmi les précurseurs, citons François Pachet qui, au sein du Computer Science Laboratory de Sony à Paris, a constitué une équipe dédiée autour du projet Flow Machines27Voir le site de Flow Machines : www.flow-machines.com ; Sakellariou J. et al., « Maximum entropy models capture melodic styles », Nature Scientific Reports, vol. 7, no 1, 2017, p. 1-9.. En 2016, celle-ci créait l’événement avec « Daddy’s Car », un morceau composé dans le style des Beatles avec Flow Machines entraîné sur la base de 56 partitions, puis arrangé et interprété par Benoît Carré28Sony CSL, « DeepBach. Harmonization in the style of Bach generated using deep learning », YouTube, 13 décembre 2016, en ligne : www.youtube.com/watch?v=QiBM7-5hA6o.. François Pachet a depuis rejoint Spotify pour diriger son laboratoire de recherche en IA.

Les grandes entreprises du numérique investissent ainsi dans la musique, comme Google avec le projet Magenta basé sur la plateforme Tensorflow, proposant plusieurs outils intégrables dans les logiciels de production. Un nombre croissant de start-up met en ligne des services de création musicale, comme AIVA (artificial intelligence virtual artist) accessible par abonnement. Enfin, des outils d’aide à la production reposant sur l’IA font progressivement leur apparition dans les logiciels de production. Citons Izotope qui développe des assistants intelligents pour le mixage et le mastering, ou bien encore Orb avec des outils de génération de mélodies, d’arpèges et de lignes de basse29Voir les sites des outils mentionnés : Magenta, magenta.tensorflow.org ; AIVA, www.aiva.ai ; Izotope, www.izotope.com ; Orb, www.orbplugins.com..

De leur côté, les artistes ont commencé à utiliser l’IA de manière créative dès la fin des années 2010, comme Skygge, Holly Herndon, Actress, Uele Lamore, Whim Therapy, Ocean Orientalis, Yacht, sans oublier mes propres expérimentations avec Angelia30Pour écouter les expérimentations Angelia : angelia.bandcamp.com.. Ces expérimentations musicales sont cruciales, car, au-delà des technologies employées, elles constituent le véritable enjeu des recherches. Alors que les outils technologiques sont généralement éphémères, les musiques créées témoignent de cette période d’évolution dans les modes de création et de production.

L’incroyable efficacité des données

Bien souvent, ce sont les algorithmes qui focalisent l’attention des médias. Ils fascinent et inquiètent, surtout s’ils sont inspirés par une métaphore biologique comme les réseaux de neurones. Toutefois, leur réussite en matière d’applications est principalement due à l’utilisation de grands volumes de données plutôt qu’à une hypersophistication architecturale, même si celle-ci peut exister par ailleurs.

Auparavant, pour prédire le comportement d’un phénomène, il fallait obligatoirement un modèle capable de simuler et d’expliquer son comportement. Cette approche, qui a permis de nombreux progrès, est toujours valide, mais elle trouve ses limites lorsque le système étudié échappe à notre compréhension du fait de sa complexité et/ou de notre méconnaissance. Dans ce cas, il n’est pas possible d’élaborer un modèle fiable, ce qui diminue considérablement la faisabilité des applications.

La force de l’apprentissage profond est de contourner cette difficulté par l’utilisation des données. En effet, si l’on possède suffisamment de données sur le phénomène, il n’est plus forcément nécessaire d’élaborer un modèle classique : il suffit d’entraîner un réseau de neurones avec ces mêmes données. Si le phénomène n’est toujours pas réellement appréhendé, on a cependant à disposition une « boîte noire » qui se comporte comme lui. Les spécialistes des réseaux neuromimétiques appellent cela un modèle, mais celui-ci est essentiellement statistique et repose sur les données collectées.

Cette approche est largement utilisée en linguistique avec des applications de traduction automatique, reconnaissance vocale, génération de textes ou de dialogues, etc. Ainsi, il suffit de se rappeler les problèmes de fiabilité des anciens systèmes de dialogue et de les comparer aujourd’hui aux systèmes s’appuyant sur l’apprentissage profond, comme ChatGPT31Voir le site d’OpenAI et sa présentation de ChatGPT : openai.com/blog/chatgpt..

Le principe général consiste en un modèle de données de probabilités de courtes séquences de mots consécutifs (n-grammes), construit en comptant le nombre d’occurrences de chaque séquence dans un corpus gigantesque de textes. La même stratégie est employée en musique, avec des partitions au lieu de textes. Ce type de modèle se révèle assez juste pour estimer les probabilités de nouveaux n-grammes en partant d’une suite donnée a priori. Les expérimentations montrent invariablement que les algorithmes simples avec beaucoup de données sont plus efficaces que des algorithmes plus élaborés utilisant beaucoup moins de données32Halevy A., Norvig P. et Pereira F., « The unreasonable effectiveness of data », IEEE Intelligent Systems, vol. 24, no 2, 2009, p. 8-12..

Un exemple représentatif en musique est Performance RNN, un réseau neuronal récurrent conçu dans le cadre du projet Magenta pour générer de la musique polyphonique avec une synchronisation et une dynamique expressives33Simon I. et Oore S., « Performance RNN. Generating music with expressive timing and dynamics », Magenta Blog, 29 juin 2017, en ligne : magenta.tensorflow.org/performance-rnn.. Le modèle a été entraîné sur l’ensemble des données de la compétition e-Piano organisée par Yamaha. Celle-ci comprend la capture des événements Midi d’environ 1 400 performances par des pianistes qualifiés et non simplement une conversion de partitions en Midi. Lorsque l’on écoute les séquences produites, on est impressionné par le résultat, du moins pendant quelques secondes.

Chopin ne faisait pas de statistiques

En effet, passé les premières mesures, la musique générée par ces modèles statistiques semble vide de sens, sans réelle intention artistique. En un mot, elle est dénuée de vie. Son étrangeté dérangeante évoque la « vallée de l’étrange », ce concept issu de la recherche en robotique qui a montré le malaise que l’on peut ressentir à la vue de certains robots humanoïdes, tout comme celle de morts-vivants34Mori M., « The Uncanny Valley », IEEE Robotics and Automation Magazine, vol. 19, no 2, 2012, p. 98-100..

Quel est donc le problème ? Pourquoi, malgré leur puissance démontrée sur un jeu aussi compliqué et combinatoire que le go, les réseaux de neurones peinent-ils à créer de la musique de façon convaincante ?

La recherche fait des progrès spectaculaires, en particulier au niveau de la création graphique, mais la grande différence avec la musique tient en un mot : le temps. Une image est instantanée, alors qu’un morceau de musique évolue sur une durée précise, avec une structure cohérente, un début, une progression et une fin. La difficulté réside dans la structure hiérarchique et enchevêtrée des œuvres musicales. Les différents niveaux, notes, mesures, sections, pour ne citer que les plus évidents, tissent des relations localement et globalement. Si les réseaux de neurones actuels arrivent à gérer les liens de « tension-résolution » au niveau de quelques mesures, la gestion des corrélations longues reste encore problématique. Ces problèmes sont au cœur des recherches actuelles35Briot J.-P., Hadjeres G. et Pachet F.-D., Deep Learning Techniques for Music Generation, Cham, Springer, 2019..


Figure 1. Exemple d’une chaîne de Markov musicale. En comptant les notes d’une partition, on peut construire un graphe où les transitions sont pondérées par une probabilité calculée à partir du nombre d’occurrences du passage d’une note à une autre. En partant d’une note, on peut ainsi calculer la suivante en tirant au sort en fonction de ces données. Cette chaîne de Markov de premier degré peut être étendue en comptabilisant les séquences de deux notes consécutives (bigrammes), voire plus, ce qui permet de mieux prendre en compte le contexte local (source : J.-C. Heudin).

On peut se douter intuitivement qu’une approche statistique, c’est-à-dire basée sur des probabilités d’événements, ne puisse générer autre chose qu’une musique jugée « moyenne », dénuée de séquences improbables, mais suffisamment pertinentes pour susciter l’intérêt des auditeurs.

Enfin, il y a l’effet « boîte noire » des réseaux de neurones artificiels. Les modèles sont composés de plusieurs centaines de millions, voire de milliards de paramètres correspondant aux poids synaptiques des connexions entre neurones. Cette masse de données nous renseigne très peu sur ce que le réseau a appris et généralisé à partir des données d’entraînement.

Ces problèmes pourront être vraisemblablement résolus en adoptant des systèmes hiérarchiques travaillant à plusieurs niveaux et communiquant entre eux. De même, il est probable que des approches hybrides, par exemple neurosymboliques, ou utilisant plusieurs types d’algorithmes36Heudin J.-C., « Angelia : an emotional AI for electronic music », ResearchGate, février 2023, en ligne : researchgate.net/publication/368513976_ANGELIA_An_Emotional_AI_for_Electronic_Music., devraient permettre des avancées intéressantes. Les modes de collaboration entre les créateurs et ces nouveaux outils représentent également un enjeu de recherche prometteur.

À quand un « Midjourney » pour la musique ?

Le 29 août 2022, à l’occasion de la Colorado State Fair se déroulant aux États-Unis, une œuvre générée par une IA remportait pour la première fois un concours de beaux-arts dans la catégorie « art numérique »37Gault M., « An AI-generated artwork won first place at a state fair fine arts competition, and artists are pissed », art. cité.. Certains membres du jury n’étaient pas au courant que son auteur avait utilisé une IA capable de générer des images à partir d’une simple phrase.

Depuis cet événement, qui a suscité une vive polémique, plusieurs IA génératives à l’instar de Midjourney38Voir le site de l’application : midjourney.com. rivalisent d’innovations pour créer des illustrations originales et étonnantes à partir d’une description textuelle. Les résultats sont si impressionnants que beaucoup d’artistes illustrateurs y voient un réel risque de remise en cause de leur profession39Pérez Colomé J., « Les illustrateurs bientôt (dé)gommés par les intelligences artificielles ? », Courrier international, 4 septembre 2022, en ligne : https://www.courrierinternational.com/article/medias-les-illustrateurs-bientot-de-gommes-par-les-intelligences-artificielles..

Précurseur de Midjourney, DALL.E d’OpenAI utilise un modèle de 12 milliards de paramètres entraîné sur un ensemble de données texte-image40Voir la présentation de l’application DALL.E sur le site d’OpenAI : openai.com/dall-e-2.. Son nom est une double référence à Salvador Dali et au petit robot Wall-E tiré du film éponyme produit par Disney. La technologie repose sur GPT-3 (generative pre-trained transformer), la troisième version des Transformers, une architecture neuronale basée sur un mécanisme d’attention41Waswani A. et al., « Attention is all you need », Advances in Neural Information Processing Systems, no 31, 2017, p. 5998-6008.. DALL.E établit une relation entre les images trouvées sur le web et un texte utilisé pour les décrire. Il utilise ensuite un processus appelé « diffusion » qui dégrade volontairement des images en leur ajoutant du bruit. Le « diffuseur » apprend à inverser cette transformation en partant d’une image constituée de bruit. Puis, exploitant le texte entré par l’utilisateur, il applique plusieurs fois ce processus pour obtenir progressivement une image originale. Cette approche permet, non seulement de générer des images à partir d’une description, mais aussi d’y apporter des modifications réalistes et ciblées, et de créer des variations en s’inspirant de l’original. Selon OpenAI, 1,5 million d’utilisateurs créent désormais activement plus de 2 millions d’images par jour avec DALL.E.

Malgré les difficultés liées aux différences structurelles s’appliquant au cas de la musique, telles qu’on les a évoquées un peu plus haut, il est fort probable qu’un générateur musical avec une qualité comparable à Midjourney apparaisse à court terme. Plusieurs outils proposent déjà une démarche similaire, comme Melobytes ou Mubert42Voir les sites de ces outils : Melobytes, melobytes.com ; Mubert, mubert.com ; ainsi que les essais datant de 2022 sur la plateforme GitHub : github.com/MubertAI/Mubert-Text-to-Music.. Ce dernier propose une approche où le prompt est dans un premier temps converti en « tags » ou mots-clés ; puis ceux-ci sont encodés en un vecteur utilisé par un réseau de neurones basé sur la technologie Transformer. Le système produit des morceaux et des boucles sonores de quelques dizaines de secondes qui ne sont pas directement générées par le réseau de neurones, mais par la combinaison de boucles créées par des musiciens et stockées dans une base de données.

Une autre approche consiste à exploiter la puissance des modèles de diffusion avec une idée astucieuse : puisque cela marche très bien avec des images, il suffit de convertir la musique en image pour les utiliser. Pour cela, on entraîne une architecture similaire à DALL.E avec des images qui proviennent de la conversion d’échantillons sonores en spectrogrammes. Lorsque l’on propose une description, le système produit un nouveau spectrogramme, qui est ensuite converti en échantillon audio. Les premiers résultats sont encourageants avec la génération de courtes séquences et des boucles de qualité intéressante43Smith R., « Audio diffusion », Hugging Face, 2022, en ligne : huggingface.co/docs/diffusers/main/en/api/pipelines/audio_diffusion ; Forsgren S. et al., « Riffusion. Stable diffusion for real-time music generation », 2022, en ligne : riffusion.com/about..

D’autres chercheurs travaillent sur des modèles de « diffusion en cascade », comme Moûsai44Schneider F., Zhijing J. et Schölkopf B., « Moûsai. Text-to-music generation with long-context latent diffusion », ArXiv, 2023, en ligne : arxiv.org/abs/2301.11757., capable de générer des échantillons de plusieurs minutes. Dans le cadre du projet Magenta, un groupe de chercheurs a proposé un modèle de Transformer adapté à la musique et apte à gérer des corrélations longues grâce à un nouveau mécanisme d’attention relative45Huang C. A. et al., « Music Transformer », ArXiv, 2018, en ligne : arxiv.org/abs/1809.04281.. C’est ce travail, entre autres, qui a permis plus récemment, en collaboration avec l’Ircam, de publier les résultats de MusicLM et de MusicCaps, la base de données d’entraînement, comprenant 5 521 clips musicaux avec leur description textuelle46Agostinelli A. et al., « MusicLM : generating music from text », art. cité..

Citons enfin les diverses expérimentations qui visent à utiliser ChatGPT à des fins musicales47Gonsalves R. A., « Using ChatGPT as a creative writing partner, part2 : music », art. cité.. Même si le modèle de langage de ChatGPT ne peut créer directement de l’audio, il permet au travers d’un dialogue de proposer et d’améliorer des lignes mélodiques, des progressions d’accords, ou la structure d’une composition. Certains utilisent également ChatGPT pour générer des séquences Midi ou du code dans un langage informatique apte à générer de l’audio48Code R [pseudonyme], « Midi madness with ChatGPT. The AI-powered tunes that will make you laugh, cry and, dance », R bloggers, 10 décembre 2022, en ligne : r-bloggers.com/2022/12/midi-madness-with-chatgpt-the-ai-powered-tunes-that-will-make-you-laugh-cry-and-dance..

Comme on peut le constater, le domaine de la génération musicale avec l’assistance d’une IA est en pleine ébullition. Même si un générateur de musique capable de créer des œuvres complètes à partir de texte n’est pas encore disponible à l’heure actuelle, la question n’est plus
de savoir si cela est possible, mais bien quand cela va arriver.

Figure 2. Le principe général des systèmes génératifs par diffusion comporte trois grandes étapes. Un premier modèle encode la description textuelle en un vecteur dans un espace d’information sémantique. Un second modèle lui fait correspondre un autre vecteur encodant les informations audio. Enfin, un décodeur produit un échantillon audio spécifique par diffusion stochastique. L’ensemble du système nécessite un entraînement en plusieurs phases comprenant un très grand volume d’échantillons avec leur description (source : J.-C. Heudin).

Est-ce encore de l’art ?

Faisons l’hypothèse qu’un tel générateur de musique existe et soit accessible. Celui-ci a été entraîné sur des centaines de millions de partitions et de performances, auxquelles ont été adjoints des textes décrivant la musique, les émotions, le style, etc. Même sans connaissance musicale, avec un tel outil, chacun pourrait générer un morceau de musique, en l’espace de quelques secondes, en décrivant ce qu’il souhaite dans une zone de texte. On peut imaginer des exemples tels que : « un nocturne au piano dans le style de Chopin en si bémol mineur », ou « un trio de jazz dans le style de Miles Davis improvise sur un clair de lune », ou bien encore « un morceau de heavy metal avec le rythme syncopé comme dans “Highway To Hell” d’AC/DC ».

Les résultats obtenus avec un tel outil oscilleraient probablement autour de ce à quoi nous nous attendons, c’est-à-dire des morceaux imitant le style des compositeurs, quelques surprises auxquelles aucun humain n’est susceptible de penser, mais aussi une majorité de compositions médiocres ou sans intérêt. À l’instar des outils graphiques similaires, il s’agirait sans nul doute d’une avancée technologique majeure. Pour autant, pourrait-on qualifier ces productions d’art ? Pour tenter de répondre à cette question, arrêtons-nous brièvement sur la définition de l’art. Le mot « art » dérive du latin ars qui signifie « habileté, talent, métier, ou connaissance technique ». Au départ axé sur la maîtrise des processus liés à une activité, l’art est devenu plus tardivement la « création d’œuvres ». Les productions artistiques sont associées au plaisir esthétique, à ce que l’on s’accorde culturellement à trouver beau, mais également à ce qui peut déranger ou interpeller l’observateur, l’amener à réfléchir, par exemple en utilisant la transgression ou la rupture.

Toutes les œuvres d’art sont des énigmes49Adorno T., Théorie esthétique, Paris, Klincksieck, 1989, p. 159.. Elles nous parlent et, en même temps, nous cachent certaines choses. Elles nous laissent libres de ressentir et de les interpréter à la fois individuellement et socialement. De ce point de vue, le meilleur exemple est probablement la musique, qui est à la fois évidente et énigmatique.

Si l’on accepte cette définition, il est indéniable que la génération de musique assistée par une IA est de l’art et ses créations des œuvres d’art. Cette évolution s’inscrit dans la continuité de la très longue histoire des liens féconds entre l’art et la technologie. En effet, les artistes ont toujours été à l’avant-garde pour s’approprier, utiliser, détourner les innovations technologiques. On peut légitimement questionner les craintes suscitées par les avancées de l’IA, en se demandant si elles ne relèvent pas plutôt d’une forme de nostalgie d’un art classique, plus « noble », celui qui ne pourrait être obtenu que par l’entremise d’un esprit et de mains talentueuses, au prix d’efforts et de persistance. En définitive, l’histoire de l’art (passée et présente) n’est-elle pas une histoire jalonnée de ruptures et de transgressions, donc d’avancées tant techniques que conceptuelles ?

L’IA ne remplacera pas les artistes

Il est peu probable que le nombre d’artistes chute. Au contraire, il va progresser pour atteindre un niveau sans précédent. Ainsi, alors qu’il est quasiment impossible de prendre le dessus sur une IA, telle AlphaZero50Silver D. et al., « A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play », Science, vol. 362, no 6419, 2018, p. 1140-1144. au jeu de go, le nombre de joueurs continue d’augmenter. Le plaisir d’apprendre et de jouer n’a pas disparu pour autant et il en sera de même avec la musique. D’ailleurs, le secteur musical a déjà connu un bouleversement de grande ampleur avec la démocratisation des outils numériques. Pourtant, il n’y a jamais eu autant de personnes qui pratiquent un instrument et d’artistes qui produisent de la musique. Ainsi, chaque jour, c’est plus de 100 000 titres qui sont chargés sur les plateformes de streaming et ce chiffre continue de croître51Ingham T., « It’s happened, 100,000 tracks are now uploaded to streaming services like Spotify each day », Music Business Worldwide, octobre 2022, en ligne : www.musicbusinessworldwide.com/its-happened-100000-tracks-are-now-being-uploaded.. En fait, la musique est passée d’une économie de la rareté à celle de l’abondance, ce qui a évidemment un impact significatif pour les artistes, mais aussi sur la perception de la valeur pour le grand public52Johansson S. et al., Streaming Music. Practices, Media, Culture, Londres, Routledge, 2017..

Pourtant, avec l’arrivée d’IA pour la musique, une fois l’effet de sidération passé, demeure une crainte pour beaucoup d’artistes : comment rivaliser avec la vitesse, le coût, l’échelle et la créativité mécanique de ces machines ?

Dans les faits, parmi le vaste nombre de créations, seules quelques-unes se révèlent être de véritables œuvres d’art. Ceci n’est pas nouveau, et l’IA ne va rien changer à cela. Lorsqu’on entend pour la première fois une séquence musicale générée par une IA, l’une des présuppositions est que le musicien s’est contenté d’entrer des mots-clés et d’appuyer sur un bouton. S’il est vrai que, par ce processus, on peut bel et bien obtenir un morceau de musique, obtenir une composition témoignant d’une réelle valeur artistique est une tout autre affaire.

Dans les faits, il faut du temps, des efforts, de l’énergie et beaucoup de patience. En effet, il est faux de croire que les productions réellement intéressantes sont réalisées en une seule interaction textuelle. Il s’agit plutôt d’une collaboration, d’un long processus de « dialogue » entre un artiste et l’IA. Les progrès proviennent des très nombreuses itérations, allers-retours, détours et bifurcations. Il faut des heures, des jours de travail, parfois plus. Il est assez facile de faire en sorte que l’IA vous surprenne, mais il est beaucoup plus difficile de faire faire à l’IA quelque chose de précis. C’est un travail d’équipe : l’artiste humain et l’artiste machine forment un duo53Kyrou A., « Faire de l’IA un instrument et compagnon de musique », Multitudes, no 78, 2020, p. 98-102..

Quoi qu’il en soit, le prérequis à la production d’un morceau en collaboration avec l’IA est la motivation humaine, une intention artistique. En ajustant la description, vous pouvez générer des variantes et arriver à un « endroit » auparavant inconnu. Vous explorez alors cette zone jusqu’à obtenir un résultat qui semble prometteur. Ce nouveau territoire peut en évoquer d’autres, mais c’est le vôtre, car cette exploration a nécessité toute votre sensibilité et toutes vos connaissances musicales. C’est en fait l’ensemble de votre histoire et de votre culture qui est sollicité dans la succession des choix effectués.

Ainsi, dans le domaine graphique, pour créer son « théâtre d’opéra spatial », Jason Allen a utilisé toute son expérience artistique pour mettre au point son prompt. Il y a passé plus de 80 heures et généré près de 900 images, pour finalement sélectionner et retoucher sur un logiciel graphique celle qu’il a présentée au concours. Ces « artistes prompteurs » travaillent un peu comme des réalisateurs, orientant le travail de leur collaborateur artificiel vers une vision unifiée.

Il existe également un nombre non négligeable de paramètres à régler. Parmi ceux-ci, une graine (seed) est générée aléatoirement pour chaque cession, sans laquelle il est statistiquement impossible de répliquer la même trajectoire. De ce fait, même si l’on répète exactement la même description, il est très peu probable d’obtenir un résultat identique. En conséquence, même si l’on copie la description, aucune autre personne ne peut obtenir le même résultat.

En définitive, le processus de création d’une œuvre originale avec une IA doit être considéré comme une véritable compétence artistique, et ces IA comme une nouvelle génération d’instruments. J’appelle ces nouveaux instruments des « hyper-instruments ». Ils ne remplacent pas les anciens instruments, ils offrent des perspectives supplémentaires54Heudin J.-C., « Angelia : an emotional AI for electronic music », art. cité.. Les artistes ne vont pas disparaître, à court, moyen ou long terme, mais de nouveaux instruments vont certainement éclore et amener les pratiques à évoluer.

Une machine peut-elle être créative ?

Un argument souvent avancé est que l’IA est incapable de créer quelque chose de réellement nouveau. Les réseaux de neurones étant entraînés sur des corpus de données limités, bien que gigantesques, ils ne peuvent produire que des interpolations, des mélanges, ou des recombinaisons d’éléments déjà présents dans la base de données d’entraînement. Par exemple, s’il n’y avait aucune image de chat dans un corpus d’apprentissage, un générateur comme Midjourney serait incapable d’intégrer un chat dans l’une de ses productions. De la même manière, si un corpus musical ne contenait aucun morceau en mode mineur, une IA générative serait intrinsèquement limitée au mode majeur.

Avant de répondre précisément, il convient de noter que cette idée, celle qui place l’être humain au centre et au-dessus de toute chose, s’est toujours révélée fausse dans l’histoire des sciences. Elle sous-entend que l’être humain seul serait doté de capacités créatrices, comme si la créativité était quelque chose de magique ou d’origine divine55Kraft U., « Creativity. How brilliance arises in every one of us », Scientific American Mind, vol. 16, no 1, p. 16-23..

D’une part, nous savons aujourd’hui que la créativité est le fruit de beaucoup de travail et d’apprentissage plutôt qu’un don56Ibid.. Un musicien n’improvise ou ne compose jamais à partir de « rien », il s’appuie consciemment ou inconsciemment sur un « vocabulaire musical », celui qu’il a construit tout au long de sa carrière en étudiant les œuvres de ses prédécesseurs et de ses pairs. D’autre part, certains algorithmes se sont montrés tout à fait capables de générer des productions inédites à partir d’un corpus de données, ou même en partant de l’aléatoire. Par exemple, les algorithmes évolutionnaires s’inspirent de la sélection naturelle, le processus qui conduit l’évolution biologique57Goldberg D., Genetic Algorithms in Search, Optimization, and Machine Learning, Boston, Addison Wesley, 1989.. Schématiquement, le principe repose sur la génération stochastique d’une population d’individus, puis fait évoluer cette population de génération en génération par des recombinaisons, mais aussi des mutations qui maintiennent la diversité et créent du nouveau. L’un des premiers algorithmes évolutionnaires appliqués à la musique est GenJam, un algorithme génétique pour générer des solos de jazz58Biles J., « GenJam. A genetic algorithm for generating jazz solos », International Computer Music, 1994, p. 131-137..

Angelia intègre un algorithme évolutif dédié à la génération mélodique, où une séquence de notes représente le « code génétique » d’une ligne mélodique ou d’une progression d’accords59Heudin J.-C., « Angelia : an emotional AI for electronic music », art. cité.. La population de séquences musicales évolue au fil des générations successives par sélection, croisement et mutation. Chaque « génotype » peut ensuite être développé en un « phénotype », c’est-à-dire son expression musicale. La sélection d’un candidat, pour la reproduction et l’expression, dépend de l’évaluation de son adaptation (fitness). Dans Angelia, ce calcul est réalisé par une fonction procédurale multiparamètre qui évalue chaque individu sur la base d’un calcul de consonance et une analyse structurelle issue des théories sur l’harmonie. Contrairement aux algorithmes génétiques plus classiques, celui d’Angelia ne débute pas par une population générée aléatoirement, mais celle-ci est initialisée à l’aide d’une base de données de fragments provenant de grands compositeurs classiques et de jazz, dont Chopin, Liszt, Bach, Debussy, Corea, Jarrett, entre autres. Il ne s’agit pas d’un gigantesque volume de données constituées de l’ensemble des œuvres de chaque compositeur comme pour l’apprentissage profond, mais de motifs sélectionnés pour leur pertinence et auxquels sont appliqués des traitements pour faciliter les recombinaisons.


Ainsi, pour reprendre notre exemple, il est facile de montrer que le passage d’un accord majeur à un accord mineur ne nécessite qu’une seule mutation : celle qui va diminuer l’intervalle de la tierce majeure d’un demi-ton. Et celle-ci est possible, même si le corpus de départ ne contient aucun fragment en mode mineur.

Figure 3. Le principe de l’algorithme génétique utilisé par Angelia. Une ligne mélodique est représentée comme un « code génétique binaire » basé sur la notation anglophone et l’ajout de maintiens (H pour hold) et de silences (R pour rest). L’algorithme fait évoluer une population de lignes mélodiques par sélection, croisement et mutation (source : J.-C. Heudin).

Que manque-t-il aux IA ?

Même avec une IA très performante dédiée à la musique, les artistes ne disparaîtront pas. Il existe en effet de nombreuses limites, dont certaines ne sont pas prêtes d’être levées.

La première est celle de la nature même des algorithmes d’apprentissage profond. Ceux-ci nécessitent pour être efficaces des volumes de données considérables. Ne serait-ce que pour imiter le style d’un compositeur, il faut pratiquement l’ensemble de son œuvre. À titre d’exemple numérique, la base de données GiantMIDIPiano dédiée au piano classique contient 38 700 838 notes provenant de 10 855 pièces musicales composées par 2 786 compositeurs60Kong Q. et al., « GiantMIDI-Piano. A large-scale midi dataset for classical piano music » [v3], ArXiv, 21 avril 2022, en ligne : arxiv.org/abs/2010.07061..

Comparativement, le cerveau humain a besoin de beaucoup moins de données pour apprendre. Un des principaux objectifs de la recherche actuelle en IA est donc de découvrir de nouveaux algorithmes d’apprentissage capables de généraliser à partir d’un volume de données bien moins important. L’idée serait d’entraîner à partir de quelques exemples seulement, ou même, comme AlphaZero, en partant de zéro. Toutefois, si cela a été possible pour le jeu de go avec un apprentissage par renforcement61Sutton R. et Berto A., Reinforcement Learning. An Introduction, Cambridge, The MIT Press, 2014., c’est qu’il existe des fonctions d’évaluation objectives et pertinentes de la qualité des coups et de l’évolution d’une partie. Élaborer une fonction d’évaluation pour quantifier la « qualité » d’un morceau de musique est bien plus ardu. De nombreux travaux se sont penchés sur ce problème, en utilisant des approches procédurales, paramétriques, par corpus, par évaluation humaine collaborative, en entraînant un réseau de neurones, etc. Un exemple parmi beaucoup d’autres mentionne l’utilisation de la loi de Zipf, mais les développements sont encore à l’état embryonnaire62Manaris B., « Developing fitness functions for pleasant music. Zipf ’s law and interactive evolution systems », Applications of Evolutionary Computing, vol. 3449, 2005, p. 498-507..

La seconde limite est celle du ressenti. La musique est un phénomène sonore complexe qui crée de l’émotion63Wolff F., « Fête de la musique : pourquoi la musique nous émeut-elle autant ? », The Conversation, 18 juin 2021 [mise à jour le 21 juin 2022], en ligne : theconversation.com/fete-de-la-musique-pourquoi-la-musique-nous-emeut-elle-autant-162871.. Or, par construction, une IA est totalement dénuée d’émotion. « Elle » ne ressent rien. D’ailleurs, la plupart des IA « n’entendent rien », « elles » sont « sourdes », car elles ne font que générer des sons sans percevoir leurs effets. On peut certes ajouter une boucle de rétroaction, ainsi qu’un métabolisme bio-inspiré qui analyse les sons perçus et les transforme en stimuli émotionnels comme dans Angelia64Heudin J.-C., « Angelia : an emotional AI for electronic music », art. cité.. Ces informations sont très utiles pour « humaniser » l’interprétation. Néanmoins, cela ne signifie pas que l’IA soit réellement capable de ressentir quelque chose. Le problème réside dans la relation au monde.

Notre développement personnel dépend largement de nos interactions sociales, de notre perception de l’environnement, de notre contexte culturel et historique, et de bien d’autres choses encore. Nos sens nous fournissent constamment et en temps réel un océan de données qui nous relie au monde.

À l’inverse, une IA n’a accès qu’aux données très spécialisées de son apprentissage. Une fois la phase d’entraînement terminée, une IA n’apprend plus. Elle ne fait que calculer des suites numériques en fonction de son modèle, et tout le reste n’existe pas. Pour progresser, il faut faire des mises à jour. Alors que l’écoute d’une musique nous émeut, évoquant en chacun de nous des souvenirs différents, des instants fugaces d’événements vécus, une IA s’en tient à élaborer des séquences binaires.

Cette impossibilité pour une machine de ressentir de véritables émotions montre que les artistes auront toujours une place prépondérante. Les machines n’ont pas d’intention artistique sensible, seuls les humains peuvent en avoir une.

Conclusion

Dans les cinq ans, des IA permettront de générer des morceaux de musique entiers sur la base d’une simple description textuelle. Elles utiliseront beaucoup moins de données que l’apprentissage profond utilisé actuellement. En contrepartie, le travail sur les corpus d’apprentissage sera plus important, car il s’agira de sélectionner soigneusement les données d’entraînement. Pour un artiste, être intégré dans un corpus en étant cité sera une source de reconnaissance par la diffusion de son style dans les œuvres qui seront ainsi créées. Les musiciens s’approprieront ces nouveaux outils, et certains d’entre eux créeront des œuvres inoubliables, ainsi que de nouvelles tendances musicales.

Le cauchemar d’une IA supprimant l’art et les artistes, tout comme le mythe d’une IA anéantissant l’humanité, ne se produiront pas. Cette vision est fondamentalement une mauvaise lecture de l’histoire des arts et des technologies que nous vivons actuellement. Elle rappelle la crainte des portraitistes du XIXe siècle lors de l’apparition de la photographie, comme plus récemment celle des photographes avec la diffusion des smartphones65Laclotte M. et Cuzin J.-P. (dir.), Dictionnaire de la peinture, Paris, Larousse, 2003, spécifiquement l’entrée « Photographie et peinture », reproduite en ligne : www.larousse.fr/encyclopedie/peinture/photographie_et_peinture/153827.. Finalement, la photographie a inspiré une résurgence de la peinture et, malgré les smartphones, le nombre de photographes continue d’augmenter66Kelly K., « Picture limitless creativity at your fingertips », Wired, 17 novembre 2022, en ligne : www.wired.com/story/picture-limitless-creativity-ai-imagegenerators..

Au lieu de craindre l’IA, il faut plutôt la considérer comme un compagnon de la musique. Elle nous enseigne que la créativité n’est pas un don magique ou une force surnaturelle. L’IA va provoquer une démocratisation sans précédent de la composition et de la production musicale, en permettant à tout un chacun de créer ses propres œuvres. Dans cet océan créatif, il y aura le pire et le meilleur, et comme cela a toujours été le cas dans l’histoire de l’art, seuls quelques artistes deviendront des icônes par la nouveauté et la pertinence de leur projet artistique.

Cette vision résolument optimiste ne signifie pas qu’il faille tout accepter sans réfléchir. Cette nouvelle révolution créative pose à la fois des questions éthiques et de paternité des œuvres créées67Mercier C., « Intelligence artificielle : le droit d’auteur protège une création précise, mais pas une manière de créer », Libération, 31 décembre 2022, en ligne : www.liberation.fr/culture/intelligence-artificielle-le-droit-dauteur-protege-une-creation-precise-mais-pas-une-maniere-de-creer-20221231_W6AOOKULC5HMHDEUCRL76HEY4A.. Elle aura également une influence certaine sur l’économie de la production musicale et la rémunération des artistes68Farchy J., « Les enjeux de l’IA dans l’industrie musicale », CNMlab, mars 2022, en ligne : cnmlab.fr/recueil/horizon-la-musique-en-2030/chapitre/3.. Toutes ces interrogations sont intensément débattues. Dans le maelström des innovations en cours, il n’a jamais été aussi nécessaire de replacer l’humain et son environnement au centre des préoccupations. L’intelligence artificielle doit augmenter notre intelligence et notre créativité, pas les remplacer.

  • 1
    Gault M., « An AI-generated artwork won first place at a state fair fine arts competition, and artists are pissed », Vice, 2022, en ligne : www.vice.com/en/article/bvmvqm/an-ai-generated-artwork-won-first-place-at-a-state-fair-fine-arts-competition-and-artists-are-pissed.
  • 2
    Gonsalves R. A., « Using ChatGPT as a creative writing partner, part2 : music », Towards Data Science, 2023, en ligne : towardsdatascience.com/using-chatgpt-as-a-creative-writing-partner-part-2-music-d2fd7501c268.
  • 3
    Agostinelli A. et al., « MusicLM : generating music from text », Google Research, 2023, en ligne : google-research.github.io/seanet/musiclm/examples.
  • 4
    Un algorithme est la représentation formelle d’une suite d’instructions qui permet de résoudre une classe de problèmes. Le mot « algorithme » provient du nom de Al-Khwârizmî, un mathématicien persan du IXe siècle.
  • 5
    Beaubois F., « Pythagore et l’art de faire entendre les nombres », fiche thématique de l’éduthèque de la Philharmonie de Paris, en ligne : edutheque.philharmoniedeparis.fr/Pythagore-entendre-les-nombres.aspx.
  • 6
    Grout D. J. et Palisca C., A History of Western Music, 5e éd., New York, Norton and Company, 1996.
  • 7
    Ibid.
  • 8
    Papadopoulos A., « Mathématiques et musique chez J.-S. Bach », L’Ouvert, no 100-101, 2000, p. 90-101.
  • 9
    Zbikowski L., Conceptualizing Music. Cognitive Structure, Theory, and Analysis, Oxford, Oxford University Press, 2002, p. 142-143.
  • 10
    Vaucanson J., Le mécanisme du flûteur automate, Paris, Archives contemporaines, 1985 [1738].
  • 11
    Dufour C., Ada ou la beauté des nombres. La pionnière de l’informatique, Paris, Fayard, 2019.
  • 12
    Turing A. M., « Computing machinery and intelligence », Mind, vol. 59, no 36, 1950, p. 433-460.
  • 13
    McCorduck P., Machines Who Think. A Personal Inquiry into the History and Prospects of Artificial Intelligence, 2de éd., Natick, A. K. Peters, 2004.
  • 14
    Sandred O., Laurson M. et Kuuskankare M., « Revisiting the Illiac Suite. A rule based approach to stochastic processes », ResearchGate, 2009, en ligne : www.researchgate.net/publication/260791942_Revisiting_the_Illiac_Suite_-_A_rule-based_approach_to_stochastic_processes.
  • 15
    Xenakis I., Formalized Music. Thought and Mathematics in Composition, 2de éd., Sheffield, Pendragon Press, 1992.
  • 16
    Cope D., Virtual Music, Cambridge, MIT Press, 2001.
  • 17
    Spiegel L., « Music Mouse : an intelligent instrument », Academia.edu, en ligne : www.academia.edu/664808/Music_Mouse_An_Intelligent_Instrument.
  • 18
    Voir la page Wikipédia du logiciel MAX : fr.wikipedia.org/wiki/Max/MSP.
  • 19
    Voir le site de l’association MIDI : www.midi.org.
  • 20
    Heudin J.-C., Comprendre le Deep Learning, Une introduction aux réseaux de neurones, Paris, Science-eBook, 2016.
  • 21
    McCulloch W. et Pitts W., « A logical calculus of the ideas immanent in nervous activity », Bulletin of Mathematical Biophysics, vol. 5, 1943, p. 115-133.
  • 22
    Rosenblatt F., « The Perceptron. A probabilistic model for information storage and organization in the brain », Psychological Review, vol. 65, no 6, 1958, p. 386-408.
  • 23
    Minsky M. et Papert S., Perceptrons. An Introduction to Computational Geometry, Cambridge, The MIT Press, 1969.
  • 24
    Rumelhart D., Hinton G. E. et Williams R., « Learning representations by backpropagating errors », Nature, vol. 323, 1986, p. 533-536.
  • 25
    Lecun Y., Bengio Y. et Hinton G. E., « Deep Learning », Nature, vol. 521, 2015, p. 436-444.
  • 26
    Silver D. et al., « Mastering the game of Go with deep neural networks and tree search », Nature, vol. 529, 2016, p. 484-489.
  • 27
    Voir le site de Flow Machines : www.flow-machines.com ; Sakellariou J. et al., « Maximum entropy models capture melodic styles », Nature Scientific Reports, vol. 7, no 1, 2017, p. 1-9.
  • 28
    Sony CSL, « DeepBach. Harmonization in the style of Bach generated using deep learning », YouTube, 13 décembre 2016, en ligne : www.youtube.com/watch?v=QiBM7-5hA6o.
  • 29
    Voir les sites des outils mentionnés : Magenta, magenta.tensorflow.org ; AIVA, www.aiva.ai ; Izotope, www.izotope.com ; Orb, www.orbplugins.com.
  • 30
    Pour écouter les expérimentations Angelia : angelia.bandcamp.com.
  • 31
    Voir le site d’OpenAI et sa présentation de ChatGPT : openai.com/blog/chatgpt.
  • 32
    Halevy A., Norvig P. et Pereira F., « The unreasonable effectiveness of data », IEEE Intelligent Systems, vol. 24, no 2, 2009, p. 8-12.
  • 33
    Simon I. et Oore S., « Performance RNN. Generating music with expressive timing and dynamics », Magenta Blog, 29 juin 2017, en ligne : magenta.tensorflow.org/performance-rnn.
  • 34
    Mori M., « The Uncanny Valley », IEEE Robotics and Automation Magazine, vol. 19, no 2, 2012, p. 98-100.
  • 35
    Briot J.-P., Hadjeres G. et Pachet F.-D., Deep Learning Techniques for Music Generation, Cham, Springer, 2019.
  • 36
    Heudin J.-C., « Angelia : an emotional AI for electronic music », ResearchGate, février 2023, en ligne : researchgate.net/publication/368513976_ANGELIA_An_Emotional_AI_for_Electronic_Music.
  • 37
    Gault M., « An AI-generated artwork won first place at a state fair fine arts competition, and artists are pissed », art. cité.
  • 38
    Voir le site de l’application : midjourney.com.
  • 39
    Pérez Colomé J., « Les illustrateurs bientôt (dé)gommés par les intelligences artificielles ? », Courrier international, 4 septembre 2022, en ligne : https://www.courrierinternational.com/article/medias-les-illustrateurs-bientot-de-gommes-par-les-intelligences-artificielles.
  • 40
    Voir la présentation de l’application DALL.E sur le site d’OpenAI : openai.com/dall-e-2.
  • 41
    Waswani A. et al., « Attention is all you need », Advances in Neural Information Processing Systems, no 31, 2017, p. 5998-6008.
  • 42
    Voir les sites de ces outils : Melobytes, melobytes.com ; Mubert, mubert.com ; ainsi que les essais datant de 2022 sur la plateforme GitHub : github.com/MubertAI/Mubert-Text-to-Music.
  • 43
    Smith R., « Audio diffusion », Hugging Face, 2022, en ligne : huggingface.co/docs/diffusers/main/en/api/pipelines/audio_diffusion ; Forsgren S. et al., « Riffusion. Stable diffusion for real-time music generation », 2022, en ligne : riffusion.com/about.
  • 44
    Schneider F., Zhijing J. et Schölkopf B., « Moûsai. Text-to-music generation with long-context latent diffusion », ArXiv, 2023, en ligne : arxiv.org/abs/2301.11757.
  • 45
    Huang C. A. et al., « Music Transformer », ArXiv, 2018, en ligne : arxiv.org/abs/1809.04281.
  • 46
    Agostinelli A. et al., « MusicLM : generating music from text », art. cité.
  • 47
    Gonsalves R. A., « Using ChatGPT as a creative writing partner, part2 : music », art. cité.
  • 48
    Code R [pseudonyme], « Midi madness with ChatGPT. The AI-powered tunes that will make you laugh, cry and, dance », R bloggers, 10 décembre 2022, en ligne : r-bloggers.com/2022/12/midi-madness-with-chatgpt-the-ai-powered-tunes-that-will-make-you-laugh-cry-and-dance.
  • 49
    Adorno T., Théorie esthétique, Paris, Klincksieck, 1989, p. 159.
  • 50
    Silver D. et al., « A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play », Science, vol. 362, no 6419, 2018, p. 1140-1144.
  • 51
    Ingham T., « It’s happened, 100,000 tracks are now uploaded to streaming services like Spotify each day », Music Business Worldwide, octobre 2022, en ligne : www.musicbusinessworldwide.com/its-happened-100000-tracks-are-now-being-uploaded.
  • 52
    Johansson S. et al., Streaming Music. Practices, Media, Culture, Londres, Routledge, 2017.
  • 53
    Kyrou A., « Faire de l’IA un instrument et compagnon de musique », Multitudes, no 78, 2020, p. 98-102.
  • 54
    Heudin J.-C., « Angelia : an emotional AI for electronic music », art. cité.
  • 55
    Kraft U., « Creativity. How brilliance arises in every one of us », Scientific American Mind, vol. 16, no 1, p. 16-23.
  • 56
    Ibid.
  • 57
    Goldberg D., Genetic Algorithms in Search, Optimization, and Machine Learning, Boston, Addison Wesley, 1989.
  • 58
    Biles J., « GenJam. A genetic algorithm for generating jazz solos », International Computer Music, 1994, p. 131-137.
  • 59
    Heudin J.-C., « Angelia : an emotional AI for electronic music », art. cité.
  • 60
    Kong Q. et al., « GiantMIDI-Piano. A large-scale midi dataset for classical piano music » [v3], ArXiv, 21 avril 2022, en ligne : arxiv.org/abs/2010.07061.
  • 61
    Sutton R. et Berto A., Reinforcement Learning. An Introduction, Cambridge, The MIT Press, 2014.
  • 62
    Manaris B., « Developing fitness functions for pleasant music. Zipf ’s law and interactive evolution systems », Applications of Evolutionary Computing, vol. 3449, 2005, p. 498-507.
  • 63
    Wolff F., « Fête de la musique : pourquoi la musique nous émeut-elle autant ? », The Conversation, 18 juin 2021 [mise à jour le 21 juin 2022], en ligne : theconversation.com/fete-de-la-musique-pourquoi-la-musique-nous-emeut-elle-autant-162871.
  • 64
    Heudin J.-C., « Angelia : an emotional AI for electronic music », art. cité.
  • 65
    Laclotte M. et Cuzin J.-P. (dir.), Dictionnaire de la peinture, Paris, Larousse, 2003, spécifiquement l’entrée « Photographie et peinture », reproduite en ligne : www.larousse.fr/encyclopedie/peinture/photographie_et_peinture/153827.
  • 66
    Kelly K., « Picture limitless creativity at your fingertips », Wired, 17 novembre 2022, en ligne : www.wired.com/story/picture-limitless-creativity-ai-imagegenerators.
  • 67
    Mercier C., « Intelligence artificielle : le droit d’auteur protège une création précise, mais pas une manière de créer », Libération, 31 décembre 2022, en ligne : www.liberation.fr/culture/intelligence-artificielle-le-droit-dauteur-protege-une-creation-precise-mais-pas-une-maniere-de-creer-20221231_W6AOOKULC5HMHDEUCRL76HEY4A.
  • 68
    Farchy J., « Les enjeux de l’IA dans l’industrie musicale », CNMlab, mars 2022, en ligne : cnmlab.fr/recueil/horizon-la-musique-en-2030/chapitre/3.
69