Les enjeux de l’IA dans l’industrie musicale

Par Joëlle Farchy

Publié le 21 mars 2022

A A A

Joëlle Farchy est professeure des universités en sciences de l’information et de la communication (Paris 1 Panthéon-Sorbonne), chercheuse au Centre d’économie de la Sorbonne et directrice de la chaire Pluralisme culturel et éthique du numérique (PCEN).

Résumé
Introduction
Des données et des algorithmes
- IA et régulation des données
- Qualifier précisément les morceaux de musique
Repousser les frontières hommes‑machines dans le processus de création
Prédire et promouvoir les succès futurs
Personnaliser la recommandation

Résumé

La musique est l’industrie culturelle où les propositions d’intelligence artificielle sont les plus avancées. Tout au long de la chaîne de valeur, trois applications majeures mobilisent de larges corpus de données qui alimentent des algorithmes : au niveau de la production, afin de connaître le marché pour prédire ou provoquer le succès ; au niveau de la consommation, dans la recommandation de certains morceaux auprès des utilisateurs ; en amont, enfin, lors du processus de création. La capacité « d’explicabilité » de leur démarche par les concepteurs d’outils et la capacité du grand public à s’acculturer à ces nouveaux outils sont au cœur d’une intégration future réussie de l’IA dans la musique, au-delà des réserves habituellement suscitées.

Introduction

Programme de recherche scientifique aux multiples facettes autant qu’ambition politique, l’IA (intelligence artificielle) renvoie à toutes les formes de traitements algorithmiques dont l’objectif est de comprendre comment fonctionne la cognition humaine et comment la reproduire. La recherche en IA connaît un essor inédit depuis les années 2010, sous le double effet de la montée en puissance de la capacité de calcul des ordinateurs et de l’accroissement de la masse des données, qui sont pertinentes pour l’apprentissage. En effet, le machine learning, qui correspond à la capacité des machines à apprendre sans être formellement programmées, est aujourd’hui la principale voie de développement de l’IA, et sa performance est directement liée aux données collectées. Alors qu’elle engendre autant de fantasmes que d’inquiétudes, l’IA concerne de plus en plus de secteurs et fait apparaître les contours d’une nouvelle économie. Ayant connu une dématérialisation précoce, les industries culturelles et les médias font figure de laboratoire des modèles économiques émergents. C’est dans la musique (et, dans une moindre mesure, dans l’audiovisuel) que les expérimentations et propositions sont les plus avancées. De larges corpus de données diversifiées alimentent des algorithmes et sont mis en place par des acteurs économiques dont l’activité s’exerce à des fins de marketing ou d’optimisation de services spécifiques. Ainsi, l’IA est maniée tout au long de la chaîne de valeur : au niveau de la production, afin de connaître le marché pour prédire ou provoquer le succès ; au niveau de la consommation, dans la recommandation de certains morceaux auprès des utilisateurs ; en amont, enfin, lors du processus de création musicale.

Des données et des algorithmes

Omniprésentes, les données recouvrent des réalités polysémiques. Les terminologies utilisées pour nommer et classifier les données correspondent aux objectifs de textes législatifs spécifiques, qui ne s’excluent pas les uns les autres. Pour des raisons historiques différentes, certaines catégories de données, comme les données personnelles ou les données liées aux « œuvres », font l’objet d’une qualification juridique et d’une régulation bien précise (respectivement RGPD et Code de la propriété intellectuelle). Il n’en va pas de même pour d’autres catégories qui correspondent à des pratiques professionnelles, comme les données d’usage et les métadonnées.

Les données d’usage résultent de la rencontre d’un utilisateur et d’une œuvre (caractéristiques démographiques de l’usager, comportement, genres de musique préférés). Les données relatives à l’usage de contenus culturels et ludiques sont devenues un input (une ressource) permettant d’analyser les goûts et habitudes des usagers et de leur proposer une offre personnalisée. Les métadonnées sont les informations décrivant un contenu ou un créateur précis (durée de l’œuvre, titulaire des droits, paroles d’une chanson, rythme d’un morceau de musique, etc.). Ces métadonnées parfois produites en interne par les plateformes font également l’objet d’une intense activité de la part d’acteurs spécialisés afin d’en vérifier la qualité et de les enrichir. Enfin, les informations résultant de la comparaison ou de l’agrégation de données d’usage et/ou de métadonnées sont des données hybrides¹.

Non seulement l’IA se nourrit de données pour alimenter les algorithmes, mais elle génère aussi automatiquement des données. L’une des grandes promesses de l’apprentissage automatique est de permettre d’extraire et de traiter de grandes quantités de données non structurées et d’en produire de nouvelles.

IA et régulation des données

Dans l’industrie musicale, trois types de données sont essentiellement consommées et émises par les algorithmes : les données d’usage, les métadonnées et les œuvres qui constituent elles‑mêmes des données entrantes et sortantes. Chacune de ces catégories soulève des questions de régulation qui lui sont propres.

Tout d’abord, certaines données d’usage sont considérées comme des données personnelles, au sens du RGPD, dès lors qu’elles sont liées directement ou indirectement à un individu et concernent les caractéristiques, comportements, habitudes, goûts ou jugements d’une personne précise. Dans la mesure où les données personnelles de nature « culturelle » sont très révélatrices des préférences intimes et intellectuelles de chacun, elles sont particulièrement sensibles, et doivent être suivies avec beaucoup d’attention.

D’autre part, parmi l’ensemble des métadonnées pertinentes dans le cadre du développement d’applications d’IA, celles, pourtant basiques et indispensables, visant l’identification de chaque œuvre ne sont pas toujours harmonisées, pas plus que ne le sont les bases de données descriptives ou enrichies par des professionnels des secteurs ou par des pure players. La question est de savoir si des motifs d’intérêt général pourraient conduire à ce que certaines métadonnées fassent l’objet de formes de mutualisation et de partage. Pour répondre aux enjeux de la production qualitative de métadonnées, celles‑ci doivent‑elles circuler, être accessibles et largement partagées ? Des professionnels soulignent que la qualification des contenus peut être faite de multiples manières et que la qualité de ce travail – qui constitue un facteur de différenciation, un marché porteur pour de nombreuses start‑up – est un élément d’émulation concurrentielle ; certains en concluent donc que les bases de métadonnées devraient demeurer privatives. Le débat reste ouvert.

Enfin, pour les œuvres, se pose la question du respect de la propriété intellectuelle. Celle‑ci est au cœur des réflexions sur l’économie de la création, car elle joue un rôle d’incitation à produire de nouvelles œuvres. Dans le cas de la création associée à l’IA, deux nouvelles problématiques émergent².

En amont, l’IA ne peut fonctionner sans les données massives qui l’alimentent. Les opérateurs d’IA piochent de manière indifférenciée des données ou informations qui sont parfois des œuvres protégées, ou le plus souvent des morceaux, parties, extraits dont la protection est mise en doute. En raison des volumes à traiter, les coûts de transaction des autorisations des ayants droit sont souvent démesurés par rapport aux perspectives de gain. C’est la raison pour laquelle il est primordial de chercher des solutions pragmatiques et globales pour faciliter les autorisations auprès des ayants droit dans le cas d’usages de masse.

En aval, l’algorithme produit des outputs qui sont le résultat d’une collaboration homme‑machine et l’on peut donc se demander si cette réalisation finale peut être qualifiée d’œuvre de l’esprit par le droit et, suivant cette hypothèse, qui en est l’auteur et qui est le titulaire des droits. Parce que la frontière entre création assistée par une IA et création générée par une IA est, dans la pratique, difficile à tracer, le statut juridique de ces créations se révèle complexe.

Ainsi, l’un des importants défis à relever au cours des prochaines années sera de concilier le respect des principes fondamentaux de régulation avec des modèles économiques qui font du traitement et de la valorisation des données le cœur de leur métier et qui imposent une large circulation de ces données.

Qualifier précisément les morceaux de musique

À la fin des années 1990, une discipline académique à part entière a émergé : le MIR (Music Information Retrieval). Son objectif est de rassembler une multitude d’informations permettant de qualifier un contenu musical (on parle aussi d’analyse ou d’indexation musicale). L’analyse des morceaux musicaux sur la base de leurs caractéristiques objectives, à l’aide d’algorithmes d’apprentissage automatique, est de ce fait devenue un champ de recherche scientifique.

Les chercheurs disposent d’un éventail de données sur les caractéristiques musicales (audio, durée, année, artiste, genre, etc., ainsi que des métadonnées plus abstraites telles que la « dançabilité » ou encore l’énergie). Les algorithmes d’apprentissage permettent l’extraction automatique de caractéristiques audio et des techniques MIR ont été mises au point pour résoudre des problèmes à l’instar de la classification des genres, le nettoyage des métadonnées, l’identification des artistes et la reconnaissance in situ d’un morceau, etc. Ces recherches ont donné lieu à diverses applications. Des start‑up se sont lancées dans la production, le nettoyage ou l’agrégation de métadonnées de qualité. Cette volonté de caractériser des contenus musicaux par des métadonnées accompagne les processus de création « artificielle » et renouvelle considérablement les formes de prévision ou de recommandation proposées.

Repousser les frontières hommes‑machines dans le processus de création

L’intelligence artificielle est bel et bien associée désormais à la création musicale et les innovations devraient se multiplier dans les prochaines années. Parmi les diverses expérimentations mises en œuvre, on distingue, en théorie, celles qui se contentent d’accompagner le processus humain de la création de celles qui ont la volonté de s’en émanciper. Dans de nombreux cas, il n’est pas question de se substituer au processus humain de création, mais plutôt de faciliter le travail et l’inspiration du créateur en réduisant ses contraintes. Plus ambigus sont les travaux visant à imiter, à créer « à la manière » d’autres artistes, voire à faire émerger des œuvres complètement nouvelles qui limitent fortement l’intervention humaine.

La possibilité de doter les machines d’une des caractéristiques principales de l’intelligence humaine, à savoir la créativité, a fait émerger un champ de recherche désigné sous le terme de « computational creativity ». Il s’agit d’apprendre aux machines comment reproduire le processus créatif humain. Tandis que les algorithmes déductifs impliquent une intervention humaine forte, les résultats proposés par les algorithmes d’apprentissage automatique tentent de rendre les machines elles‑mêmes créatives. Si les différents outils sont tous capables de générer une composition musicale « finie », tous ne laissent pas la même place à l’humain dans le processus de création. Certains outils ne nécessitent aucune connaissance préalable, tandis que d’autres reposent sur une certaine connaissance du codage informatique et de l’écriture musicale.

Aujourd’hui, l’IA créative dans la musique n’est donc plus uniquement le fait de la communauté scientifique, plusieurs start‑up s’étant positionnées afin de tenter d’atteindre le stade de la viabilité commerciale. Les applications commerciales fournissent des solutions « clés en main » grâce auxquelles l’usager néophyte, ou celui plus pressé, obtient une composition prête à l’emploi, comme pour des jingles, des maquettes ou bien des musiques à l’image de reportage.

Les entreprises concernées attirent des clients avec des compositions générées automatiquement, libres de droits qui, sans être toujours de haute qualité, sont très intéressantes d’un point de vue commercial, car elles facilitent un accès à de la musique à bas coût et en grande quantité. Ces évolutions font craindre des effets de substitution par rapport aux compositions habituellement protégées par le droit d’auteur. Pour autant, s’il est fort probable que l’IA occupera dans les années à venir une part du marché (musiques d’ascenseur, d’ambiance, au kilomètre, etc.), elle aura aussi pour conséquence de renforcer la créativité des auteurs sur des segments plus qualitatifs de musiques que l’IA est incapable de produire.

D’autres acteurs n’ont pas pour but de vendre des productions musicales, mais de proposer de l’accompagnement aux créateurs, en leur fournissant des outils grâce auxquels ils peuvent se libérer de contraintes ou laisser libre cours à leur créativité. Ces outils accompagnent les utilisateurs « aguerris » (musiciens, compositeurs, programmeurs) en leur permettant d’intervenir sur un grand nombre de paramètres. Ils sont plutôt portés en interne par de grands groupes et par des laboratoires de recherche comme l’équipe de recherche Google Brain, qui propose aux musiciens l’outil Magenta. De même, en 2012, une équipe formée autour de François Pachet, alors directeur du Sony Computer Science Laboratories Paris, a créé Flow Machines³, un projet dont l’objectif est de pousser la créativité de chacun en lui proposant un nouvel outil. Les développeurs de Flow Machines ont ainsi dévoilé en 2016 deux morceaux « à la manière de » : « DeepBach⁴ » façon Bach et « Daddy’s Car⁵ » façon Beatles. En dehors des musiciens aguerris, l’IA permet également aux amateurs de participer à la démocratisation de certaines pratiques artistiques sans en connaître forcément tous les habituels prérequis.

Prédire et promouvoir les succès futurs

L’économie de la culture est une économie de prototype, où l’incertitude liée à la demande est particulièrement élevée : aussi, identifier les outils d’aide à la décision permettant de limiter la prise de risque a toujours été au cœur des préoccupations des professionnels. Un petit nombre de productions attire en effet l’essentiel de la demande, selon le modèle bien documenté de l’économie des superstars⁶. L’exploitation des données par les algorithmes ravive l’ambition de prendre des décisions d’investissement adaptées et d’appuyer, voire de remplacer, les habituelles intuitions et expertises humaines par des analyses supposément objectives qui détermineraient le succès d’une œuvre ou d’un artiste.

Au‑delà du rêve inatteignable de parfaitement modéliser la recette du succès, plus prosaïquement, des algorithmes sont déjà largement utilisés pour repérer les tendances du marché, faciliter la prise de décision de produire ou non un titre, ou encore préciser la stratégie commerciale afin de cibler, élargir le public potentiel ou optimiser la présence d’une œuvre ou d’un artiste sur tel ou tel support de diffusion. Indicateurs complémentaires de l’expertise professionnelle, les algorithmes d’apprentissage automatique aident à mieux positionner un projet ou à anticiper les réactions du public.

Outre l’analyse des tendances du marché, l’une des promesses de l’intelligence artificielle est de comparer, sur la base de l’exploitation de données historiques, les contenus qui sont devenus des hits avec ceux en cours de production dans le but d’analyser les clés de la réussite, et éventuellement de la prédire. Avec l’apprentissage automatique, la finalité n’est plus explicative, à l’instar des techniques quantitatives (telle l’économétrie) auxquelles font appel les économistes depuis longtemps, mais bien performative. La rupture avec les techniques quantitatives classiques s’explique par le fait que la modélisation est issue des données elles‑mêmes. La performance du modèle ne tient pas à l’explicabilité de ses résultats, mais à sa capacité à fournir rapidement et efficacement une réponse au problème posé. Ces traitements, s’appuyant sur l’apprentissage automatique, sont intrinsèquement conservateurs : ils n’anticipent pas d’évolutions, mais reproduisent le passé dans le présent ou l’avenir pour fournir un résultat, des tendances ou des estimations.

Comparativement aux autres applications (notamment pour la recommandation), l’utilisation des MIR pour la prévision ou la détection des caractéristiques du succès avant leur mise sur le marché reste relativement inexplorée et, malgré des progrès, il n’existe pas d’application commerciale assez perfectionnée pour s’assurer d’un succès sur la seule base de l’analyse de ses caractéristiques propres ; ceux qui se sont essayés à la « fabrique des tubes » n’ont guère abouti. C’est pourquoi d’autres chercheurs essaient de prévoir le succès d’un morceau en s’appuyant non plus sur les seules métadonnées intrinsèques, mais en transmettant, au moment de la commercialisation, des données supplémentaires, les données d’usage disponibles (premières réactions des internautes sur les réseaux sociaux, premières données de diffusion, etc.), ceci pour l’accompagner notamment sur les réseaux sociaux et le faire durer. Les plateformes de streaming, grâce aux données d’usage qu’elles détiennent et analysent, peuvent ainsi amplifier le succès escompté en observant la performance d’un titre de playlist en playlist, puis en le promouvant sur celles bénéficiant du plus grand nombre d’abonnés.

Personnaliser la recommandation

Le terme de recommandation fait référence à différents dispositifs qui orientent les choix de l’usager et participent à la mise en avant d’un contenu sur un service culturel en ligne. Si tous n’ont pas recours aux algorithmes, dans l’univers numérique, les traitements algorithmiques, grâce à l’exploitation automatisée de grandes quantités de données, ont connu un essor considérable et ce sont les recommandations issues de ces traitements qui font l’objet de toutes les attentions.

Parmi les traitements automatisés, on distingue classiquement deux types de recommandations selon la nature des données prises en compte. Le filtrage par contenu repose sur une comparaison entre la description précise des caractéristiques d’un contenu et la demande d’un usager à l’instant T (un utilisateur écoutant un morceau de musique qualifiée de country par les métadonnées associées se verra proposer un autre morceau de musique country). Le filtrage collaboratif s’appuie, quant à lui, sur les comportements de groupes d’usagers, de « communautés » ayant des goûts similaires (un utilisateur écoutant Johnny Hallyday se verra recommander Eddy Mitchell, car d’autres utilisateurs ayant écouté Johnny Hallyday ont également écouté Eddy Mitchell).

Une autre typologie conduit à distinguer deux recommandations émanant des offreurs, fondées sur leurs propres jugements ou sur les comportements des internautes qu’ils analysent⁷ : la recommandation éditoriale et la recommandation personnalisée. La recommandation éditoriale désigne les situations dans lesquelles la proposition spécifique de certains contenus émane d’un choix assumé de l’entreprise. Elle renvoie en partie aux formes de recommandation classiques de l’ère prénumérique où un offreur mettait en avant, selon une stratégie marketing plus ou moins élaborée, certains types de contenus. Avec le numérique, la possibilité d’exploiter une grande quantité de données d’usage sur les comportements des internautes a conduit à l’émergence d’une nouvelle forme de recommandation personnalisée, associée aux potentialités des traitements algorithmiques automatisés.

La recommandation et la personnalisation sont devenues les piliers de la stratégie de croissance et d’expérience utilisateur des plateformes de streaming. Le comportement des utilisateurs est analysé en permanence afin d’affiner les choix des titres susceptibles de les satisfaire. Cependant, dans le but d’augmenter la précision des résultats, la plupart des services opérant actuellement font appel à des systèmes hybrides, qui combinent les diverses formes de recommandation et exploitent diverses données. La connaissance des utilisateurs, au‑delà de leur activité d’écoute musicale, a été enrichie par l’analyse des données de contexte (liées à l’environnement, comme l’emplacement de l’utilisateur, l’heure, la météo, ou liées à l’utilisateur lui‑même en tenant compte de son activité, son état émotionnel ou son état social). L’exploitation des données utilisateur s’est de plus considérablement nourrie des récentes avancées de la recherche en analyse du signal audio. Au‑delà de la recommandation partant des métadonnées descriptives, l’analyse du contenu audio (comme les systèmes MIR évoqués plus haut) tente de modéliser la similitude entre des chansons avec des éléments tels que le tempo, le rythme ou encore la mélodie. La start‑up The Echo Nest (rachetée par Spotify en 2014⁸) a ainsi fait de l’extraction automatique de données musicales au service de la recommandation le cœur de son modèle d’affaires.

En matière de recommandation, la mobilisation algorithmique fait débat depuis les premiers travaux qui ont popularisé le terme de « bulle de filtres⁹». Les craintes exprimées concernent l’éventuelle absence de diversité des offres en ligne au profit d’un enfermement dans les goûts monomaniaques de l’usager. L’hypothèse d’un enfermement dans une « bulle de filtres » est largement associée aux biais liés à la personnalisation de plus en plus fine et de plus en plus poussée des propositions.

Des travaux ont testé cette hypothèse sur les services musicaux et leurs résultats sont contrastés. Dans l’ouvrage Spotify Teardown¹⁰, des chercheurs concluent que, dans le cas spécifique des radios étudiées sur Spotify, la thèse de l’enfermement est confirmée. Mais d’autres, à l’instar de Hannes Datta, George Knox et Bart Bronnenberg, ont conclu que les nouveaux utilisateurs de Spotify avaient considérablement augmenté leur écoute d’artistes, de titres et de genres auparavant méconnus¹¹. David Hesmondhalgh affirme que la critique récurrente d’absence de découverte musicale est simpliste et trop généraliste¹². De leur côté, les équipes de recherche de Spotify ont publié de nombreux articles sur l’évolution de leurs systèmes de recommandation et sur les conséquences observées sur le plan de la diversité ; elles ont encouragé la recherche d’algorithmes de compromis afin de satisfaire les utilisateurs avec des contenus pertinents, et de les conduire vers des titres à la fois moins populaires et qui s’écartent de leurs goûts habituels¹³.

Ces services doivent en effet faire face à une problématique fondamentale : pour satisfaire les exigences immédiates des utilisateurs a priori les moins ouverts, les algorithmes de recommandation misent sur la pertinence des résultats et ont tendance à prendre peu de risques. Cette stratégie, satisfaisante à court terme, pose néanmoins des difficultés pour correspondre à l’appétence des utilisateurs qui se lasseront sans doute à long terme. La capacité à orienter les usagers vers des contenus différents de ce qu’ils ont l’habitude d’écouter s’inscrit dans une logique concurrentielle de longue échéance.

Ainsi, la véritable question n’est pas tant celle de la responsabilité per se des algorithmes et de l’IA – outils techniques, qui peuvent intégrer par design, en amont, toutes les variables et données que l’humain leur fournit, y compris l’ouverture à la diversité – dans d’éventuels mécanismes d’enfermement ; mais bien plutôt d’interroger la transparence des principes régissant, sur chaque service, les mécanismes de tri des titres proposés.

1
Pour une présentation détaillée de ces distinctions, et pour une bibliographie plus complète sur le sujet de cet article, voir : Farchy J. et Denis J., La culture des données. Intelligence artificielle et algorithmes dans les industries culturelles, Paris, Presses des Mines, 2020.
2
Pour une analyse des enjeux juridiques, voir : Bensamoun A. et Farchy J., « Intelligence artificielle et culture », rapport du CSPLA, Paris, Ministère de la Culture, 27 janvier 2020.
3
Voir le site Internet de Flow Machines.
4
Sony CSL, « DeepBach. Harmonization in the style of Bach generated using deep learning », YouTube, 13 décembre 2016.
5
Sony CSL, « Daddy’s Car. A song composed with Artificial Intelligence – in the style of the Beatles », YouTube, 19 septembre 2016.
6
Rosen S., « The economics of superstars », The American Economic Review, vol. 71, n^o 5, 1981, p. 845-858.
7
Farchy J., Méadel C. et Anciaux A., « Une question de comportement. Recommandation des contenus audiovisuels et transformations numériques », Tic et société, vol. 10, n^o 2-3, 2017, p. 168‑198.
8
« Spotify achète la plateforme musicale intelligente The Echo Nest », Challenges, 6 mars 2014.
9
Pariser E., The Filter Bubble. What the Internet is Hiding from You, Londres, Viking-Penguin Press, 2011.
10
Eriksson M. et al., Spotify Teardown. Inside the Black Box of Streaming Music, Cambridge-Londres, MIT Press, 2019.
11
Datta H., Knox G. et Bronnenberg B. J., « Changing Their Tune. How Consumers’ Adoption of Online Streaming Affects Music Consumption and Discovery », Marketing Science, vol. 37, n^o 1, 2018, p. 5‑21.
12
Hesmondhalgh D., « Streaming’s Effects on Music Culture. Old Anxieties and New Simplifications », Cultural Sociology, juin 2021.
13
Anderson A. et al., « Algorithmic Effects on the Diversity of Consumption on Spotify », communication présentée lors du colloque The Web Conference 2020 (WWW ’20), Taipei, 20-24 avril 2020.

¹⁴

Tectonique de la musique

« La bamboche, c’est terminé ! »

Sommaire

Thématiques