Dix nouvelles raisons d’état d’indexer nos œuvres avec des métadonnées

Créer/Produire Indexer/Déclarer Distribuer CONSOMMER Mesurer Répartir

Jean-Robert Bisaillon 20190101 – En 2019, le Ministère de la culture du Québec consentira de nouveaux efforts et budgets à mesurer la visibilité et stimuler le rayonnement des œuvres québécoises sur Internet. Il est possible de consulter le cadre de référence de ces mesures sur le site du Plan culturel numérique du Québec http://culturenumerique.mcc.gouv.qc.ca/pole-visibilite-et-rayonnement/

Faire cela est important, mais aussi très complexe. Nos décideurs publics en comprennent-ils toute la portée? Assumons que oui. Enfin.

En 2016, j’avais publié un article qui évoquait 6 Raisons d’état qui justifiaient d’indexer un enregistrement sonore avec des métadonnées http://metad.media/fr/6-raisons-detat-dindexer-les-metadonnees-dun-enregistrement-sonore

En ce jour de lancement de médiumsaignant, j’ai décidé de revoir ces 6 motifs pour les porter à 10 et pour en faire ma résolution de 2019. Un tel chantier reflète on ne peut mieux l’importance de travailler collectivement, premier élément de la ligne éditoriale de médiumsaignant.media

Les 10 raisons d’état sont les suivantes :

  1. Attribuer les crédits aux artistes, ayants droits et contributeurs
  2. Lier artistes, ayants droits et contributeurs à des identifiants uniques
  3. Inclure un code géographique ou territorial
  4. Adopter les standards mondiaux DDEX
  5. Siéger sur les tables trans-nationales de définition des normes
  6. Tracer avec précision les usages des contenus
  7. Arrimer avec robustesse les fichiers binaires audio ou vidéo avec leurs métadonnées
  8. Développer un référentiel commun et exposer les œuvres et leur documentation sur les réseaux ouverts et liés
  9. Améliorer et mesurer la visibilité, le rayonnement, la découvrabilité des contenus
  10. Surveiller le respect de seuils en matière d’offre minimale
Board Bullseye – Crédit photo : Christian Gidlöf (Domaine public)

1. Attribuer les crédits aux ayants droits et contributeurs : une œuvre musicale enregistrée et numérisée est un code binaire orphelin qui ne dévoile rien de sa source et des ayants droits concernés si ces informations ne sont pas ajoutées aux fichiers audio ou ne sont pas liés aux bases de données corollaires. La compilation statistique des usages et la reddition de compte sont par conséquent faussées ou incomplètes.

Sont visés les auteurs, compositeurs, éditeurs originaux, interprètes et musiciens, producteurs initiaux, réalisateurs, studios d’enregistrement, etc.. Les politiques publiques de soutien à la production de contenus doivent inciter les bénéficiaires de mesures financières à incorporer les noms des ayants droits, contributeurs, ententes de répartition (Embedded Metadata – Blockchain), dans les conteneurs textuels des objets de propriété intellectuelle numérisés. Voir aussi la raison 7.

25% des contenus exploités par les plateformes de musique en-ligne ne sont pas arrimés aux ayants droits concernés…1

2. Toute œuvre de propriété intellectuelle ou contributeur à celle-ci doit être lié à un identifiant unique.

Les codes ISRC, ISWC, IPI, ISTC, IPN, ISAN, EIDR, DOI, ISNI sont des codes ISO ou industriels qui permettent aux machines et procédés informatiques de tracer les contenus et de discerner les homonymes (disambiguation).

Un identifiant approprié pour chacune des composantes du contenu est ce qui permet aux ordinateurs d’associer un enregistrement à l’oeuvre qu’il contient, aux paroles de cette chanson et aux contributeurs qui en sont les artisans et ayants droit, de renseigner numériquement l’intégrité de cette chaîne de valeur.

3. Les métadonnées doivent inclure un code géographique ou territorial pour tout objet de propriété intellectuelle ou contributeur de l’œuvre. C’est là la seule méthode qui permette la classification de l’origine des pays ou territoires de création et de production des contenus. L’usage des identifiants ISO3166-1, ISO3166-2, UN-LOCODE, GeoNames ou .kml (Keyhole Markup Language) sont nécessaires pour cela.

4. Les entreprises de production, de distribution et les usagers commerciaux d’œuvres numériques doivent adopter les standards mondiaux DDEX d’échange de données informatisé (EDI) (DDEX Message Suite Standards) qui incorporent les métadonnées : RIN (Recording Information Notification), ERN (Electronic Release Notification), MLC (Music Licensing Companies), DSR (Digital Sales Reporting).

5. Lorsque nécessaire ou possible, les associations et entreprises canadiennes, les instances chargées de définir nos politiques publiques doivent siéger sur les tables trans-nationales de définition des normes et standards du numérique (UNESCO, CISAC, ISO, DDEX, ACEI-ICANN, NCUC, ISOC, ISNI, W3C-RDF, IETF).

6. Permettre de circonscrire le quoi, qui, où et comment des contenus québécois et MAPL. Il faut savoir tracer avec précision les usages des contenus. Si les outils techniques pourront sous peu nous permettre de compiler plus systématiquement les usages, un effort politique sera nécessaire pour accroitre la portée du dépôt légal dans les bibliothèques nationales, effectuer un recensement annuel rigoureux des produits mis à disposition des publics et certifier le territoire de production ou de fixation des œuvres.

7. Que l’on croit ou pas en la pertinence et à notre capacité d’arrimer avec robustesse les fichiers binaires audio ou vidéo avec leurs métadonnées, c’est là un geste vertueux qui sous-tend une grande partie des efforts de documentation de la culture en ligne. Des efforts en matière de tatouage et de chiffrement des contenus ont cours et leur succès sera déterminant.

8. Pour tirer profit des progrès de l’intelligence artificielle, assurer la présence et le remontée de nos contenus culturels dans le web des données et les recherches vocales assistées, nous devons développer un référentiel commun et exposer les œuvres et leur documentation sur les réseaux ouverts et liés. Ce chantier permettra de plus de valoriser l’information saisie par la foule, par nos pairs et divers écosystèmes ouvertes existants.

9. Rétablir la relation entre les créateurs et les usagers, améliorer et apprendre à mesurer la découvrabilité des contenus dans l’offre numérique via les outils de playlisting et de recommandation. Utiliser des contenus enrichis et renouer avec les informations descriptives perdues lors du passage au numérique. Créer des listes d’écoute et des contenus éditoriaux, partager ceux-ci.

10. Sans prétendre que les nouvelles pratiques de mise à disposition et d’écoute, la numérimorphose, la musimorphose, menacent notre souveraineté et la diversité culturelle, il faut que les organismes canadiens d’application de la réglementation puissent surveiller le respect de seuils en matière d’offre minimale. Et tant mieux si les pratiques citoyennes et les robots de recommandation s’avèrent soutenir une fréquentation pérenne de notre culture!

Pour en lire davantage :

http://www.scoop.it/t/metadonnees-musicales-un-enjeu-de-diversite-culturelle

https://twitter.com/hashtag/musicmetadata

1http://www.nytimes.com/2016/03/18/business/media/spotify-reaches-settlement-with-publishers-in-licensing-dispute.html?_r=0

Comment fonctionne la recommandation musicale?

Jean-Robert Bisaillon 20181230 NOTE. Pour essayer de bien maîtriser les variables de la recommandation musicale, enjeu majeur de souveraineté culturelle, j’ai traduit en 2017 l’article classique de 2012 de Brian Withman – cofondateur de The Echo Nest, projet acquis par Spotify en mars 2014. Je le publie de nouveau en début 2019 sur médiumsaignant, après l’avoir relu et revu.

Traduit de http://notes.variogr.am/post/37675885491/how-music-recommendation-works-and-doesnt-work

Brian Withman @bwhitman

Jean-Robert Bisaillon @iconoclaste

Lorsqu’un logiciel de recommandation musicale vous fait une proposition, avez-vous l’impression qu’un programme informatique inintelligent tente de vous forcer un contenu qui ne vous intéresse pas le moins du monde? C’est souvent l’impression que l’on a – un ordinateur qui comprend vos goûts musicaux peut-il être autre chose que le fruit de la bêtise postmoderne? – et dans les faits c’est souvent ce qui se produit.

À quoi peut bien servir l’information à l’effet que si l’on aime un album des Beatles, il est possible que nous en aimions cinq autres? Amazon ne fait ici rien de bon pour soutenir la découverte d’un artiste indépendant en émergence, ni pour nous proposer une expérience musicale à valeur ajoutée. On s’en tient à utiliser la statistique pour faire davantage de gains commerciaux. Heureusement, ce type de proposition est le drosophile de la recommandation, l’infopub télé de fin de nuit en matière de qualité de prescription musicale. Sans aucun doute, Amazon ne prétend-t-il à autre chose. Plus récemment, nous avons passablement évolué et il existe de nombreuses méthodes fondées sur les propriétés de la musique et sur les habitudes d’écoute de nos amis et connaissances, pour nous faire découvrir la musique en ligne. Nonobstant cela, je déteste encore croiser des exemples navrants comme celui évoqué plus haut. Je déteste encore plus constater qu’il existe des initiatives en matière de recommandation musicale qui n’ont pas à coeur les mélomanes. Je me fais un devoir d’améliorer ce type d’expérience et je compte passer ici en revue les paramètres qui font que la recommandation fonctionne ou non. Pour cela, je me fonderai sur des exemples liés à l’application que je connais la mieux et que vous utilisez déjà, même si c’est parfois à votre insu : The Echo Nest. Plus encore, je souhaite me pencher sur ce qu’il est possible d’en tirer dans le futur.

Avant de me lancer dans ces explications, laissez-moi me présenter. Je travaille sur les engins de recommandation et de forage musical depuis 1999 tant sur un environnement académique (http://alumni.media.mit.edu/~bwhitman) qu’industriel. En 2005, j’ai co-fondé The Echo Nest avec Tristan Jehan. Aujourd’hui nos applications fondées sur divers algorithmes forts intéressants dérivés de nos essais universitaires et le travail soutenu de nos 50 employés à Boston, San Francisco, New-York ainsi que Londres, alimentent les découvertes de la plupart des services de musique en-ligne. Nous sommes actuellement survoltés – ayant annoncé au cours de la plus récente année des collaborations avec eMusic, Twitter, EMI, iHeartRadio, Rdio, Spotify, VEVO et Nokia – de nouvelles annonces étant imminentes – le tout s’ajoutant à nos clients actuels MTV, MOG et la BBC. De plus notre API (http://developer.echonest.com/) a permis à des dizaines de milliers de développeurs indépendants de créer des applications pour Discovr, KCRW, Muzine, Raditaz, Swarm, SpotON et une centaine d’autres. Nous avions jusqu’ici été une entreprise plutôt discrète, mais avec toutes ces nouvelles, vient une certaine confusion quant à nos services et à la place que nous occupons à l’égard des approches concurrentes. La presse a tendance à nous coller une approche “machine” qu’elle juxtapose à la démarche dite “humaine” de Pandora, l’acteur complémentaire en ces matières. Cette réduction de la problématique est plutôt injuste. En effet, comme tout le monde, nous utilisons des programmes informatiques pour traiter des montagnes de données musicales, et nous ne négligeons pas davantage l’approche humaine que nos concurrents.

J’aborderai des concepts technologiques tels le filtrage collaboratif, la recommandation fondée sur les contenus qualitatifs (content-based) ainsi que les approches manuelles utilisées par Pandora et All Music Guide (Rovi). Je démontrerai que peu importe l’approche informatique mise en oeuvre, ce sont les sources de données – comment elle permettent de connaître la musique – qui constituent le patrimoine sur lequel se fonde tout service de découverte musicale fiable.

Qu’est-ce que la recommandation? En quoi est-elle utile?

Les musiciens sont de millions à tenter de s’imposer auprès des auditoires et de se démarquer les uns des autres. De nos jours, il est possible d’avoir gratuitement accès à près de 15 millions de chansons – ce n’est pas la faute des auditeurs s’ils négligent une proposition qui pourrait les renverser. Pour un musicien qui comme moi est devenu informaticien (comme c’est aussi le cas pour de nombreux de mes collègues) – il s’agit de la théorie à variable cachée ultime. Si un engin intelligent permettait de prédire le mariage parfait entre un musicien et un mélomane, les deux vis-à-vis seraient gagnants. Or, la musique est fascinante, elle est constituée d’une multitude de données et la problématique est encore loin d’être résolue… Quiconque est actif dans le domaine des technologies et de la musique se doit de manifester du respect pour le champ de la découverte musicale assistée : il ne s’agit pas d’une question de revenus des ayants droit, il ne s’agit pas de technologies à l’état pur, il ne s’agit pas de statistiques de clics, d’heures d’écoute ou de facteurs de conversion des internautes. Au delà de ces considérations, les récentes années ont démontré à quel point les divers filtres et guides sont devenus vitaux pour que la musique elle-même existe et co-existe dans les environnements numériques, pour que nous y ayons accès. Nous enregistrons désormais des données pour plus de 2 millions d’artistes et estimons qu’ils sont davantage au nombre de 50 millions, pour la plupart actifs. Tous méritent la chance d’être entendus. Si nous pouvons nous moquer d’Amazon lorsqu’il nous suggère un CD de Norah Jones après avoir acheté une souffleuse à neige, il en est tout autre lorsque Pandora passionne des millions d’auditeurs qui y découvrent un nouvel artiste. Les technologies de recommandation alimentent les nouvelles formes de radiodiffusion et la chance nous est donnée d’en faire un outil de valorisation pour davantage que la courte tête du top 5% des artistes.

Lorsque les gens évoquent la recommandation et la découverte musicale ils veulent habituellement parler de l’une des ces quelques variantes :

Similitude des artistes ou des pièces musicales : une liste anonyme de propositions semblables à votre requête. Répandu chez presque la totalité des services de musique en ligne. Pas d’éléments de contextualisation, que des similitudes avec les artistes ou chansons que nous cherchions. Dans les faits, s’il ne s’agit d’une recommandation dans la mesure où les listes générées sont le résultat d’une requête de départ par l’usager (telle une recherche en ligne basique), il ne s’agit pas d’un modèle usager automatisé, ce que nous appellerions alors véritablement une recommandation.

Recommandation personnalisée : fondée sur un profil usager spécifique (le vôtre – vos écoutes, vos sauts, vos niveaux d’appréciation ou vos achats), une liste de pièces que vous ne connaissez probablement pas mais qui correspondent à vos habitudes.

Liste d’écoute créées automatiquement (intelligente) : Les clients des services de découverte musicale en ligne font appel à diverses formes de création automatisée de listes d’écoute. Ce service se distingue des approches mentionnées ci-haut, dans la mesure où l’on reçoit une liste séquentielle de titres. Ces listes peuvent être personnalisées (à partir de votre profil) ou non, générées à partir de votre librairie musicale (par ex. iTunes Genius et Google Instant Mix) ou non (Pandora, Spotify, Rdio ou encore iHeartRadio.) Les listes ainsi générées devraient évoluer et pour plusieurs cette évolution est fonction d’indications de l’usager (sauts, j’aime etc.).

La découvertes chez divers services populaires…


Personalisées Anonymes
Listes d’écoute Pandora Rdio
Suggestions Amazon All Music Guide

J’évoquais trois approches très différentes de proposer la découverte, mais qu’importe celles-ci, il s’agit essentiellement d’applications qui reposent sur un même noyau de données. Par exemple chez The Echo Nest, nous tâchons de construire des listes de lecture émulant l’expérience de la radiodiffusion et reposant sur nos observations statistiques, les propriétés acoustiques, le contrôle de la qualité – nos trois API – API basée sur les similitudes, API de profilage des goûts (recommandations personnalisées) et API de production de listes d’écoute, sont créées à partir de la même base de connaissances compilées par nos analyses des propriétés qualitatives acoustiques de la musique et de nos travaux d’analyse sémantique.

Ces applications sont significatives pour les auditeurs. Les gens aiment les liste d’écoute et les flux analogues à la radiodiffusion, qu’importe si les données à la base d’expériences d’écoute, tout comme les ennuyantes listes d’écoute textuelles sont essentiellement fondées sur les mêmes références. Un des plaisirs de travailler chez The Echo Nest est de découvrir les usages qui se créent avec ces références, par la communauté, en matière d’interfaces et expériences usager. Les usagers veulent de la musique, que cette expérience soit ludique tout en reposant sur un service fondé sur un niveau de confiance optimal. Suivant cette logique, un service comme Pandora ne perdrait rien de ses actuelles qualités s’il était alimenté par The Echo Nest et gagnerait par ailleurs sur le plan de la profondeur de son échelle en matière de découvertes. Ceci constituerait une bonification de l’expérience. Compte tenu de la démonstration que nous avons fait de notre capacité à optimiser le recours aux données, il est moins important de parler de tels services que de leur véritable connaissance fine de la musique mise au profit des auditeurs – qu’importe comment ils ont été en mesure d’associer deux artistes obscurs tels Kreayshawn et Uffie. Nous laissons ces considérations aux blogueurs musicaux.

Voici ce que mes observations savantes déduisent (je n’en sais rien avec certitude sauf pour The Echo Nest) quant aux méthodes de constitution des données des services de recommandation :

Sur quelles approches les services les plus populaires fondent-ils leurs recommandations?

Service Source de données
Pandora Sondages auprès d’experts
Songza Experts et mélomanes créent des listes d’écoute
Last.fm Données d’activité, tags usagers, analyses acoustiques1
All music guide Rédacteurs experts
Amazon Historique des achats et de la navigation
iTunes Genius Historique des achats et données d’activité sur iTunes2
Echo Nest Analyses acoustiques et analyses sémantiques

Bien qu’il existe plusieurs autres services de découverte musicale, cette liste couvre le spectre entier des approches. La plupart des services que vous utilisez utilisent soit ces plateformes en direct (Last.fm, Echo Nest, AMG all license data ou encore en accédant aux données de celles-ci via les API) ou utilisent des approches suffisamment similaires pour ne pas justifier que nous les approfondissions davantage.

Nous pouvons extraire de cette liste un nombre plutôt restreint de méthodes déterminantes en matière de constitution de données : (1) Données d’activité (activity data), (2) Contenus éditoriaux, (3) Analyses acoustiques et (4) Analyses sémantiques.

Les deux premières catégories ont des noms plutôt descriptifs : il est possible d’en apprendre sur la musique par les activités qu’elle génère – les écoutes, les achats, les votes d’appréciation – Kreayshawn et Uffie sont considérés similaires puisque les mêmes personnes achètent leurs simples ou leurs donnent des notes élevées; il est aussi possible de connaître la musique par la lectures de critiques, de textes et chroniques spécialisées. Par ailleurs, il est assez récent que des bases de données servent à stocker des activités d’écoute ou autre, générées par filtrage collaboratif, moissonnage des préférences en matière de goût et notes appréciatives compilées par sondage ou saisies par l’usager.

Les deux catégories suivantes, soit les analyses acoustiques et sémantiques, ont été développées par les praticiens de notre industrie en réponse aux insuccès des résultats générés par les premières. Je les aborderai plus en détail puisque ce sont celles qui créent la magie propre à Echo Nest.

Souci et échelle

Dès le départ, les principes à la base de l’approche de découverte Echo Nest sont “le souci et l’échelle.” Lorsque Tristan et moi avons démarré la société en 2005, nous étions deux nouveaux docteurs en analyse musicale munis d’idées pas vilaines du tout sur le plan technologique. Tristan davantage dans le champ de l’analyse acoustique (soit un ordinateur qui génère du sens à partir d’un signal audio) et moi qui maîtrise le moissonnage de données et l’analyse langagière (ce que les gens disent et font de la musique et ce que nous pouvons en tirer). Nous avions sondé l’offre en matière de découverte musicale assistée pour nous apercevoir qu’essentiellement chacune souffrait d’un manque de souci du détail ou de la faiblesse de l’échelle des données qui l’alimentait – parfois et souvent des deux lacunes. Notre motivation à mettre en oeuvre une  »startup », alors que nous n’en avions pas le profil, découle de notre sentiment de pouvoir résoudre ensemble cette problématique.

Souci : « est-ce utile pour le musicien ou l’auditeur » – Échelle : « Savons tout ce qu’il faut savoir »

La notion de taille d’échelle est facile à expliquer : il vous faut connaître au maximum la musique afin de faire des recommandations justes. Si vous ne connaissez pas un artiste en émergence, vous ne pouvez le recommander. Si vous analysez, notez ou comprenez uniquement les offres les plus populaires et évidentes vous commettrez une erreur systémique. Par essence les approches de recommandation entretenues manuellement ne parviennent pas à atteindre un taille d’échelle significative. Nous suivons l’activité de plus de 2 millions d’artistes et 30 millions de chansons et il serait impossible pour un service rédactionnel de maintenir une veille sur autant de données possibles. Même les plateformes entretenues par les bénévoles ou la communauté ne peuvent compter sur des ressources suffisantes – il n’y a que 130 000 pages artistes dans Wkipedia et Pandora vient tout juste de croiser le seuil du million d’artistes après 10 ans d’efforts. Si vous tentez de trouver un nouvel artiste sur Pandora vous obtiendrez fatalement :

Pandora affiche ici la faiblesse de son échelle. Il s’écoulera longtemps avant que la plateforme n’obtienne d’informations sur YUS (http://soundcloud.com/yusyusyus/nowadays) et peut ne jamais en obtenir si l’artiste vends peu. C’est là une mauvais nouvelle qui pourrait vous mettre en colère : pourquoi laisseriez-vous une tierce partie agir tel un filtre culturel sur votre propre expérience de la musique? Pourquoi utiliseriez-vous un service de découvertes qui vous  »cache » des informations?

Les approches fondées sur les données d’activité ( Last.fm, Amazon et iTunes Genius) souffrent elles aussi d’un problème de taille d’échelle qui se manifestent un peu différemment. Il devient souvent trivial ou impertinent de charger une base de données de titres musicaux dans un environnement destiné à produire des recommandations automatiques fondées sur des données d’activité (tel le filtrage collaboratif ou la production folksonomique). Je me suis fréquemment attaqué à la naïveté de telles méthodes. Si un service de musique en ligne dispose de données d’activité (par exemple l’utilisateur A a acheté/écouté la pièce Y au moment Z), ses ingénieurs seront systématiquement tentés d’activer les fonctions de recommandation qu’importe s’il en résulte des résultats de mauvaise qualité. Il semble exister une facilité contradictoire à ne pas se soucier de faire de mauvaises recommandations. Il en fut de même lorsque je tentai récemment d’acheter un transistor dans une boutique en ligne :

Outre faire des recommandations impertinentes, ces approches souffrent souvent de biais culturels fondés sur la popularité où de nombreuses propositions ne génèrent simplement pas assez de données d’activité pour donner au système d’automation la chance de produire un résultat de correspondance. Ces systèmes ne peuvent faire mieux que ce que leurs utilisateurs ont bien voulu leur dire et par conséquent de nombreuses propositions musicales moins populaires éprouvent d’énormes difficultés à se démarquer.

Le souci du détail est quant à lui un concept plus difficile à cerner et nous lui avons dédié beaucoup d’efforts pour le définir et l’encoder dans nos produits. Je traduirai ce concept par un simple questionnement : est-ce utile pour le musicien ou l’auditeur? Un examen de passage efficace pour vérifier une recommandation d’artiste ou de chanson similaire consiste à utiliser les Beatles. Ne s’agira-t-il que de projets solos des membres du groupe? Pour la plupart des services voici ce qu’on l’on obtient en effet :

On a ainsi affaire à un résultat exact sur le plan statistique, mais d’aucun intérêt en matière de découverte musicale3.

Les données d’activité peuvent nous en dire énormément sur les habitudes d’écoute, mais ne pas être utiles en matière de découvertes. Utilisées comme nous venons de le voir, elles trahissent un grand manque de souci du détail de la part du service de recommandation. Le souci est présent dans les approches sociales, manuelles, éditoriales car les humains y excellent. Mais lorsque nous utilisons des méthodes automatiques d’analyse statistique ou de signal audio afin de générer une meilleure amplitude d’échelle, il faut aussi y manufacturer un certain souci du détail. Les approches purement automatiques (tel l’exemple tiré de Mufin qui suit) sont médiocres sur le plan du souci du détail et de la qualité :

Le souci du détail constitue une couche additionnelle d’assurance de qualité qui doit venir s’appliquer sur toutes les approches automatiques. Vous devez pouvoir assumer les résultats que vous proposez et en résoudre les failles dès qu’elles ne sont plus utiles aux musiciens ou aux auditeurs. Votre score de médiocrité (What the F… WTF ) (http://musicmachinery.com/2011/05/14/how-good-is-googles-instant-mix/) doit être le plus bas possible! Nous consacrons beaucoup d’efforts à inscrire les valeurs du souci dans nos produits et aimons généralement les résultats qu’il produisent :

Un environnement qui ne respecte pas les notion de souci et d’échelle ne peut se mériter la confiance des auditeurs et l’assurance d’être utile pour les musiciens. Il échoue auprès des deux publics qui lui donnent sa raison même d’exister.

J’ai débuté mes travaux d’analyse musicale en 1999 au NEC Research Institute de Princeton au New Jersey (je suis parvenu à force d’astuces et pressions à y obtenir un stage puis un emploi permanent). Le NEC regroupe alors la crème des scientifiques engagés dans les recherches sur le forage de données, les fouilles sémantiques, l’apprentissage automatique et le traitement automatique du langage naturel (NLP4).

J’ai eu la chance de travailler avec Steve Lawrence (http://en.wikipedia.org/wiki/Steve_Lawrence_(computer_scientist)), Gary Flake (http://en.wikipedia.org/wiki/Gary_William_Flake), David Waltz (http://www.nytimes.com/2012/03/24/science/david-l-waltz-computer-science-pioneer-dies-at-68.html) et Vladimir Vapnik (http://en.wikipedia.org/wiki/Vladimir_Vapnik) a même repris mon minuscule bureau lorsque je suis parti pour le MIT.

J’étais là à me chercher après avoir abruptement quitté mon programme de doctorat en NLP à l’Université Columbia. J’étais aussi un musicien et donnait plusieurs concerts dont un certain nombre dans des entrepôts abandonnés et des bars “bruns”, endroit où 20 clients pouvaient se présenter et que seulement la moitié savait qui vous étiez. Il y avait à ce moment là un réel engouement pour “the future of music” – bien davantage qu’en ce moment, car nous sentions que les forces positives vaincraient et rapidement. Lorsque je me suis connecté la toute première fois sur Napster avec ma ligne DSL je me suis régalé de constater que pour la première fois je pouvais télécharger une chanson en moins de temps qu’il ne fallait pour l’écouter. C’était le point de bascule pour l’accès à la musique, mais peut-être aussi un important recul pour la découverte. Nous étions coincés avec ce genre de résultats :

La recherche nécessaire est abyssale : recherche sur des tags ID3v1 (contenant un maigre 32 caractères pour chaque rubrique artiste, titre, album, un seul octet pour le genre)(http://notes.variogr.am/post/225922016/armed-forces-in-alphabetical-order-archive), sur un nom de fichier obscur (“C:\MUSIC\MYAWES~1\RAPSONG.MP3”), impossible de faire des recherches sinon en fouillant les disques durs d’autres usagers. Bien que je rende ma musique disponible, personne ne la télécharge puisqu’il est impossible pour le public de la découvrir. Un ami obtient davantage de résultats en falsifiant le nom de ses fichiers pour leur ajouter la mention remixage par APHEX TWIN…

J’étais abonné à plusieurs listes de distribution, groupes USENET, lecteur d’un nouveau truc qu’on appelle “weblog” et de sites d’actualités musicales. Pour moi, si l’écoute musicale est une pratique très privée (souvent dans des écouteurs bien étanches), sa découverte est très sociale. Rapidement, je me suis dit qu’il devait y avoir une façon de tirer profit de toutes ces conversations entourant la musique – pourvu qu’il soit possible d’en automatiser la procédure. Est-il possible pour un ordinateur de lire tous ces articles? Si un mélomane parlait de ma musique dans un recoin du Web, le système devait le savoir!

Taille d’échelle et souci : des personnes en chair et en os qui alimentent un système automatisé de grande taille qui ne requiert pas de manipulation humaine, de remplir un sondage, de créer un profil sur un réseau socionumérique. Après près de dix ans de forage de données, de recherches sur la musique et le langage (d’abord à NECI, puis en préparant mon doctorat au Media Lab du MIT) The Echo Nest est présentement le seul service d’analyse musicale à adopter cette approche. Notre approche fonctionne. Nous fouillons le Web en permanence, répertoriant le contenu de plus de 10 millions de pages liées à la musique par jour. Nous utilisons des méthodes de filtrage afin de soustraire les contenus inappropriés de nos résultats, nous sommes en quête des noms d’artistes dans de volumineuses masses de contenus sémantiques (http://notes.variogr.am/post/6687194793/the-echo-nest-puddle-and-artist-entity-extraction) et tamisons le texte autour de ces résultats. Tous les termes associés à la musique que quiconque utilise en ligne est moissonné par nos systèmes qui, à la recherche de termes descriptifs, noms, mots que nous nommons  »vecteurs culturels » et  »termes phares » (top terms), les classent dans des conteneurs. Chaque artiste, ses oeuvres et enregistrements, possèdent ses termes phares qui évoluent quotidiennement. Ces termes sont associés à des valeurs de pondération qui nous indiquent les probabilités de les voir associés à des descriptions musicales.

Nous n’utilisons pas de vocabulaire contrôlé et sommes en mesure d’assimiler les nouveaux termes musicaux aussi rapidement qu’ils apparaissent. Nos systèmes fonctionnent avec plusieurs langues latines de nombreuses cultures. En plus de ce travail statistique autour de procédés de traitement automatique du langage naturel, nous utilisons des données structurées par un nombre important de partenaires et de sites communautaires aux données accessibles tels Wikipedia et MusicBrainz.

Nous appliquons semblables approches rigoureuses et vectorielles (vecteurs culturels) aux bases de connaissances structurées : si Wikipedia indique que le lieu de résidence d’un artiste est NYC, sa maison de disques est basée à New-York, NY et que sa page Facebook indique la mention “EVERYWHERE ON TOUR 2012”, il nous faut savoir quelle information retenir aux fins d’indexation. Souvent, les données ou vecteurs culturels des bases structurées sont la résultante d’une synthèse de plusieurs sources de données différentes. Lorsqu’une requête est traitée par notre système et ayant pour objectif de proposer un artiste similaire ou une liste d’écoute pertinente, nous utilisons les vecteurs culturels de l’artiste ou la pièce source pour générer les correspondances en temps réel. Ceci n’est pas simple à réaliser dans une base de grande échelle, mais au cours des années, nous sommes parvenus à effectuer suffisamment de réduction de données massives (big data parsing) pour permettre une gestion efficiente des requêtes. Nous ne conservons pas ces données et correspondances en mémoire cache parce que les paramètres évoluent constamment – la conversation qui a cours autour de la musique est très capricieuse et le son d’un artiste peut se transformer du jour au lendemain.

Quantité de données utiles ne relèvent pas d’une analyse culturelle de la musique : le volume de conversations est plutôt utile pour nous renseigner sur la notoriété circonstancielle, temporelle d’un artiste. Nous utilisons anonymement les contenus textuels que nous recensons au titre de données d’auditoires sans devoir dépendre de données provenant de service d’écoute en ligne. Nous archivons enfin une documentation liées aux artistes et aux enregistrements puisqu’elle représente une valeur confirmée pour nos clients – notamment en mode recherche ou fil d’actualité (feed) – nous proposons des critiques, de la nouvelle.

Internet n’est pas La Bibliothèque de Babel que nous croyons être et souvent les musiciens moins populaires sont négligés par les  »univers culturels » que nous fréquentons. De plus, les descriptions des univers musicaux négligent souvent les éléments qui décrivent véritablement la musique pour privilégier les potins, l’angle de la célébrité, données certes pertinentes, mais loin de constituer les seules sources utiles. Cette problématique est fort bien illustrée par une recherche Google sur Rihanna (https://www.google.com/search?q=rihanna&oq=Rihanna&aqs=chrome.0.69i59j0l5.2375j0j9&sourceid=chrome&ie=UTF-8). Enfin, l’activité en ligne se concentre en majeure partie sur les artistes alors que les chansons sont négligées – malgré quelques discussions sur les enregistrements et les oeuvres. Ces divers enjeux (tout comme la logique du bon sens) nous obligent à nous questionner sur notre capacité de décrire à la fois le son d’un enregistrement et la représentation que se font les auditeurs de son interprète et de l’oeuvre. Si nous voulons faire tout cela avec un souci de qualité et selon une échelle significative, nous devons le faire en usant de procédés automatisés et d’ordinateurs assumant une écoute attentive.

Un ordinateur peut-il véritablement écouter de la musique? Plusieurs affirment cela depuis longtemps, mais personnellement je n’ai jamais entendu une liste de recommandation entièrement automatisée, fondée strictement sur l’analyse acoustique qui soit convaincante – j’ai tout exploré, lu toutes les études scientifiques, testé les projets des  »start-ups », ceux des grandes corporations et notre propre technologie. Ces enjeux sont liés aux attentes des auditeurs. Les ordinateurs sont doués et rapides pour exécuter certaines tâches telles déterminer le tempo, la tonalité, l’amplitude sonore. Ils le sont moins pour d’autres tâches, jusqu’à ce que la technologie évolue : détecter la signature rythmique, transcrire une mélodie dominante ou identifier le timbre d’instruments spécifiques. Mais même si un ordinateur parvenait à effectuer toutes ces tâches, est-ce que ces informations se traduiraient par de meilleures recommandations? Probablement pas. Avec le temps, nous avons fait la démonstration que les attentes des gens à l’égard de facteurs telles la  »similitude » – tant pour une liste d’écoute, qu’une liste d’artistes ou de pièces – sont teintées d’un fort déterminisme culturel qu’aucun ordinateur ne peut déduire seul se fondant sur l’analyse d’un signal audio.

Cela dit, l’analyse acoustique joue malgré tout un rôle majeur dans la conception de nos algorithmes. Les auditeurs s’attendent des listes d’écoute qu’elles offrent des transitions souples et agréables. Une pièce calme ne doit pas être suivie d’un  »riff » métal extrême (sauf si c’est ce que l’auditeur a délibérément demandé). Pour les activités sportives, le tempo devrait s’accélérer progressivement. Une liste bien mixée devrait conserver des arrangements relativement homogènes. Les pièces doivent s’imbriquer les unes dans les autres comme si un DJ était aux commandes, conserver un tempo stable et des tonalités harmoniques.

Finalement, tous ces paramètres et considérations posent des questionnements au niveau de l’interface usager. Est-ce qu’on veut avoir affaire à une  »interface de recherche super débile » où un auditeur pourra effectuer une requête par tonalité ou encore dynamique de l’amplitude sonore? Un de nos premiers produits conçus par Tristan proposait un bouton qui permettait de répéter un segment de chanson en boucle (voir un remix automatisé de 10 minutes d’une pièce de Phoenix)(http://dl.dropbox.com/u/394242/mp3s/phoenix_10.mp3) – ce bouton est devenu plus tard le  »Paul’s amazing Infinite Jukebox » (http://infinitejuke.com/) – ce type d’expérience fascine les chercheurs qui se penchent sur de nouvelles approches d’écoute musicale qui pourraient un jour devenir plus importantes que la notion même de découverte assistée.

The Echo Nest audio analysis engine (PDF – http://docs.echonest.com.s3-website-us-east-1.amazonaws.com/_static/AnalyzeDocumentation.pdf) contient une série de processus d’écoute informatisés qui permettent des interactions de faibles niveaux (par exemple le moment où débute chaque premier temps d’une mesure) ou de niveaux élevés (telle les qualités dansantes) de n’importe quelle pièce de musique au monde. Nous analysons toute la musique qui nous est soumise et les développeurs tiers peuvent soumettre leurs propres contenus audio à nos API afin de constater tout ce que nous générons comme information sur ceux-ci. Nous débutons nos processus d’analyse par émuler l’oreille et modelons les paramètres de fréquence et amplitude selon une approche perceptuelle similaire à celle employée par les codecs de numérisation comme le MP3 et e AAC. Par la suite, nous segmentons l’audio en multiple parcelles – de 200 mili-secondes à 4 secondes – pour refléter l’activité de la pièce. Pour chacun des segments il nous est possible de dire la tonalité (selon la gamme chromatique de 12 tons/vecteurs que nous appelons chroma), le volume (ou amplitude, selon un modèle ADSR – Attack/Decay/Envelope/Sustain), puis le timbre selon un nouveau modèle vectoriel à 12 facteurs (dimensions) qui nous renseigne sur la nature du son, la présence de divers instruments, la saturation etc. Ensuite nous documentons le tempo par subdivisions (VU métriques) que nous nommons tatums, que nous appliquons aux mesures et à la structure des pièces, que nous nommons selon les pratiques de la composition soit intro, couplet, refrain, pont. Ces informations de faible niveau sont ensuite bonifiées par des applications d’apprentissage machine et d’intelligence artificielle que Tristan et son équipe ont conçues au fil des années et qui permettent une compréhension des chansons d’un niveau supérieur. Nous statuons sur des attributs associés aux chansons tels la  »dansabilité », l’énergie, la tonalité, la vivacité, la teneur en contenus vocaux qui nous permettent d’établir la nature de chaque chanson en lien avec des repères flottants placés sur celles-ci. Ces attributs sont à nouveau dérivés d’observations effectuées sur de larges bancs de tests heuristiques et statistiques : nous travaillons avec des musiciens et avec leur expertise à évaluer nos modèles à l’aide véritables données audio corroborées par ces derniers. Nos analyses audio peuvent être comparées à des partitions informatiques en mesure de témoigner de la vitesse, de progressions du volume sonore, de la présence d’instruments spécifiques. Les données générées par nos analyses sont à ce point granulaires qu’il est possible de les utiliser pour générer des remixages automatisés (http://echonest.github.com/remix) dont les coupes sont impossibles à repérer pour l’auditeur5.

Nous n’utilisons jamais un seul type de données d’analyse pour effectuer nos recommandations. Nous juxtaposons toujours nos données culturelles et nos analyses acoustiques du signal pour trier les résultats. Il est particulièrement révélateur de tester les engins de recommandation avec des ballades de groupes heavy métal – nous nous attendrons à obtenir d’autres ballades par des groupes heavy métal. Pour y parvenir il est essentiel de combiner les analyses culturelles et acoustiques. Les informations acoustiques seront déterminantes pour conserver l’ambiance et la cohérence de la liste d’écoute recommandée.

Quoi encore…

Je le répète, j’ai testé toutes les approches de recommandation automatisées, les technologies et les services en ligne. C’est mon travail. J’ai été étonné de constater les progrès et le développement de la maturité des approches tant en recherche académique que dans l’offre commerciale. Nous avons fait un long parcours depuis RINGO (http://jolomo.net/ringo.html) et bien que l’approche Echo Nest se démarque sur le plan de la qualité brute de ses résultats, nous avons encore beaucoup de chemin à parcourir. Deux courants émergents qui se profilent à l’horizon auront tôt fait d’enflammer l’univers des propositions actuellement disponibles :

Les approches sociales de découvertes de mes applications musicales favorites This is my jam (http://thisismyjam.com/) et Swarm.fm (http://swarm.fm/), les alertes d’activité musicale de nos amis Facebook et la diffusion en temps réel de services comme Turntable.fm ne proposent pourtant pas de recommandations automatisées. Les recommandations musicales des amis selon les dynamiques F2F (Friend-to-friend) que permettent les réseaux socionumériques sont extrêmement riches pour la découverte (et j’y recours fréquemment). Par contre ce ne sont pas des moteurs automatisés et ces approches ont peu de chance de prédire les attentes, ils échouent souvent en matière de taille d’échelle pour permettre les découvertes véritablement inattendues.

Même si ce n’est pas l’objet de cet article, il ne faut pas négliger la puissance de la recommandation sociale. Il existe une dimension très séduisante et personnelle dans ces approches : beaucoup de gens n’aiment pas l’idée qu’un ordinateur leur dicte quoi faire. Il existe de nouveaux services qui mélangent habilement les deux approches. L’option des  »related jams » du service This is my jam en est un, tout comme les nouvelles options “Discover” (http://www.spotify.com/us/blog/archives/2012/12/06/discover/) de Spotify. Les recommandations pourraient devenir des facteurs d’enrichissement de votre vie sociale en ligne : il n’est pas dit que si vos amis n’ont pas encore repéré FranOcean que des signaux ne sont pas observables à l’effet qu’ils le feront sous peu, le filtrage social nous y mène. Le fait que ces propositions puissent émaner de vos amis a beaucoup plus de valeur que lorsqu’un système automatisé vous recommande une  »liste d’artistes que vous pourriez aimer ».

L’intelligence des auditeurs

Quand écoutez-vous de la musique? Est-ce le matin en vous rendant au travail? Les fins de semaine en vous reposant à la maison? Lorsque vous le faite, est-ce que vous privilégiez des albums complets, les pièces individuelles d’une liste compilée? Est-ce que vous syntonisez aléatoirement une station automatisée ou écoutez-vous vos propres compilations? S’il pleut ou neige, risquez-vous de modifier vos choix? L’élément le plus déstabilisant de cette quête pour la recommandation parfaite et ce qui est aussi vrai pour notre propre système, c’est qu’aucune approche ne tient compte de cette dimension contextuelle de l’auditeur. Beaucoup de projets se développent en ce sens, tant chez nous et que nous ne pouvons encore dévoiler, que chez Spotify ou Facebook. Nous consacrons d’importantes ressources à notre projet  »taste profile » (http://developer.echonest.com/raw_tutorials/catalog_api/what.html) – l’API qui dévoile l’activité musicale sur nos serveurs et qui une forme de scrobble 2.0 (http://en.wiktionary.org/wiki/scrobble) et qui présente à la fois l’activité d’écoute et nécessairement certains éléments de contexte qui l’entoure : vos patterns de comportement, vos collections musicales, vos écoutes agrégés sur plusieurs services différents et possiblement sur des domaines (URL) spécifiques.

Nous publions désormais des API qui permettent l’analyse d’activités globalisées (http://blog.echonest.com/post/33229165293/taste-profiles-go-public) afin de faire apparaître des phénomènes de popularité, de modes provisoires. Il s’agit de bien plus qu’un simple forage d’activité faisant appel au filtrage collaboratif : nous devrions parvenir à comprendre les motivations de l’auditeur au delà de simplement profiler ses goûts en nous basant sur ses achats et ses activités d’écoute en ligne. Comprendre complètement la musique et l’auditeur auquel elle est destinée – l’ultime frontière de la recommandation.

1 Je sais qu’il font de l’analyse acoustique, mais ne sais pas à quel point ils en font usage pour les flux radio et les recommandation d’artistes similaires

2 Ils utilisent la base CDDB de Grancenote, mais je ne sais dans quelle mesure cet usage est appliqué à Genius

3 Il est même possible d’affirmer que si vous écoutez les Beatles, vous en céoutez aussi les membres au même moment… Mais n’allons pas trop vite.

4Je vais ici référence à la véritable pratique scientifique de traitement automatique du langage naturel

5 Publié sous l’exemple Earworm (http://blog.echonest.com/post/597162554/earworm-and-capsule dans le Echo Nest Remix (http://github.com/echonest/remix).