UA-69286360-1

Ok

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies. Ces derniers assurent le bon fonctionnement de nos services. En savoir plus.

10/06/2013

Méta-données ?

Le rapport Lescure, paru fin mai 2013, contient des propositions nouvelles et intéressantes...

C'est bien la première fois qu'un rapport commandé par le pouvoir politique expose avec autant de clarté la question des "méta-données", qui permettent en informatique de créer "en-tête" d'un fichier une description du contenu de ce fichier !

Depuis 50 années les informaticiens s'évertuent à "indexer" le mieux possible les données : indexation en texte intégral, indexation en mots-clés et à stocker sous forme relationnelle ces données innombrables.

Des langages ont même été créés pour faciliter ce travail : balises XML, permettant de ne plus "trimballer" des descriptions extérieures de fichier. Dans le domaine financier XBRL utilise la même technologie pour présenter les documents financiers d'entreprises.

De nombreux organismes d'Etat disposent aujourd'hui d'énormes bases de données, dont l'accès n'est pas forcément ouvert au public, selon des organisations fort diverses et non normalisées...

La grande question, posée par le rapport Lescure, est, à l'image des travaux anglais, de normaliser et d'ouvrir ces "registres" de méta-données. Au fond un partage de l'information à l'échelle de notre pays dans les domaines juridiques, littéraires, de l'image et de la vidéo...

Face à la montée en puissance des bases de données privées universelles (Google, Apple, Microsoft et Amazon), l'Etat Français souhaiterait maîtriser et organiser la manière de faire, ainsi que le partage !

L'internet et les logiciels d'aujourd'hui permettent d'accéder à toute le richesse des informations du monde...
à condition de pouvoir utiliser ces "méta-données", le sésame de demain pour une plus grande liberté !


Rapport LESCURE, Culture-Acte II
Mai 2013

C-14. LES MÉTADONNÉES CULTURELLES

1 LES MÉTADONNÉES SONT L’ADN DES CONTENUS CULTURELS
Les métadonnées désignent l’ensemble des informations décrivant une ressource quelconque, numérique ou non.
Leur fonction première est de décrire le contenu de la ressource, tout en permettant de l’identifier, de le qualifier et de l’enrichir ; elles ne sont pas nécessairement contenues dans le document lui-même. Dans le domaine de la diffusion numérique des oeuvres culturelles, les métadonnées revêtent des enjeux particuliers. Selon une métaphore d’un auditionné, elles sont l’ADN des contenus culturels.

1.1 PROTECTION DES DROITS ET RÉMUNÉRATION DES CRÉATEURS

Des métadonnées fiables sont cruciales pour la protection des droits et la juste rémunération de l’ensemble des acteurs de la chaîne de création. Cette réalité, qui préexistait au numérique, est encore plus évidente à l'heure de la démultiplication des circuits de diffusion des contenus culturels et de croissance exponentielle du nombre des transactions. Comme le souligne la Linked Content Coalition (cf. infra), dans l’environnement numérique, « toute transaction relative à un contenu créatif est, beaucoup plus que la simple délivrance de ce contenu, une transaction de
droits, autorisant l’accès à ce contenu et son utilisation ».

Ainsi, les métadonnées sont indispensables à la « remontée des recettes » en direction des auteurs, artistes interprètes et producteurs ou éditeurs des oeuvres exploitées par les plateformes d’offre légale (établissement des relevés de diffusion et des rapports de vente, répartition des droits d’auteur et des droits voisins par les SPRD, rémunération des artistes par les producteurs…). Elles sont nécessaires à l’identification des titulaires de droits habilités à demander le retrait d’oeuvres exploitées sans leur autorisation. Elles permettent aussi à ceux qui souhaitent utiliser une oeuvre dans le respect des droits moraux et patrimoniaux des créateurs de pouvoir identifier ceux-ci facilement et rapidement.
En outre, la précision de leur répartition (et donc la qualité de leurs bases de données) devient, pour l’avenir des sociétés de gestion collective françaises, un enjeu majeur, dans un contexte de concurrence internationale accrue avec les autres SPRD, voire avec les géants du net. En raison de leur poids prééminent dans la chaîne de valeur, les diffuseurs et les distributeurs sont en mesure d’imposer des standards de fait. On peut même craindre que certains d’entre eux cherchent, à terme, à se substituer aux sociétés de gestion collective en rémunérant eux-mêmes directement les titulaires de droits1.

1.2 DÉVELOPPEMENT D’UNE OFFRE LÉGALE INNOVANTE ET ERGONOMIQUE

Une offre légale de qualité ne peut exister sans métadonnées fiables et exhaustives. Les services culturels en ligne ont besoin de ces métadonnées pour proposer une « expérience utilisateur » conforme aux attentes des internautes et supérieure à celle offerte par le piratage. Par exemple, c’est grâce aux métadonnées que les plateformes sont en mesure d’éliminer les doublons, de lier entre elles les différentes interprétations d’une même oeuvre, de proposer des contenus enrichis autour de l’oeuvre (paroles, chroniques, biographies, etc.).

1 Fin 2011, Google a racheté la société RightsFlow, et peut désormais rémunérer directement un artiste pour la diffusion de ses
oeuvres sur YouTube ou Google Music aux Etats-Unis.
La qualité des métadonnées est aussi indispensable à la revalorisation des contenus et, partant, à la restauration du consentement à payer. Par exemple, de nombreux mélomanes se plaignent de la perte d’informations dont s’est accompagné le passage du CD au numérique. Si quelques plateformes font exception, les données disponibles sur un titre en ligne sont généralement beaucoup plus pauvres que celles qui figuraient sur le livret du CD.
Enfin, le développement de services innovants n’est possible que si les fichiers contenant les oeuvres sont dotés de métadonnées riches et précises. Les expériences des Hackathon ou des MusicHackDay, qui reposent sur la mise à disposition temporaire et encadrée de bases de métadonnées pour permettre aux développeurs de créer et tester de nouveaux programmes ou services2, en fournissent une illustration.

1.3 PROMOTION DE LA DIVERSITÉ CULTURELLE

L’enjeu des métadonnées relève aussi de la diversité culturelle. Dans l’hyperoffre numérique, les oeuvres dont la diffusion n’est pas soutenue par une promotion massive n’ont de chance d’exister, c’est-à-dire de rencontrer leurs publics, que si des métadonnées riches leur sont associées et permettent leur référencement. C’est en effet une condition sine qua non pour que, d’une part, l’internaute qui cherche une oeuvre précise puisse la trouver sans trop de difficultés et que, d’autre part, des services éditorialisés (qu’ils soient fondés sur une éditorialisation humaine ou sur
des algorithmes de recommandation) puissent jouer leur rôle de prescription, de recommandation et de découverte.
Cet enjeu concerne plus spécifiquement les fonds de catalogue, qui ne bénéficient pas des investissements marketing dont font l’objet les productions nouvelles, et les esthétiques les plus fragiles ou les moins exposées. Par exemple, la qualité des métadonnées est cruciale pour la visibilité en ligne des oeuvres de musique classique, dont les données d’identification sont beaucoup plus complexes que celles de la musique de variété3.
Un référencement de qualité est également essentiel aux bibliothèques et services d'archives et de documentation, afin qu’ils puissent mener à bien leurs missions de conservation des oeuvres et de médiation culturelle. La structuration et l’organisation de métadonnées descriptives, nécessaires au catalogage et à la gestion des ressources documentaires, ainsi qu’à leur recherche et localisation par les usagers, constituent depuis toujours une des fonctions principales de ces acteurs. Les métadonnées jouent en outre un rôle-clé dans l’organisation des espaces (physiques et,
demain, numériques) proposés par les bibliothèques, afin de mieux organiser la rencontre entre les lecteurs et les livres. Au-delà des métadonnées descriptives, l’accès aux métadonnées d’enrichissement accompagnant les publications (couverture, résumé, sommaire…) est également de grande importance pour les bibliothèques, afin de permettre au public de mieux apprécier les oeuvres et leur contenu et d’encourager les pratiques de lecture.
Ainsi, l’enjeu des métadonnées se situe au carrefour de l’intérêt général (accès des publics aux oeuvres, respect des droits des créateurs) et d’intérêts privés (stratégies de différenciation des plateformes, compétitivité des SPRD…). Une action visant à fiabiliser les métadonnées et à faciliter leur circulation permettrait de contribuer, d’une part à une meilleure identification des droits, d’autre part au développement d'une offre légale de qualité, innovante et diversifiée.

2 Sur ce modèle, Deezer a lancé en mai 2012 un week-end “BeMyApp” pendant lequel il ouvre ses bases afin et permet aux
participants de créer des applications.
3 Sur les plateformes de téléchargement ou de streaming, on relève souvent des confusions entre le nom du

2 LES MÉTADONNÉES CULTURELLES REGROUPENT DES INFORMATIONS DE NATURE DIVERSE
DIVERSE

Dans le secteur culturel, les métadonnées ne sont pas soumises à une nomenclature uniforme. Une distinction s’opère cependant entre les métadonnées juridiques (ou de gestion de droits) et les métadonnées des contenus Les premières permettent de gérer les droits relatifs aux différents constituants d'un fichier. Les secondes se rapportent aux contenus eux-mêmes et permettent notamment leur identification.

2.1 LES MÉTADONNÉES JURIDIQUES

Les métadonnées juridiques regroupent les « métadonnées de propriété », permettant d’identifier les structures et individus ayant un droit de propriété intellectuelle ou commerciale sur le contenu, et les « métadonnées de gestion » implémentées par les producteurs, les distributeurs et éditeurs de services, afin d’assurer la gestion commerciale des contenus (codes tarifaires, territoires d’utilisation, etc.).
Les métadonnées de propriété s’appuient désormais sur des codes d’identification standardisés au plan international par des normes ISO, qui visent à faciliter la circulation des métadonnées et à éviter les problèmes d’identification liés à l’orthographe ou à l’homonymie. Ces codes identifient de manière univoque une oeuvre ou un document, quel que soit le support de publication physique ou numérique :
•dans la musique, le code ISWC identifie une oeuvre4, le code ISRC un enregistrement5, le code ISMN une
partition ;
•dans l’audiovisuel et cinéma, chaque version se voit attribuer un code ISAN ;
•dans le domaine de l’écrit, chaque monographie (livre) est dotée d’un code ISBN et chaque publication en
série (revue ou magazine) se voit attribuer un code ISSN6 ;
•de manière transversale, le code ISNI, en cours d’élaboration, identifie des « contributeurs », quel que soit
leur rôle (interprète, musicien, auteur), leur domaine de création (musique, littérature, audiovisuel, etc.), leur pseudonyme ou les langues utilisées.
Plusieurs initiatives ont été lancées en vue de d’établir des référentiels communs de gestion des droits décrivant les conditions d’accès et d’utilisation des contenus numériques, quel que soit leur mode d’élaboration et leurs conditions de licence. Si la solution XrML (eXtensible Rights Markup Language) est retenue dans la plupart des cas, le langage ODRL (Open Digital Rights Language) a quant à lui gagné la compétition de la standardisation OMA (Open Mobile
Alliance), consortium rassemblant les constructeurs de téléphonie mobile et d’autres industriels. Par ailleurs, la « Linked Content Coalition » (LCC), groupement d’experts des industries créatives, se donne pour objectif de répondre au défi de l’identification des droits de propriété intellectuelle dans l’environnement numérique. La LCC a travaillé à 4 En France, le code ISWC est délivré par la SACEM, accessible en ligne et de plus en plus utilisé par les éditeurs pour leurs oeuvres
nouvelles. La CISAC a lancé le projet d’ « ISWC Dissemination » visant à inciter l’utilisation de cet identifiant. Avant l’ISWC, la SACEM identifiait les oeuvres via son code interne, le COCV, qu’elle continue d’utiliser aujourd’hui pour résoudre, le cas échéant, les problèmes soulevés par l’identifiant international (doublons, conflits, etc.).

5 Le code ISRC est renseigné par le producteur phonographique à partir d’une racine fournie par sa société de gestion collective, et
livré directement ou via un distributeur à ces dernières ainsi qu’aux plateformes et diffuseurs. Il est relativement bien utilisé pour
les enregistrements sortis depuis une dizaine d’année, moins pour les fonds de catalogue. Une nouvelle version de l’ISRC est en
cours de développement (ISRC 2).
6 L’ISBN est attribué par l'Agence francophone pour la numérotation internationale du livre (AFNIL) ou par la BnF pour les
publications officielles des administrations centrales et services déconcentrés de l'Etat. L’ISSN est attribué sous la responsabilité du
Centre ISSN France, un service de la BnF. L'attribution d'un ISBN et/ou d'un ISSN n'est pas systématique.
l’élaboration d’une infrastructure technique facilitant l’échange d’informations sur les droits et la délivrance des licences, selon une approche cross-media.
Ces approches sont inspirées des principes du web de données et du web sémantique. Ainsi, l’initiative collaborative Linked Data coordonnée par le W3C (World Wide Web Consortium) vise à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations. Elle s'appuie sur les standards du Web et les étend pour permettre un partage automatique, entre machines, de descripteurs bibliographiques et d’informations générées par
les utilisateurs, quel que soit le lieu de stockage de ces informations et sans avoir à les dupliquer.

2.2 LES MÉTADONNÉES DE CONTENU

Les métadonnées de contenu comprennent les métadonnées descriptives, qui sont des informations se rapportant directement au contenu lui-même, et les métadonnées d’enrichissement, qui mettent le contenu en lien avec d’autres ressources destinées à l’enrichir.
Les métadonnées descriptives peuvent elles-mêmes être subdivisées en deux catégories. Les métadonnées dites « identifiantes » permettent d’identifier les oeuvres, tels le titre de l’oeuvre, le nom de l’auteur, le nom des artistes interprètes, l’année de production, la durée ou le nombre de pages, etc. Lorsque la description se fait plus précise ou fait appel à des notions plus subjectives (genre, thématique…), on parle de métadonnées « caractérisantes ».
Les métadonnées d’enrichissement sont des informations annexes ou « bonus », destinées à enrichir l’expérience de l’utilisateur et à valoriser le contenu offert, en le replaçant dans son contexte. Relèvent de cette catégorie les paroles de chansons, quatrièmes de couverture, biographies, interviews, photos, vidéos, mais aussi des liens vers les médias officiels, partenaires commerciaux ou réseaux sociaux, etc. S’y ajoutent les métadonnées dites conjoncturelles, générées de manière algorithmique à partir d’autres données, afin de remplir un rôle de recommandation pour le
consommateur : nombre de ventes, notations, artistes similaires, préférences des internautes7, etc. Ces métadonnées ont la particularité d’être dynamiques, c’est-à-dire de devoir être actualisées en permanence.

3 LE MANQUE D’OUVERTURE ET DE CIRCULATION DES MÉTADONNÉES NUIT AUX
CRÉATEURS ET AUX PUBLICS


3.1 LA DISPERSION ET LE CLOISONNEMENT DES BASES DE MÉTADONNÉES

La dispersion qui caractérise la constitution et l’administration des bases de métadonnées est source d’importantes difficultés. De nombreuses initiatives voient le jour, sans dialogue ni agrégation entre les bases constituées. Du fait de ce défaut de coordination / standardisation, les bases risquent de se multiplier sans pouvoir dialoguer entre elles.
Chaque gestionnaire de base administre et/ou utilise les données qui le concernent en fonction de ses objectifs propres. Les données agrégées dans chaque base sont donc parcellaires et il n’existe, en règle générale, aucune base de référence faisant autorité. Les limites d'une approche sectorielle, conjuguées à l’absence de base de données commune ou de standards uniques et interopérables, entraînent d’importants dysfonctionnements dans la chaîne de circulation des données et donc des contenus.
7 Par exemple, « les internautes qui ont écouté / acheté / aimé tel titre ont aussi écouté / acheté / aimé tel autre titre ». Une grande partie des moteurs de recommandations proposés par les services en ligne fonctionnent grâce à ces données dites comportementales.

Ainsi, dans le domaine de la musique8, si les sociétés de perception et de répartition de droits disposent chacune d’une base relative aux informations personnelles de leurs ayants droit (nom, adresse, mandats, etc.) et d’une base de référence relative aux contenus dont elles gèrent les droits, ces bases souffrent aujourd’hui d’un cloisonnement préjudiciable à une gestion optimale et sécurisée des droits. La base de la SACEM référence des oeuvres9. Les sociétés civiles de producteurs, SCPP et SPPF, gèrent chacune une base de données liées aux enregistrements de leurs membres10. La base de l’ADAMI est conçue à partir de référentiels acquis à l’extérieur (notamment auprès des
sociétés civiles de producteurs phonographiques) et d’adjonctions (oeuvres issues de réclamations ou de télédéclarations), puis retravaillée par documentation en interne11. La base de la SPEDIDAM est construite à partir des déclarations de ses membres (feuilles de présence) et de vérifications.
Par ailleurs, plusieurs bases de données interprofessionnelles ont pour vocation de référencer de manière sectorielle l’ensemble des catalogues numériques existants. Par exemple, la BIPP (Base de données Interprofessionnelle des Producteurs Phonographiques), développée et gérée par Kantar Media pour le compte des syndicats de producteurs, référence l’ensemble des catalogues numériques et physiques actifs sur le marché de la musique français12. Par ailleurs, BOEM (Base OEuvres de l’Edition Musicale) est la base des paroles de chansons des éditeurs, dont la gestion
collective a été confiée à la Société des Auteurs et Editeurs de Musique (SEAM)13.
Enfin, des acteurs privés B2B (Musicstory ou Yacast en France, Rovi, The Echo Nest ou Gracenote aux Etats-Unis) se sont spécialisés dans la constitution de bases de données musicales afin de répondre aux besoins des professionnels.
Ces entreprises fournissent aux services B2C, le plus souvent sous la forme d’abonnements payants, des données agrégées qui leur permettent d’enrichir l’expérience utilisateur, d’éditorialiser leur offre, de fiabiliser leurs reportings etc. Certaines plateformes (ex : Spotify, Deezer) permettent d’ailleurs, à travers l’ouverture de leurs API, un accès à tout ou partie de leurs bases ; elles se positionnent alors comme des plateformes de contenus sur lesquelles peuvent venir se greffer des services éditorialisés proposés par des labels ou par des médias.
De nombreuses initiatives internationales ont par ailleurs été engagées : Global Repertoire Database (GRD) pour les droits d’auteur14, International Performer Database pour les droits des artistes interprètes, International Music
8 Cf. http://www.irma.asso.fr/l-enjeu-des-metadonnees-musicales
9 La base de la SACEM contiendrait plus de 4,5 millions d’oeuvres. Cette base est d’abord à usage interne mais une ouverture est désormais possible au grand public via un accès en ligne, oeuvre par oeuvre. Au-delà des informations liées à la gestion de la répartition à usage exclusivement interne, les métadonnées renseignées sont le code ISWC, le code interne COCV, le titre de l’oeuvre, le nom officiel de l’auteur-compositeur et le plus souvent les interprètes de la première exécution.
10 Y figurent les données d’identification (titre des oeuvres, nom de scène des artistes interprètes, code ISRC…) ainsi que celles liées à la gestion des droits (ex : territoires d’exploitation). Fin 2011, plus de quatre millions de titres environ avaient été déclarés aux deux sociétés civiles (1,5 millions à la SPPF et trois millions à la SCPP). Les métadonnées proviennent des informations demandées au moment de la déclaration d’un phonogramme
11 La construction d’un nouveau système d’information a été lancée afin d’optimiser l’utilisation de toutes les métadonnées disponibles et, en particulier, les métadonnées de propriété (ISRC et ISAN).
12 Cette base référence plus de 2 millions de titres et prévoit une centaine de catégories de métadonnées par titre. Le contenu de cette base provient des producteurs phonographiques, Kantar Media en consolide et structure les données pour la commercialiser auprès de cibles d’utilisateurs (diffuseurs, SPRD, etc.).
13 BOEM contient à ce jour 40 000 textes de chansons, dont 10 000 textes français (les éditeurs peuvent autoriser l’utilisation commerciale de ces paroles, en France et dans le monde pour les textes français, uniquement en France pour les textes internationaux). L’objectif est de porter le volume de la base à 120 000 textes, ce qui représente un coût total (numérisation des textes et saisie des métadonnées) estimé par la CSDEM à environ 500 000 €.
14 Le projet a vu le jour en 2009 suite à la « Online Commerce Roundtable » lancée par la commissaire européenne Neelie Kroes. Le groupe de travail de la GRD rassemble des éditeurs des sociétés d’auteurs ou fédérations (dont la SACEM) et des services en ligne (Google, Amazon, iTunes, Nokia). Fin 2010, le groupe de travail a désigné ICE comme fournisseur de solutions technologiques et Deloitte comme chef de projet pour soutenir la réalisation de la GRD. En septembre 2011, le groupe de travail a programmé une
étude de faisabilité de 20 semaines visant à dessiner les contours de la future base, de son financement et de sa gouvernance Registry (projet de l’OMPI)… En outre, le consortium DDEX (Digital Data Exchange)15 a développé des standards (Electronic Release Notification, Digital Sales Report) pour faciliter les échanges d’information entre les titulaires de droits et les diffuseurs.

Dans le domaine du cinéma, le CNC et les cinémathèques partagent une base de données sur le film, développée par le CNC16, et une base de données sur le non-film (affiches, scénarios, etc.), développée par la Cinémathèque. Ces bases sont alimentées par le dépôt légal depuis 1977 et pour la période antérieure par des recherches documentaires.
La base du CNC contient près de 100 000 titres.
Les deux entités partagent aujourd’hui la volonté de fusionner ces deux bases et de les adapter aux standards européens (EN 15744 et EN 15907, à la définition desquels les CNC a largement contribué) afin qu’elles puissent dialoguer avec les plateformes étrangères et avec Europeana ; le code ISAN serait également intégré dans la base. A cette base unifiée seraient associés un extranet professionnel (pour les déposants, les restaurateurs, les festivals, les exploitants de salle et les plateformes de VàD souhaitant éditorialiser leur offre, par exemple en documentant un cycle thématique, etc.) et une plateforme grand public sur les films de patrimoine. La base, connectée au Registre Public de la Cinématographie et de l'Audiovisuel auprès duquel sont enregistrés tous les contrats, pourrait également servir à l’identification des ayants droit. Cela supposerait qu’elle puisse dialoguer avec d’autres bases, telles que celle de la SACD pour ce qui concerne les auteurs.

Dans le domaine du livre, les ressources bibliographiques sont dispersées et, à de nombreux égards, redondantes.
Dans le cadre de sa mission de publication de la Bibliographie nationale française, la BnF produit et regroupe les notices bibliographiques des ouvrages ayant fait l’objet d’un dépôt légal, et constitue ainsi le réservoir de métadonnées faisant autorité, particulièrement pour les bibliothèques. La société privée Electre, créée au début des années 1980 par le Cercle de la librairie (qui réunit libraires, éditeurs et imprimeurs) afin de rendre ses propres données accessibles par voie informatique aux libraires et aux bibliothécaires, produit et commercialise la seconde grande base bibliographique. Ses notices sont disponibles en amont de la publication, alors que celles de la BnF lui
sont postérieures de plusieurs mois. D’autres bases de données bibliographiques et commerciales privées se sont créées, notamment celles de Tite Live et de Decitre, d’accès moins coûteux que celle d’Électre.
Tous ces acteurs s’alimentent, pour constituer leurs bases, au Fichier exhaustif du livre (FEL), un fichier technique contenant des données strictement « commerciales » (titre, auteur, disponibilité, prix, …), quotidiennement mis à jour par les distributeurs et centralisé par la société Dilicom17.
A ce panorama, il faut ajouter la base SUDOC, gérée par des bibliothèques universitaires, très complète mais inaccessible aux opérateurs commerciaux. Amazon s’est constitué sa propre base en compilant des bases de toutes sortes. Cette pratique devient courante, notamment pour des bibliothèques et des librairies, qui s’éloignent progressivement d'Electre, ce qui complexifie encore le paysage des ressources existantes. Enfin, depuis le début des années 2000 et concomitamment à l’émergence du commerce en ligne, les éditeurs se sont engagés dans la production de bases internes, qu’ils partagent parfois avec les librairies ou les bibliothèques.
A ce jour, il n'existe ainsi aucune base complète exploitable par les professionnels et accessible au grand public. Le rapprochement des bases existantes, particulièrement en ce qui concerne les bases de la BnF et d’Electre, fait l’objet 15 Les fondateurs de ce consortium sont des producteurs et distributeurs de phonogrammes, des sociétés civiles d’auteurs (dont la SACEM) et de producteurs (dont la SCPP), et des fournisseurs de services ou opérateurs (Apple, Microsoft, RealNetworks, France
Telecom, Nokia, Telefónica Servicios de Música et Microgen).
16 Cf. http://www.cnc-aff.fr/Internet_cnc/Internet/ARemplir/Collections1.aspx?%e,i=mnu_collections et http://www.cncaff.
fr/Internet_cnc/Internet/LettreInfo/Lettre19/lettre_19.html.
17 Dilicom, gérée par les distributeurs et les libraires, est issue d’une scission d’avec Electre en 1988.

de réflexions et de recommandations depuis de nombreuses années18. D’importantes économies d’échelle en résulteraient. La mise en place d'une base exhaustive permettrait aussi d’empêcher que des opérateurs commerciaux extérieurs au livre deviennent les seules références en ligne.
Si aucun projet de rapprochement d’importance n’est à l’ordre du jour, une première amélioration peut être espérée de la mise en place, par la BnF, d’un « extranet du dépôt légal » : depuis 2009, tout éditeur de livres est encouragé à s’inscrire sur le site, afin d’y remplir ses déclarations de dépôt avant dépôt effectif, permettant à la BnF de disposer de proto-notices bibliographiques en amont de la publication des oeuvres. D’autre part, la BnF plaide pour une plus grande ouverture des métadonnées, remettant en cause la pertinence du modèle de vente des métadonnées à long
terme. Dans le cadre du projet Data19, elle fournit notamment l’accès à environ 20 % de ses catalogues selon la Licence ouverte française, une licence de type CC-BY adapté.
Dans le livre numérique, la question est encore moins avancée, puisque les bases existantes, tout en se recoupant, ne sont pas encore interopérables, faute de normalisation des métadonnées. La situation devrait cependant s’améliorer dans les toutes prochaines années, puisque l’interprofession s’est récemment entendue pour retenir le format ONIX 3.020, dans lequel est produite la base Electre et qui avait été recommandé par le rapport de M. Bruno Patino. Un Guide de bonnes pratiques a notamment été élaboré en 2012 par la commission « FEL numérique »21, consacrant le
choix d’ONIX et identifiant les métadonnées essentielles à la vente destinées à tous les intervenants de la chaîne du livre. La mise en place d’un FEL numérique opérationnel constitue la prochaine étape de ce processus22.

Dans le domaine de l’image fixe, la BnF a mis en place dans les années 1990 le schéma XML refNum23, propre à l’établissement, pour gérer les métadonnées de production des documents numériques. Le schéma XML refNum permet d’identifier le document par des métadonnées bibliographiques (type de document, titre, auteur…), de production (conditions de numérisation) et de structure (liste des images composant le document numérique et métadonnées variables). A compter de 2009, dans le cadre de la mise en place du système de préservation et d'archivage réparti (SPAR), les métadonnées des documents numériques respecteront le standard METS.
L’association PAJ (Photographes – auteurs – journalistes) relève toutefois l'avance prises par les États-Unis dans la définition des standards de métadonnées applicables aux photographies. Elle voit dans le retard européen un risque majeur pouvant aller jusqu’à remettre en cause les fondements du droit de la propriété intellectuelle et à asseoir la domination internationale du modèle anglo-saxon du copyright.

3.2 UNE SITUATION PRÉJUDICIABLE A LA RÉMUNÉRATION DES CRÉATEURS

Le défaut de circulation des métadonnées et le manque de dialogue entre les bases, conjugués à l’absence de base de référence, entraînent des pertes en ligne dans la rémunération des ayants droit. La plupart des sociétés de gestion 18 Voir par exemple cette initiative, portée par des libraires et des bibliothécaires, représentés par le Syndicat de la librairie française (SLF), l'Association des librairies informatisées et utilisatrices de réseaux électroniques (ALIRE), l'Association des bibliothécaires de France (ABF), l'Association des Directeurs de bibliothèques départementales de prêt (ADBDP), l'Association des
Directeurs des bibliothèques municipales et intercommunales des grandes villes de France (ADBGV) l'Association des professionnels de l'information et de la documentation (ADBS) et la Fédération des utilisateurs de logiciels pour bibliothèques, documentation, information (FULBI).
19 Voir data.bnf.fr.
20 Online Information eXchange.
21 Créée en 2011 par la Commission de liaison interprofessionnelle du livre (CLIL), la commission « FEL numérique » regroupe des
éditeurs, des libraires, des revendeurs numériques, des diffuseurs, ainsi que la BnF.
22 Les bibliothèques, aux besoins parfois différents, semblent s’orienter vers d’autres standards ; de même, le secteur enseignant
utilise des métadonnées spécifiques.
23 Voir : http://www.bnf.fr/fr/professionnels/num_metadonnees/s.num_metadonnees_documents.html

collective sont confrontées à ce type de difficultés. Le traitement manuel des erreurs (ex : orthographes différentes d’une même oeuvre), doublons (ex : attribution de deux codes différents pour un même contenu) ou incohérences (ex : deux titulaires du même droit pour un même contenu) est un frein récurrent à leur mission de perception et de répartition des droits.
La première conséquence est une remontée des droits incomplète ou erronée, et donc un risque de perte de revenus ou de retard de versement pour les ayants droit. Par exemple, « en 2010, iTunes n’a pas rémunéré les sociétés d’auteur européennes en raison de divergences sur les sommes appelées, dues à la fragmentation géographique des répertoires et au manque d’harmonisation des différentes sociétés de perception européennes. De
même, en gestion individuelle (producteurs, artistes interprètes), la non-utilisation des métadonnées standardisées de propriété induit des risques et des contentieux identifiés par la commission Hoog. » (cf. rapport Création musicale et diversité à l’ère numérique, septembre 2011).
Les carences des bases de métadonnées génèrent en outre des coûts de gestion élevés, notamment pour les SPRD.
Plusieurs sociétés font état de difficultés induites par la gestion de données livrées dans des qualités souvent médiocres et en volumes de plus en plus importants. Les coûts liés aux processus d’automatisation et à la main d’oeuvre qualifiée nécessaire aux traitements manuels sont indirectement supportés par les ayants droit à travers les prélèvements pour frais de gestion. Dans son rapport d’activité 2010, la SACEM précisait que « le taux de codification automatique est très variable selon les opérateurs. Il est en moyenne de 70 % sur les oeuvres les plus téléchargées, mais avec de fortes disparités : 82 % sur iTunes, 74 % pour les sonneries SFR, 34 % pour les titres écoutés sur Deezer.
Étant donné l’importance des volumes à analyser, l’automatisation de la codification dans le secteur Internet est un enjeu essentiel : les oeuvres non reconnues doivent en effet être traitées manuellement ».

3.3 UNE SITUATION PRÉJUDICIABLE AU DÉVELOPPEMENT DE L’OFFRE LÉGALE

Le manque de fiabilité, de circulation et d’ouverture des métadonnées est préjudiciable aux utilisateurs qui souhaitent obtenir l’autorisation d’utiliser ou d’exploiter une oeuvre ou un catalogue, qu’il s’agisse d’éditeurs professionnels de services en ligne ou de particuliers désireux d’utiliser un contenu à des fins d’illustration ou de création.
Les éditeurs de services en ligne sont souvent confrontés à des difficultés qui trouvent leur origine dans les lacunes des bases de données. Lorsque les fichiers fournis par les producteurs ou éditeurs ne sont pas dotés de métadonnées fiables et exhaustives, ils sont contraints, pour proposer une offre de qualité, de combler eux-mêmes ces lacunes, soit par leurs propres moyens, soit en s’appuyant sur un prestataire externe ; les coûts induits limitent d’autant les capacités des services B2C à engager des investissements à forte valeur ajoutée.
En outre, le manque de fiabilité des bases de données peut créer, pour les éditeurs de service en ligne, une grande insécurité juridique. Certaines plateformes déplorent que les sociétés de gestion collective ne soient pas toujours en mesure d’indiquer avec précision la liste des oeuvres dont elles autorisent l’exploitation, les exposant ainsi à des risques de contestation et à des revendications de droits conflictuelles.
Enfin, s’agissant des utilisateurs non professionnels, il est souvent difficile d’identifier les ayants droit auprès desquels les autorisations d’utilisation doivent être sollicitées. Par exemple un particulier souhaitant utiliser une oeuvre audiovisuelle pour illustrer un site Internet, ou un enregistrement musical pour en faire un remix ou un mashup (cf. fiche C-9), n’est pas toujours en mesure de savoir à qui s’adresser. Même pour une personne de bonne foi, respecter les droits de propriété intellectuelle suppose trop souvent des recherches longues et complexes, à la fois pour connaître les usages autorisés ou interdits et pour identifier, le cas échéant, les personnes ou les structures
compétentes pour délivrer les autorisation.

4 FIABILISER LES MÉTADONNÉES ET FACILITER LEUR CIRCULATION EN CRÉANT DES
REGISTRES OUVERTS ET MUTUALISÉS


Comme l’a souligné la Commission européenne en lançant, en décembre 2012, l’initiative « Licences pour l’Europe », il est possible, sans bouleverser le cadre juridique du droit de la propriété intellectuelle, d’en moderniser la mise en oeuvre grâce à des solutions concrètes et opérationnelles, fondées sur la négociation contractuelle et l’innovation technologique. L’objectif est de veiller à ce que le droit d’auteur et la délivrance des licences s’adaptent au contexte numérique, et d’améliorer la disponibilité en ligne des contenus.
Faciliter l’accès aux métadonnées est un moyen d’adapter le droit de la propriété intellectuelle aux enjeux et aux réalités de l’ère numérique. Les droits moraux et patrimoniaux seront d’autant mieux respectés qu’il sera facile d’identifier les ayants droit d’une oeuvre donnée et d’obtenir les autorisations correspondant aux utilisations souhaitées. Les titulaires de droits comme les personnes désireuses d’utiliser des oeuvres à des fins d’illustration ou de création transformative y trouveront un intérêt commun. La mise en relation de bases de données existantes sera également bénéfique aux sociétés de gestion collective, car elle permettra de fiabiliser ces bases et, ainsi, de limiter
les pertes en ligne, les coûts de gestion et les conflits de revendication. A terme, les utilisateurs professionnels (éditeurs de services en ligne) devraient, eux aussi, profiter de cette démarche.
Cette problématique revêt, à l’évidence, une dimension internationale très marquée, compte tenu des multiples initiatives visant à normaliser les identifiants et à permettre les échanges entre les bases de données nationales. Pour autant, compte tenu des échéances souvent lointaines qui caractérisent ces projets internationaux, une action au plan national prenant en compte les standards internationaux et pouvant, à terme, s’intégrer dans des initiatives internationales, demeure pleinement justifiée. C’est d’ailleurs l’approche retenue par le Royaume-Uni qui vient de
lancer un projet de « Copyright Hub » (cf. encadré).

Le projet de « Copyright Hub » au Royaume-Uni
Le rapport Hargreaves remis au Secrétaire d’Etat au commerce Vince Cable en mai 2011 formulait 10 recommandations, parmilesquelles figurait la création d’un « Digital Copyright Exchange ». L’étude de la faisabilité de cette recommandation a été confiée à Richard Hooper24, sous l’égide de l’Intellectual Property Office (IPO). Présentée en mai 2012, elle propose la création d’un « Copyright Hub », avec cinq objectifs : offrir des repères (signposting) dans le monde complexe du copyright ; éduquer et sensibiliser aux enjeux du copyright ; centraliser l’enregistrement des oeuvres, des droits associés et des licences accordées ;
permettre aux utilisateurs d’obtenir des licences facilement et à moindre coût ; promouvoir la numérisation des oeuvres orphelines en permettant aux exploitants de démontrer qu’ils ont effectué les recherches diligentes requises.
Ce hub est piloté et financé par les industries culturelles et les sociétés de gestion collective (avec le soutien de l’IPO). Fonctionnant sur une base volontaire et sans but lucratif, il a vocation à couvrir tous les contenus protégés par un copyright, et à faciliter l’interopérabilité entre les différentes bases de données privées ou publiques existantes. Il entend fluidifier la mise en relation de « l’offre » (créateurs et titulaires de droit, y compris la sphère non marchande) et de « la demande ». Le hub cible davantage les petits utilisateurs occasionnels (PME, professeurs, créateurs d’UGC…) que les grandes plateformes de distribution ; les transactions
en cause sont, selon le rapport Hooper, de faible valeur unitaire mais représentent un volume potentiellement important.
Le projet devrait se dérouler en trois phases : mise en relation des parties prenantes (création d’un portail – prévu pour juillet 2013), intégration (mise en place d’un moteur de recherche unifié permettant des recherches au sein des différentes bases de données), création d’un marketplace (permettant d’acheter et de vendre des droits d’utilisation directement depuis le hub).
Source : entretien avec Mme Ros Lynch, directrice du Copyright Licensing Coordination Office. Cf. copyrighthub.co.uk

Dans cet esprit, la mission propose de créer, pour chaque catégorie d’oeuvres protégées, un registre ouvert de métadonnées, qui rassemblerait, pour chaque oeuvre, les métadonnées descriptives et juridiques nécessaires à l’identification des oeuvres et de leurs ayants droit. La spécificité des problématiques propres à chaque catégorie d’oeuvres suggère toutefois, par souci de réalisme, de privilégier à ce stade une approche sectorielle.
Concrètement, la création de tels registres requiert une coopération de toutes les entités, publiques ou privées, qui détiennent des données pertinentes, et en premier lieu des sociétés de gestion collective. Ces registres pourraient être coordonnés par les organismes responsables du dépôt légal (BNF, CNC et INA), qui centraliseraient, intégreraient et actualiseraient en permanence les données. Le dépôt légal, qui est aujourd’hui perçu comme une formalité
contraignante, deviendrait, pour l’ayant droit, un moyen de garantir l’inscription de son oeuvre dans le registre ouvert de métadonnées, contribuant ainsi au respect de ses droits moraux et patrimoniaux25. En outre, les aides à la production et à la numérisation seraient conditionnées à la fourniture des métadonnées permettant de renseigner
ces registres, selon le format proposé par le gestionnaire du registre.
Le financement de ces registres serait assuré par les SPRD et les organisations représentatives des ayants droit, avec un soutien public qui pourrait provenir du compte de soutien à la transition numérique (fiche B-11), éventuellement complété par un prêt de l’IFCIC voire un prêt au titre des Investissements d’avenir si les perspectives de rentabilité étaient clairement démontrées. La maîtrise d’ouvrage pourrait être confiée à des entreprises privées spécialisées dans
la gestion des métadonnées, secteur dans lequel plusieurs entreprises françaises se sont distinguées.
Chaque registre, accessible en ligne, serait doté d’un moteur de recherche permettant une interrogation par titre, auteur, interprète, producteur / éditeur, etc. Les identifiants internationaux (codes ISO) seraient pleinement intégrés.
Pour chaque oeuvre seraient indiquées, dans un langage clair et accessible aux non professionnels, les utilisations autorisées et celles nécessitant l’obtention d’une autorisation des ayants droit ou des sociétés de gestion collective.
Le registre pourrait distinguer plusieurs niveaux de consultation : les données essentielles (« socle ») seraient ouvertes à tout utilisateur, tandis que certaines données commerciales plus sensibles (ex : règles de gestion) pourraient être réservées aux utilisateurs professionnels voire agréés (services en ligne, agrégateurs, tiers de confiance, etc.). Certaines données comme les coordonnées des ayants droit ou les règles de partage des recettes resteraient en revanche sous le contrôle exclusif des SPRD. La base serait interrogeable oeuvre par oeuvre et pourrait, sous certaines conditions, être exportée dans un format non propriétaire, selon les normes de l’Open Data.
Les oeuvres du domaine public (cf. fiche C-12) figureraient également dans ces registres. Cela rejoint l’une des recommandations de « l’étude exploratoire sur les droits d’auteur et les droits connexes et le domaine public » présentée en avril 2010 par le professeur Séverine Dusollier devant l’Organisation mondiale de la propriété intellectuelle (OMPI)26. Selon la recommandation 1f de cette étude, « des efforts internationaux devraient être consacrés à l’élaboration d’instruments techniques ou d’information destinés à identifier le contenu du domaine public,
en particulier s’agissant de la durée du droit d’auteur. Ce type d’instrument peut comprendre des compilations de données relatives à des oeuvres, des bases de données d’oeuvres ou des calculateurs de domaine public ». Un rapport récent27 du Comité du développement et de la propriété intellectuelle de l’OMPI, qui précise la portée et les incidences de ces recommandations, relève que « l’accès aux oeuvres tombées dans le domaine public, leur utilisation,
leur identification et leur localisation supposent la mise au point d’instruments techniques ou d’information. L’octroi du droit d’auteur n’étant subordonné à aucune formalité (…), il n’existe généralement pas d’organisme ou de service d’enregistrement central rassemblant toutes les données sur les oeuvres ».
25 Il va de soi, en revanche, que l’inscription au registre ne serait pas une condition nécessaire à la reconnaissance des droits de
propriété intellectuelle, lesquelles naissent avec la création d’une oeuvre de l’esprit, indépendamment de toute formalité.
26 http://www.wipo.int/ip-development/fr/agenda/pdf/scoping_study_cr.pdf
27 http://www.wipo.int/edocs/mdocs/mdocs/fr/cdip_9/cdip_9_inf_2_rev.pdf

La création des registres ouverts de métadonnées pourrait faire l’objet d’une étude de faisabilité technique et financière. Sur cette base pourrait être organisée une concertation entre les parties prenantes (gestionnaires du dépôt légal, SPRD, organisations professionnelles d’ayants droit, représentants des consommateurs), en lien étroit avec Etalab, le service du Premier ministre chargé de l’ouverture des données publiques. Cette démarche gagnerait s’appuyer sur les standards internationaux en vigueur et à s’inspirer des premiers enseignements tirés de la mise en
place du Copyright Hub britannique (cf. supra).
Dans ce cadre, la mise en oeuvre opérationnelle pourrait être structurée en deux temps :
- dans un premier temps, les registres auraient pour unique objectif de proposer à tout utilisateur,
professionnel ou non, un moteur de recherche lui permettant d’identifier les ayants droit d’une oeuvre, et de les contacter pour obtenir, le cas échéant, une autorisation d’exploitation ou d’utilisation ;
- dans un second temps, ces registres pourraient être appelés à remplir d’autres fonctions. Par exemple, des mécanismes d’octroi simplifié d’autorisations (« one-click licensing ») pourraient être adossés à ces registres.
En outre, ils pourraient être connectés aux bases d’empreintes et aux outils de reconnaissance automatique proposés dans la fiche C-5. Des services innovants pourraient ainsi être proposés aux internautes. Par exemple, à partir d’un simple extrait, quelle qu’en soit la source (licite ou non), il serait possible de retrouver sans effort l’ensemble des données sur l’oeuvre et ses ayants droit (sans même avoir besoin d’en connaître le titre ou l’auteur). L’internaute pourrait alors acheter l’oeuvre en question sur une plateforme légale ou contacter les ayants droit pour obtenir l’autorisation d’en faire un remix ou un mashup.

Proposition :
79.Créer, sous l’égide des organismes gestionnaires du dépôt légal, et en partenariat avec les sociétés de gestion collective et les organisations professionnelles, des registres ouverts de métadonnées. Lancer une étude de faisabilité et proposer aux parties prenantes une démarche en deux temps : 1) Création d’un portail d’identification des oeuvres et des ayants droit ; 2) Elaboration de mécanismes d’octroi simplifié d’autorisation.
80.Conditionner toute aide publique à la production et à la numérisation à la fourniture des métadonnées respectant le format proposé par le gestionnaire du registre.

Les commentaires sont fermés.