Étude sur l’utilisation d’œuvres relevant des arts visuels dans les publications scientifiques
Pierre-Carl Langlais
Antoine Blanchard (Datactivist)
Août 2022
De nombreuses recherches, en particulier en sciences humaines et sociales, s’appuient sur l’analyse d’œuvres qui sont protégées par le droit d’auteur. Pourtant, la reproduction de ces œuvres dans les travaux et publications scientifiques est entravée par des coûts liés à la recherche des ayant droits, aux demandes d’autorisation et à l’acquittement des droits. L’article 28 de la loi de programmation de la recherche, élaboré en lien avec le ministère de la Culture, répond à cette problématique à travers un dispositif de licence collective étendue. Désormais inscrit à l’article 139-1 du code de la propriété intellectuelle, ce dispositif ouvre la voie à la négociation d’accords entre le ministère en charge de l’Enseignement supérieur, de la recherche et de l’Innovation et les organismes de gestion collective qui agissent pour le compte des ayant droits dans les différents secteurs des arts visuels. Pour préparer la conclusion de ces accords, l’étude a pour objectif d’estimer le nombre de reproductions d’œuvres des arts visuels dans les publications scientifiques qui entrent dans le champ de la mesure, à savoir les publications françaises diffusées en accès ouvert et dans un cadre non lucratif. Elle procède par l’identification du corpus des publications via le moteur de recherche Isidore, puis la constitution d’une base d’images extraites de ces publications. Celles-ci ont fait l’objet d’une analyse automatique mobilisant des outils d’intelligence artificielle, puis d’une analyse humaine sur la base d’un échantillon. L’étude conclut que le nombre d’images concernées par le dispositif s’établit entre 55 840 images et 66 500 sur la base du corpus des publications scientifiques parues en 2019. L’étude fournit également une méthodologie permettant d’itérer cette estimation sur les corpus de publications des années suivantes. Elle procède à une estimation du nombre d’images concernées sur l’ensemble du corpus des publications scientifiques disponible sur le portail Persée. L’étude a été encadrée par un comité de pilotage rassemblant des représentants du ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, du ministère de la Culture, des organismes de gestion collective intervenant dans le champ des arts visuels ainsi que des experts qualifiés.
Contexte et structure de l’étude
Phase 1 : délimitation du corpus et dénombrement des images
Extraction des documents
La récupération des métadonnées sur Isidore
Délimitation du corpus de documents
Extraction des images
Corpus HTML
Corpus PDF
Classification des images
Catégories du modèle
Évaluation du modèle
Résultats de la classification
Métadonnées des images
Légendes
Métadonnées internes
Estimation du nombre d’images caviardées
Phase 2 : analyse documentaire d’un échantillon
Objectifs
Construction de l’échantillon
Méthode d’analyse
Champs de description
Sources de référence
Résultats de l’analyse
Résultat général
Résultats complémentaires
Commentaires
Phase 3 : test d’une méthode automatique reproduisant les résultats de l’analyse manuelle sur l’échantillon
Objectifs
Echantillon test
Classification des images
Analyses automatisée des légendes
Extraction des légendes des documents au format PDF
Classification des légendes
Extraction des entités nommées
Identification des reprises d’images
Vers un workflow automatique
Phase 4 : estimation du nombre d’images dans le champ de mesure pour l’ensemble du corpus
Encadré : à propos des documents exécutables
Récupération de corpus
Application des modèles à un nouveau corpus
Projection de la répartition
Préparation des données
Extrapolation à l’ensemble du corpus
Phase 5 : dénombrement des images du portal Persée
Objectifs
Construction de l’échantillon
Échantillonnage des images caviardées des collections rétrospectives de Persée
Échantillonnage des images des publications 2019 de Persée
Méthode d’analyse
Résultats de l’analyse
Résultat général
Résultats complémentaires
Dénombrement par extrapolation