Collège Données de la recherche : actions 2020
Le Collège Données de la recherche entre dans une nouvelle phase de son travail. Il structurera son action pour l’année 2020 autour de quatre axes majeurs, annoncés lors des Journées nationales pour la science ouverte des 18 et 19 novembre 2019.
1- Étude de faisabilité pour un service d’entrepôt de données mutualisé
De nombreux établissements ouvrent ou vont ouvrir leur entrepôt de données, d’autres souhaiteraient un entrepôt de données mutualisé. Dans ce contexte, il devient primordial d’étudier la possibilité d’un service mutualisé prenant en compte la diversité des différentes initiatives et des besoins. Le Comité pour la science ouverte s’empare de cette problématique en menant une étude globale et nationale dont les résultats seront communiqués à l’automne 2020. Des communications sur l’avancement de ces réflexions seront régulièrement disponibles sur le site Ouvrirlascience.fr à l’adresse https://www.ouvrirlascience.fr/college-donnees-de-la-recherche/.
Ce travail s’inscrit dans l’axe 2 du Plan national pour la science ouverte, qui se fixe pour objectif de structurer et ouvrir les données de la recherche. Un certain nombre de disciplines et de centres de données (en France ou l’étranger) travaillent depuis de nombreuses années à l’ouverture et au partage des données en conformité avec les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).
En général, ces initiatives sont disciplinaires et ne permettent pas de traiter les données hétérogènes et peu structurées : ce sont les données dites de « longue traîne ». L’ensemble des disciplines ont un besoin particulier de support et de soutien pour garantir les principes FAIR de ces données. L’étude aura pour objectif de réfléchir à une solution permettant de couvrir le territoire national, de favoriser la mutualisation autant que possible, et d’assurer une bonne articulation entre des niveaux centralisés et des éléments distribués.
Dans cette perspective, un groupe de travail « Étude de faisabilité d’un service générique d’accueil et de diffusion des données simples » a été constitué autour d’une quinzaine de personnes de statuts (chercheurs, experts IST ; universités et organismes de recherche), de disciplines et d’établissements différents. Ce groupe de travail est piloté par un consortium regroupant l’IRD, l’INRAE, le CNRS et Sorbonne Université. Il aura pour vocation de proposer des scénarios, propres à enrichir les réflexions sur le développement d’un service générique d’accueil et de diffusion des données simples tel que le stipule le Plan national pour la science ouverte.
Ce groupe de travail articulera son action autour de trois objectifs opérationnels :
- expression des besoins ;
- analyse comparative des offres logicielles sous licence libre ;
- proposition de scénarios pour la mise en œuvre et la gouvernance.
Ce groupe de travail est piloté par Jean-Christophe Desconnets, directeur de la Mission infrastructures et données numériques de l’IRD.
2- Enquête sur les usages relatifs aux outils numériques et aux données de la recherche dans les communautés scientifiques françaises
Le baromètre de la science ouverte a pour objectif de mesurer les progrès de l’accès ouvert à l’ensemble des ressources scientifiques (publications, données, code). Ses premiers résultats publiés en 2019 concernent les publications.
Une étude, intitulée « Enquête sur les usages relatifs aux outils numériques et aux données de la recherche dans les communautés scientifiques françaises (State of Open Science Practices in France) » va être lancée.
Elle vise à étendre les premiers résultats publiés aux données de la recherche en s’intéressant aux outils utilisés par les chercheurs et à leur culture des données.
Cette étude est pilotée par Mariannig Le Béchec, maitresse de conférences à l’Université Claude Bernard Lyon 1.
3- Réussir l’appropriation de la science ouverte par les communautés disciplinaires
Au cours de l’année 2019, un groupe du Collège Données a travaillé sur les usages et la gouvernance des données. Ses premières réflexions seront poursuivies et enrichies en 2020.
Ce travail s’appuiera sur la publication du livrable du Collège Données « Usages et gouvernances des données » où 6 préconisations avaient été formulées :
- définir ce qui doit être conservé ;
- décliner la science ouverte par discipline ;
- donner aux chercheurs.es la possibilité de se former en matière juridique ;
- donner aux chercheurs.es la possibilité de se former en matière de curation des données de la recherche ;
- organiser les soutiens humains nécessaires à l’ouverture des données ;
- structurer les infrastructures pour répondre aux besoins de la science ouverte.
À partir de ces 6 préconisations, le groupe de travail prévoit d’approfondir ces axes en privilégiant des études de cas autour de trois champs disciplinaires/objets spécifiques qui permettront de réaliser un état des lieux des problèmes et des orientations possibles.
- décliner les enjeux et perspectives de la science ouverte par discipline, en se concentrant sur les enjeux des données à travers trois études de cas : les données de santé, les cahiers de laboratoires et l’archéologie. L’objectif est ici de faire un état des lieux dans trois domaines très différents, afin d’identifier les difficultés et les préconisations adaptées à ces trois domaines ;
- retravailler sur le référentiel des archives de la recherche pour les domaines étudiés ;
- réaliser des ateliers de formation juridique à destination des communautés disciplinaires ;
- réaliser un schéma stratégique des soutiens humains nécessaires à la réalisation des objectifs d’ouverture des données ;
- suivre et alimenter l’étude de faisabilité pour un entrepôt de données simple.
Ce travail est l’objet d’un cofinancement du Comité pour la science ouverte et de la CURIF (Coordination des universités de recherche intensive françaises). Il est piloté par Anne Vanet, vice-présidente à la transformation numérique et à la science ouverte à l’université de Paris.
4- Prix des données de la recherche
Le prix des données de la recherche, prévu par le Plan national pour la science ouverte, sera initié en 2020. Ce prix, qui sera doté d’un financement, vise à récompenser « les équipes qui réalisent un travail exemplaire dans ce domaine ».
Toutes ces actions ne constituent que le programme indicatif du Collège Données pour 2020. En fonction des besoins et de l’actualité, d’autres groupes de travail pourront se constituer.
Pour tout contact ou toutes informations complémentaires : coso-donnees-cp@groupes.renater.fr
Les co-pilotes du Collège Données de la recherche
Véronique Stoll et Pierre-Yves Arnould