Étude de faisabilité d’un service générique d’accueil et de diffusion des données simples : recueil des besoins et des contraintes des usagers
Comité pour la science ouverte – collège Données de la recherche – groupe Service générique d’accueil et de diffusion de données simples
Les membres du groupe sont accompagnés par le cabinet Datactivist.
Synthèse de la phase 1 de l’étude de faisabilité
2 novembre 2020
Un résumé de cette première phase est disponible sur le site.
Contexte de l’étude
La présente étude s’inscrit dans l’action “Développer un service générique d’accueil et de diffusion des données simples” de l’axe “Structurer et ouvrir les données de la recherche” du Plan National pour la Science Ouverte.
Émergence institutionnelle de la Science Ouverte
Évolutions récentes du cadre réglementaire et institutionnel :
- La loi pour une République numérique pose le principe de l’ouverture des données de la recherche publique (2016)
- Le programme européen Horizon 2020 rend obligatoire l’ouverture des données de recherche quand cela est possible (2017)
- Le Plan national pour la science ouverte prévoit de rendre obligatoire l’ouverture des données de recherche issues de programmes financés par appels à projets sur fonds publics, lorsque cette ouverture est possible (2018)
- L’Agence Nationale pour la Recherche rend obligatoire le Plan de Gestion des Données pour les projets financés (2019)
…
Préambule : périmètre de l’étude
Questions sur le positionnement et le besoin d’un service générique national d’entrepôt des données de la recherche
Au début de l’atelier et des entretiens, les participants ont formulé un certain nombre de questions et d’objections sur l’ouverture des données, le choix des données à ouvrir et les modalités de cette ouverture.
Les questions et objections se rapportent à deux grands thèmes :
- Quelles données devons-nous, pouvons-nous, voulons-nous ouvrir, et quand ?
- Pourquoi déposer les données sur un service générique et national ?
Nous avons pris le temps d’écouter ces questions et objections et de clarifier le périmètre de l’étude.
Les questions et les objections reflètent la diversité :
- des profils des participants,
- des pratiques disciplinaires,
- des initiatives en cours dans les établissements et organismes,
- des initiatives dans les disciplines (TGIR),
- des contraintes réglementaires (données personnelles, propriété intellectuelle, secret industriel…),
- des opportunités et des risques perçus dans les communautés scientifiques (valorisation économique, course à la publication…)
Apporter des réponses précises aux questions et lever les objections sera une condition nécessaire au succès d’un éventuel service d’entrepôt des données de la recherche.
Quelles données ouvrir ?
Les participants se demandent quelles données ils doivent, peuvent, veulent ouvrir et déposer sur un entrepôt, quand et comment :
- Des données avec une date de péremption, dont la pertinence décroîtra avec le temps, voire qui deviendront inexploitables ou caduques ?
- Des données qui peuvent être reproduites, issues de simulations ?
- Des données correspondant à des résultats négatifs, issues d’expérimentations qui n’ont pas permis de répondre à la question initiale ?
- Des données personnelles (médicales, entretiens, enquêtes…) anonymisées ou agrégées ? Avec quelles modalités, quelles bonnes pratiques, quelles garanties ?
Pourquoi un service générique et national ?
Les participants s’interrogent sur la pertinence de déposer les données de la recherche sur un entrepôt :
- générique, plutôt qu’adapté au plus près des besoins des communautés disciplinaires,
- national, plutôt qu’européen (a minima) ou international, dans un contexte de circulation des connaissances et de collaboration mondialisées.
Les avantages d’un entrepôt national
Pour les participants, un entrepôt national est pertinent en tant qu’infrastructure :
- neutre vis-à-vis des établissements, qui lui permet d’être un lieu de dépôt des données adapté aux projets partenariaux et évitant les conflits de multi-appartenances institutionnelles,
- mutualisée à l’échelle de la communauté de l’ESR français, qui permet d’éviter la multiplication des initiatives, la dispersion des efforts et le gaspillage des moyens.
Les besoins exprimés couvrent tout le cycle de vie des données
Les besoins pour un entrepôt évoquent des besoins connexes :
- stockage de la donnée dès sa création (acquisition, génération),
- non-perte de données,
- traitement et analyse des données collectées,
- préservation et stockage à long terme,
- curation de la donnée,
- archivage.
Ces besoins sont réels mais dépassent le périmètre de notre étude.