Étude comparative des services nationaux de données de recherche | Facteurs de réussite

Comité pour la science ouverte – collège Données de la recherche – groupe Service générique d’accueil et de diffusion de données simples

Rédacteur : Hugo Catherine (Université Paul Valéry – Montpellier 3)

6 janvier 2021

Résumé

Cette étude s’inscrit dans le cadre de travaux, commandés par le Comité pour la Science Ouverte/Ministère de l’enseignement supérieur, de la recherche et de l’innovation (COSO/MESRI), à l’intention de l’Institut de la recherche pour le développement (IRD), qui visent à évaluer la faisabilité d’un service générique d’accueil et de diffusion des données simples.

Ce travail a pour objectif de nourrir la réflexion en présentant un état des lieux de différents services nationaux de données.

Il porte sur sept infrastructures de services qui se sont développées dans des contextes différents mais qui partagent un grand nombre de points communs, à commencer par offrir un accès à un service de données à l’ensemble des chercheurs, à l’échelle nationale.

Que ce soit pour faciliter l’accès et le partage de l’information scientifique ou répondre aux exigences des bailleurs de fonds, les services nationaux de données qui font l’objet de cette étude se sont développés autour d’un noyau de fonctionnalités communes :

un service de dépôt,
un service d’archivage pérenne,
un service d’assistance et d’accompagnement à la gestion des données.

La plupart d’entre eux ont aussi choisi de proposer un service de signalement et d’accès qui s’appuie soit sur un outil de découverte interne, soit sur un moteur de recherche fédérant l’accès à des données provenant de services externes à celles déposées dans leurs entrepôts.

Fruit de projets au long cours, les services nationaux de données restent des initiatives plutôt récentes, l’une d’entre elles doit ouvrir ses services au début de l’année 2021.

Compte tenu du contexte très dynamique qui voient se multiplier les projets d’entrepôts institutionnels, le “temps long” qui caractérise la mise en place de services nationaux incite les opérateurs à opter pour des solutions techniques et organisationnelles flexibles, de manière à pouvoir s’adapter à l’évolution des usages et des attentes des utilisateurs.

Dès le stade du projet, la consultation des acteurs clés et représentatifs de la diversité des écosystèmes scientifiques s’avère incontournable pour construire l’offre de services au plus près des attentes des publics visés.

Une fois le service mis en place, ce principe de co-construction prévaut tout autant : rôle déterminant des institutions partenaires au sein des comités consultatifs, appels à projets de service, implication des chercheurs pour développer de nouveaux outils (ex. retours exprimés par les utilisateurs, recueil des besoins, tests).

De la même manière, les services de données inscrivent leur activité au sein de réseaux nationaux et internationaux, ce qui participe à définir et renforcer leur rôle.

La majeure partie de ces infrastructures nationales s’appuie sur le financement structurel assuré par le ministère de la recherche ou un bailleur de fonds public. En s’appuyant sur la collaboration ou la fédération, l’objectif de ces initiatives nationales est aussi de réduire les coûts pour l’ensemble des partenaires.

Ces économies d’échelle, l’évaluation continue des services, l’interopérabilité des outils avec les écosystèmes existants et la fiabilité des solutions techniques représentent des points d’attention déterminants pour l’ensemble de ces dispositifs car ils conditionnent leur pérennité.

Sommaire

Glossaire

Sigles

Résumé

1. Gouvernance

1.1 Australie – Australian Research Data Commons (ARDC)

1.2 Norvège – Dataverse Norway (DNO)

1.3 Pays-Bas – Dutch Archived and Networked Service (DANS)

1.4 Canada – Dépôt Fédéré des Données de Recherche

1.5 Grande-Bretagne – JISC Open Research Hub (JORH)

1.6 Allemagne – Research Data Repository (RADAR)

1.7 Grande-Bretagne – United Kingdom Data Service (UKDS)

2. Offre de services

2.1 Producteurs de données

2.1.1 Dépôt de données

2.1.2 Archivage pérenne des données

2.1.3 Stockage des données

2.1.4 Aide à la gestion des données

2.1.5 Accès réservé aux relecteurs scientifiques

2.1.6 Soutien financier dédié à la gestion et à l’ouverture de données

2.1.7 Gestion des accès

2.2 Utilisateurs des données

2.2.1 Outil de découverte interne versus portail de recherche fédéré

2.2.2 Services de calcul, d’analyse et de collaboration

2.2.3 Services d’accès aux données sensibles

2.3 Réseaux d’expertise et d’accompagnement

3. Organisation et mutualisation des services

3.1 ARDC : faciliter l’émergence de communautés de pratiques et le développement d’outils partagés

3.2 DANS : des services distribués au sein d’un réseau de partenaires

3.3 Dataverse NO : un entrepôt administré par les services d’une université, des collections gérées par les universités partenaires

3.4 DFDR : des services fédérés alliant infrastructures de données, universités et réseau de bibliothécaires

3.5 JORH : des prestations logicielles intégrées aux environnements techniques des institutions clientes

3.6 RADAR : des services distribués entre établissements partenaires

3.7 UKDS : un service distribué sous la forme de contrats de sous-traitance entre l’université d’Essex et les institutions partenaires

4. Modèle économique

4.1 ARDC : une plateforme de services entièrement financée par le gouvernement australien

4.2 DANS : un modèle alliant financement structurel, soutien aux projets et contribution des établissements partenaires

4.3 Dataverse NO : un service financé par l’université hôte et la contribution des établissements partenaires

4.4 DFDR : un modèle en cours de définition

4.5 JORH : modèle économique basé sur l’abonnement à des offres de service

4.6 RADAR : financement réparti à parts égales entre l’établissement d’accueil et des institutions partenaires

4.7 UKDS : financement structurel de l’ESRC et des établissements partenaires

5. Synthèse

5.1 Degré de maturité des services

5.2 Priorités affichées par les dispositifs

5.2.1 Quels objectifs ?

5.2.2 Pour quels publics ?

5.2.3 Offre de services

5.3 Des services co-construits et développés avec l’ensemble des acteurs

5.3.1 Avec les partenaires institutionnels

5.3.2 Au sein de réseaux nationaux et internationaux

5.3.3 En sollicitant les communautés de recherche

5.4 Modèles économiques

5.5 Economies d’échelle

5.6 Pérennité du service

5.6.1 Evaluation des services

5.6.2 Démarches de certification

Conclusion

S’insérer de manière pragmatique et agile au sein d’écosystèmes nationaux et internationaux dynamiques

Sites web utiles

Bibliographie

Annexes

Annexe 1. Identifiants, métadonnées et indicateurs utilisés par les services nationaux de données

Annexe 2. Fonctionnalités des services nationaux de données

Annexe 3. Ressources des services nationaux

Annexe 4. Fair-Aware, outil d’auto-évaluation aux principes FAIR développé par DANS NL, Digital Curation Center et l’université de Brême

Annexe 5. Arbre de décision DOI développé par le service DOI de l’Australian Research Data Commons (ARDC)

Annexe 6. Exemple de résultat proposé par Qualibank, banque de données qualitatives proposée par l’UKDS

Annexe 7. Captures d’écran extraites du Data costing tool développé par l’UKDS

Annexe 8. QA My Data, outil de curation développé par l’UKDS

Annexe 9. Forces et faiblesses du modèle économique de Dataverse Norvège (2020)

Annexe 10. Etat des lieux de l’implémentation des principes FAIR au sein de Dataverse Norvège (2020)

Table des matières

Table des illustrations