Le rapport propose un état des lieux du référencement des logiciels issus de la recherche selon une approche globale qui inclue les pratiques des communautés scientifiques, les infrastructures associées, les schémas de métadonnées, les catalogues existants et l’écosystème de l’accompagnement.

Vers un catalogue des logiciels issus de la recherche

Violaine LOUVET (CNRS, Université Grenoble Alpes)
Sabrina GRANGER (Inria, Software Heritage)
Roberto DI COSMO (Inria, Université Paris Cité)
François PELLEGRINI (Université de Bordeaux, Inria)

Juillet 2024

Lire le rapport sur HAL

 

L’un des objectifs majeurs du collège « Codes sources et logiciels » du comité pour la science ouverte est de contribuer à une meilleure compréhension du rôle du logiciel dans la recherche.

Le logiciel de recherche constitue une production scientifique de même importance que les publications et les données : ces trois facettes du savoir académique interagissent les unes avec les autres. De très nombreuses disciplines sont concernées, bien au-delà des sciences de l’informatique. Par « logiciel de recherche », on entend un logiciel créé, utilisé ou diffusé dans les productions de recherche. L’analyse reprend la définition du logiciel de recherche conçue par le collège.

Les communautés scientifiques, les laboratoires et les institutions ont besoin d’identifier et de rendre visibles leurs logiciels pour :

  • garantir leur archivage et en pérenniser l’accès ;
  • faciliter leur citation ;
  • les valoriser, notamment sur le plan scientifique, afin de permettre leur réutilisation ;
  • faire émerger de nouvelles collaborations.

Les logiciels développés dans les laboratoires de recherche étant de natures très diverses, il est nécessaire de mener une réflexion sur les critères de référencement et de conservation. Ainsi, les logiciels liés d’une manière ou d’une autre à une publication doivent être considérés comme particulièrement importants, notamment vis-à-vis des aspects de transparence et de reproductibilité. Les critères techniques ne permettent pas à eux seuls d’établir des priorités pertinentes : par exemple, un groupe restreint d’auteurs ou de contributeurs peut être à l’origine d’un logiciel peu complexe et de taille modeste mais dont l’impact académique est majeur. En d’autres termes, le degré de sophistication technique d’un logiciel, ou son nombre d’auteurs ou de contributeurs ne permettent pas, à eux seuls, d’augurer de son impact scientifique.

Les institutions et les auteurs de logiciels mobilisent déjà des canaux pour rendre leurs productions visibles : pages dédiées de sites web, plateformes de distribution, etc. Un catalogue de logiciels apporterait aux établissements comme aux individus des services complémentaires, notamment en fournissant un point d’entrée centralisé et des fonctionnalités plus riches que celles des moteurs de recherche généralistes. L’enjeu est double. D’une part, il s’agit d’inscrire la démarche dans un contexte élargi, afin d’identifier les infrastructures et initiatives existantes, en France comme à l’étranger. D’autre part, l’utilisateur final doit être placé au centre du processus : la charge de travail pour les chercheurs doit être réduite au maximum grâce à des processus d’automatisation.

Au-delà des enjeux techniques et fonctionnels, la problématique de l’accompagnement doit être prise en compte dès le début de la réflexion. De nombreux acteurs, aux profils et compétences variés, sont susceptibles de jouer un rôle en lien avec les logiciels. Outre les chercheurs et enseignants-chercheurs, on peut citer les personnels de soutien à la recherche, les personnels des bibliothèques et les équipes des services de valorisation. La dynamique actuelle autour des données de recherche offre un cadre sur lequel s’appuyer pour mettre en œuvre des actions d’accompagnement et renforcer une culture partagée du logiciel de recherche.

Enfin, une approche unifiée, tant sur le plan technique que sur celui de la gouvernance, permettra d’intégrer à la réflexion la question de la stratégie à adopter sur le long terme. Il s’agit en effet de positionner le projet de catalogue en cohérence avec l’écosystème de recherche français, à l’échelle des laboratoires comme des institutions.

 

 

Résumé

1 | Introduction

Le logiciel, un sujet transdisciplinaire

Des enjeux désormais mieux identifiés à l’échelle nationale

Un état des lieux pour préparer l’action

2 | Définitions

Logiciel de recherche

Des contextes de développement pluriels

Le cas des logiciels « outils » de la recherche

3 | Analyse des usages et des besoins

Identifier des logiciels via un catalogue : une pratique peu ancrée parmi les répondants

Avantages d’un catalogue de logiciels

Les bénéfices perçus par les répondants de l’enquête

La standardisation et l’enrichissement des métadonnées : les perspectives offertes par un catalogue de logiciels

Structuration et fonctionnalités du catalogue : les attentes des répondants

4 | Exemples de catalogues

Eléments communs à tous les catalogues : éléments descriptifs et fonctionnalités

Analyse selon les types de catalogues

Catalogues à destination des communautés scientifiques

Catalogues à destination d’un public plus large que celui de l’enseignement supérieur et de la recherche

Questions autour de la gouvernance et des moyens

Besoins en moyens humains

Code.gouv.fr/public, un catalogue à portée générale

swMATH, un catalogue pour la communauté des mathématiques

Un partage d’expériences au niveau international : SciCodes

Point de vigilance 10 : les leçons du projet PLUME

5 | Perspectives pour une approche nationale unifiée

Software Heritage, l’archive internationale de code source

Un point d’entrée unifié vers des millions de logiciels

Les modalités d’alimentation de l’archive

Une infrastructure à vocation internationale solidement ancrée dans la politique française de science ouverte

HAL, l’archive ouverte pluridisciplinaire nationale

Les principes fondateurs de HAL

Le dépôt de codes sources dans HAL : une fonctionnalité issue d’une collaboration

L’inscription de HAL dans la politique nationale de science ouverte

Normaliser l’échange de métadonnées logicielles : des initiatives internationales

CodeMeta, un format d’échange et une palette d’outils pour créer des métadonnées intrinsèques

Au-delà de CodeMeta : Citation File Format (CFF), un format descriptif très répandu

Autre élément d’intérêt : les systèmes de badges

6 | Une dynamique inter-métiers autour de l’accompagnement

Un périmètre élargi d’acteurs à faire collaborer ensemble

Assurer la qualité des métadonnées, un enjeu premier

S’appuyer sur une dynamique nationale, à l’instar de ce qui est fait pour les données de recherche

Une offre de services pouvant appeler des compétences très différentes

Bibliographie indicative

Remerciements

A | Liste des catalogues analysés