Le logiciel de recherche, un pilier de la recherche scientifique ouverte
En février 2022, le Comité pour la science ouverte a créé le collège Codes sources et logiciels à partir du groupe « logiciels libres et open source », manifestant la prise en compte du logiciel au même niveau de considération que les publications et les données auxquels il est étroitement lié dans le processus de la recherche.
Ce collège est actuellement structuré en cinq groupes de travail, qui s’attachent chacun à étudier, selon un angle différent, la complexité des pratiques relatives au logiciel dans la recherche :
- Identification et mise en avant de la production logicielle de l’enseignement supérieur et de la recherche ;
- Outils et bonnes pratiques techniques et sociales ;
- Valorisation et durabilité ;
- Liaison et animation nationale, Europe, international ;
- Reconnaissance et carrières.
Toutes les disciplines scientifiques sont concernées
Le logiciel est un élément essentiel des processus de recherche dans la quasi totalité des disciplines scientifiques, dans les domaines des mathématiques, des sciences humaines et sociales, de la physique, de la chimie, de la biologie, …et bien sûr de l’informatique ! L’approche peut être différente d’une communauté à l’autre selon que le logiciel est un outil, un résultat ou un objet d’études, mais son rôle reste essentiel.
Cette activité est très largement sous-estimée et encore très peu valorisée. L’ampleur, tant en termes quantitatif que qualitatif, de la production logicielle dans la recherche est extrêmement difficile à évaluer.
Un des objectifs majeurs du collège « Codes sources et logiciel » est de mettre en lumière ces productions et leur importance pour la recherche.
Le logiciel libre a toujours eu un lien très étroit avec le monde scientifique. De très nombreux logiciels développés dans les laboratoires sont diffusés sous licences libres.
Cette démarche est intrinsèquement liée à la nécessité de l’ouverture de la science et des communs numériques associés, afin de permettre d’assurer la reproductibilité mais aussi de favoriser les contributions et l’émergence de codes communautaires.
De l’importance de définir l’objet logiciel de recherche
Afin de pouvoir construire et maintenir un catalogue national des logiciels de recherche, ce à quoi s’attelle également le collège Codes sources et logiciels, il est nécessaire de bien définir l’objet dont on parle.
Le collège a ainsi travaillé dans un premier temps sur une définition commune et partagée d’un logiciel de recherche. Après consultation de différentes communautés concernées, le collège a convergé vers la définition suivante :
« Les logiciels de recherche sont développés pour répondre à des besoins spécifiques de la science. Ils sont conçus, maintenus, et utilisés par des scientifiques (chercheurs et ingénieurs) et institutions de recherche, éventuellement dans une dimension internationale. Ils peuvent découler de travaux de recherche comme ils peuvent les favoriser, notamment par des publications avant/sur/autour/avec le logiciel. Ceux-ci peuvent se formaliser de différentes façons (une plateforme, un intergiciel, un workflow ou une bibliothèque, module ou greffon d’un autre logiciel) et être ainsi en interaction dans un écosystème ou au contraire plus autonomes. »
Cette définition va permettre de préciser le périmètre du catalogue. D’autres critères doivent être identifiés pour s’assurer de couvrir tous les cas de figures rencontrés dans le monde de la recherche. En particulier, le contexte du développement peut être très varié, depuis un logiciel développé dans le cadre d’une thèse, des scripts pour analyser des données, des prototypes jusqu’aux codes communautaires.
Enfin, le catalogue ne pourra être pertinent que si les informations collectées sont adéquates. Il s’agit donc également d’identifier les métadonnées les plus adaptées pour décrire un objet logiciel.
Le collège entend s’appuyer sur les initiatives existantes, et en particulier les plateformes Software Heritage et HAL, dont les équipes ont déjà beaucoup travaillé sur le sujet.
L’accompagnement des communautés
Le référencement des logiciels développés dans les laboratoires de recherche ne doit pas se limiter à un catalogage. Celui-ci n’aura de sens que si les codes sont réellement réutilisables, soit à des fins de reproductibilité, soit pour les utiliser dans des contextes différents.
Il est donc important, en parallèle de ce référencement, d’être pro-actif sur l’incitation aux bonnes pratiques pour faciliter les contributions, l’utilisation, la pérennisation, et renforcer également l’accompagnement sur les questions juridiques.
Une dynamique ancienne et affirmée
S’appuyant sur un historique de partage ancien et fortement lié aux pratiques communautaires développées dans le contexte des logiciels libres, la démarche de reconnaissance du logiciel en tant qu’élément incontournable de la production scientifique est bien entamée. Toutes les dimensions de la complexité de cet objet seront prises en compte dans les travaux à venir du collège « Codes sources et logiciel », qui tireront parti des retours de l’ensemble de la communauté scientifique.