Cette initiative inscrite dans le deuxième Plan national pour la science ouverte met en valeur des chercheurs, des projets et des équipes de recherche qui œuvrent à la gestion et à la diffusion de données et, pour certains d’entre eux, appuient leurs travaux de recherche sur la réutilisation des données déjà disponibles.
Cette année, le prix s’est décliné en 3 catégories.
Le prix « créer un jeu de données manquantes » récompense quatre projets exemplaires dans la mise à disposition d’un nouveau jeu de données répondant à un besoin scientifique thématique.
Le prix « créer les conditions de la réutilisation » récompense deux équipes conduisant un travail exemplaire de gestion des données de recherche afin de les rendre réutilisables.
Le prix « mention spéciale du jury », un projet exemplaire de mise à disposition et d’enrichissement des données.
Les prix ont été remis le 26 novembre 2024 à l’occasion des Assises Nationales des Données de la Recherche qui se sont tenues à Marseille.
Catégorie « créer un jeu de données manquantes »
Base Étendue, Améliorée et Unifiée des Annonces des Marchés Publics
Le projet « Base Étendue, Améliorée et Unifiée des Annonces des Marchés Publics » présente un nouveau jeu de données sur l’attribution des marchés publics en France, à grande échelle de 2015 à 2023, en consolidant et structurant les données textuelles du Bulletin Officiel des Annonces des Marchés Publics croisé aux données de l'INSEE sur les entreprises et les acheteurs publics. Ces données complexes et souvent parcellaires sont consolidées par l’utilisation d'algorithmes d’IA qui cherchent à établir les alignements les plus probables avec les agents économiques (SIRET) décrits dans d’autres bases de données.
Ce projet a fait l’objet d’un financement ANR et est porté par deux étudiants en thèse - Adrien Deschamps, doctorant en économie et Lucas Potin, doctorant en informatique – à Avignon université.
Carminabase
Carminabase est une base de données de formules d’incantation médiévales issues de collections de recettes médicales, de traités de médecine, de sermons, ou de marges de différents manuscrits. Carminabase réunit et consolide ces données dispersées en les enrichissant de métadonnées permettant de replacer ces pratiques incantatoires dans une perspective d’anthropologie historique. Les données sont accessibles dans un entrepôt thématique de données. Elles peuvent aussi être consultées via une interface dédiée. Carminabase comprend actuellement 236 charmes et s'enrichit en continue de nouvelles données et de de métadonnées telles que des éléments de critique textuelle et plusieurs indexations thématiques.
Ce projet est porté par un collectif de recherche de l’École des hautes études en sciences sociales (EHESS).
Cartographie nationale des milieux humides
Ce projet intitulé « Cartographie nationale des milieux humides » vise à créer un jeu de données afin de localiser les milieux humides et caractériser les habitats naturels, semi-naturels et anthropiques des milieux humides sur l’ensemble de la France métropolitaine. Les cartes sont réalisées grâce à l’intelligence artificielle, à partir de données en libre accès, de télédétection et d’observations in situ disponibles en libre accès. Ce jeu de données n’est pas uniquement orienté pour la recherche, mais également vers les politiques publiques et le grand public avec un rayonnement vers la société.
Ce jeu de données est proposé par un groupe pluridisciplinaire réparti sur plusieurs établissements : Université Rennes 2, Muséum national d'histoire naturelle (MNHN), Institut Agro Rennes-Angers, Fondation Tour du Valat, Institut national de recherche pour l'agriculture, l'alimentation et l'environnement (Inrae), et Centre national de la recherche scientifique (CNRS).
Mapping Ancient Polytheisms
Le projet « Mapping Ancient Polytheisms » a créé la première base de données sémantique d’éléments linguistiques sur les interactions entre les hommes et les dieux, au travers de documents de la période 1000 avant notre ère et 400 après notre ère, soit près de 1500 ans, sur le bassin méditerranéen en langues grecque et sémitiques (hébreu, araméen, phénicien, punique, etc). La base de données est accessible en téléchargement depuis un entrepôt académique et explorable par une plateforme dédiée. Un travail conséquent de compilation et d’indexation des données pour l’accessibilité grand public, dans un domaine de niche. Le dépouillement de nouvelles sources assure un accroissement régulier de la base et permet d’envisager une exhaustivité des études religieuses sur le polythéisme.
Ce projet a fait l’objet d’un financement ERC Advanced Grant et est développé par un collectif de l’université de Toulouse.
Catégorie « créer les conditions de la réutilisation »
MAKAHO
Le projet MAKAHO partage des résultats de calcul de tendances issus de données primaires ouvertes de stations hydrométriques aux débits peu influencés par les actions humaines. Ces produits de données sont disponibles sur la plateforme Recherche Data Gouv et sont valorisés à travers une interface de visualisation interactive qui valorise les données. Les jeux de données et outils associés présentent un intérêt pour la médiation scientifique dans le domaine du changement climatique et pour l’appui aux politiques publiques. Un potentiel de réutilisation accru grâce à une documentation riche et un accès ouvert.
Ce projet est porté par un collectif de chercheur au sein de l’institut national de recherche pour l'agriculture, l'alimentation et l'environnement (Inrae).
MDVerse
Le projet MDverse a pour objectifs de cataloguer les données issues de simulations de dynamique moléculaire disponibles dans différents entrepôts de données ouvertes, d’améliorer les métadonnées existantes pour rendre ces données plus facilement trouvables et réutilisables par la communauté scientifique. MDVerse permet de mettre en avant des données ouvertes, mais demeurant discrètes, en enrichissant leur description et leurs métadonnées via la mise à disposition d’un métamoteur facilitant la découverte de ces données et d’un indicateur de potentiel de réutilisation défini par des experts du domaine.
Ce projet est mené par un collectif français de l’université Paris Cité (UPC), et du Centre national de la recherche scientifique (CNRS), avec des collaborateurs internationaux.
Catégorie « mention spéciale du jury »
LaCAS
LaCAS se positionne comme un outil de référence pour la communauté des chercheurs en études aréales. C’est une plateforme développée par l’Institut national des langues et civilisations orientales (Inalco), qui moissonne, agrège, structure et enrichit des ressources hétérogènes en études aréales issues des archives ouvertes et entrepôts de données. Elle classe et structure ces données pour les éditorialiser sur LaCAS Publications avec un alignement et une mise en relation de données hétérogènes (textes, vidéos, sons, images) moissonnées sur de multiples entrepôts (HAL, Zenodo, Nakala, Gallica, Calame, Isidore, Persée, Open Alex, Semantic Scholar), en utilisant et enrichissant un thésaurus conséquent.
LaCAS a fait l’objet d’un financement SESAME de la région Île-de-France et d’un financement IdEx de l'Université Paris-Cité.
Jury
Le jury du prix science ouverte des données de la recherche édition 2024, présidé par Aude Chambodut (Déléguée Scientifique Science Ouverte et Données au CNRS INSU, Physicienne des observatoires à l’Ecole et Observatoire des Sciences de la Terre de l’Université de Strasbourg) était composé de :
- Mme Esther Dzalé (GenEval)
- M. Roesch Etienne (University of Reading)
- M. Hadi Quesneville (INRAE)
- Jean-Denis Vigne (MNHN)
- Julie Vallée (CNRS)
- Olivier Marlet (Université de Tours)
- Pascal Hot (Université Savoie Mont Blanc)