Publié le 08.07.2022

Sommaire

Prix science ouverte des données de la recherche

Le ministère de l’Enseignement supérieur et de la Recherche remet pour la première année les prix "Science ouverte des données de la recherche". Ces prix mettent en lumière des projets, des équipes et des jeunes chercheurs engagés dans des pratiques exemplaires de gestion, de diffusion et de réutilisation des données de recherche.

Inscrits dans le deuxième Plan national pour la science ouverte, les prix "Science ouverte des données de la recherche" mettent en valeur des jeunes chercheurs, des projets et des équipes de recherche qui œuvrent à la gestion, la description, la diffusion et la réutilisation des données de la recherche. Les prix ont été attribués sur décision d’un jury d’experts présidé par Anne Laurent (Institut des Sciences des données, université de Montpellier). 

Les prix se déclinent en trois catégories :

  • la catégorie "réutilisation des données" récompense de jeunes chercheurs conduisant des projets de recherche en utilisant des données déjà disponibles et en rendant les données qu’ils produisent réutilisables ; 
  • la catégorie "créer les conditions de la réutilisation" récompense des équipes conduisant un travail exemplaire de gestion des données de recherche afin de les rendre réutilisables ; 
  • la mention spéciale du jury récompense des idées et projets exemplaires en terme d’ouverture ou de partage des données.

Les lauréats se voient remettre un trophée conçu par Alix Nadeau, Rose Vidal, Hugo Bijaoui et Lorris Sahli, étudiants de l’École des arts décoratifs, Paris, inspiré des valeurs de partage et de bien commun de la science ouverte. Chaque trophée a une forme unique, générée par un code logiciel sous licence libre à partir de la description du projet lauréat.

Catégorie "réutilisation de données" – prix jeunes chercheurs

Projet "TRF-GIS : Un Système d'Information Géographique de la France de la Troisième République (1870-1940)"

Victor GAY, actuellement Maître de Conférences à l’Université Toulouse 1 Capitole, a soutenu sa thèse en 2018 à l’Université de Chicago en économie. Son projet intitulé "TRF-GIS : Un Système d'Information Géographique de la France de la Troisième République (1870-1940)" retrace l’évolution annuelle des cartes et statistiques des structures administratives de cette période. Les données issues de ses travaux sont publiées et ont fait l’objet de "data papers". Victor GAY est par ailleurs responsable scientifique de la Plateforme Universitaire de Données de Toulouse (PUD-T), PROGEDO.

Projet "FR-PARL, DE-PARL, UK-PARL"

Naomi TRUAN, post-doctorante à l’Université de Leipzig en collaboration avec le Centre de Linguistique en Sorbonne (CeLiSo) à Paris, conduit des recherches en linguistique. Son projet intitulé "FR-PARL, DE-PARL, UK-PARL" s’appuie sur un corpus de transcriptions de débats parlementaires français, allemands et britanniques.

Les données ont été traitées et enrichies par de l’annotation linguistique et socio-politique, ce qui a permis d’enrichir leur analyse et les rend facilement réutilisables. Les données, disponibles sur le site ortolang.fr, ont déjà été réutilisées et sont répertoriées par CLARIN (Common Language Resources and Technology Infrastructure), l’infrastructure européenne dédiée aux ressources linguistiques.

Catégorie "créer les conditions de la réutilisation"

Projet "EMM - Registre des enquêtes sur les minorités ethniques et migrantes"

Le projet "EMM - Registre des enquêtes sur les minorités ethniques et migrantes" appartient au domaine des sciences sociales. Le registre des enquêtes sur les minorités ethniques et migrantes (EMM) est un outil en ligne gratuit qui permet de rechercher et de caractériser les enquêtes quantitatives réalisées dans 34 pays européens auprès des minorités ethniques et migrantes.

Le projet réunit une équipe de 12 personnes au Centre d'études européennes et de politique comparée (Sciences Po/CNRS) et à l’Institut national d’études démographiques (Ined). Il a été financé par l’Action COST 16111 - EthmigSurveyData, le projet Horizon 2020 SSHOC et le projet ANR Science Ouverte FAIRETHMIGQUANT. 

Le projet a été déposé par Laura Morales (Professeure des Universités à Sciences Po Paris).

Projet "NORINE – Base de données de peptides non-ribosomiques et outils pour leur analyse et visualisation"

Le projet "NORINE – Base de données de peptides non-ribosomiques et outils pour leur analyse et visualisation"  appartient au domaine de la bioinformatique. Le projet met à disposition des communautés en biologie, biochimie, phytochimie, pharmacologie, biologie marine, etc. une base de connaissances et une plateforme logicielle dédiées aux "peptides non-ribosomiques (NRP)". Les NRPs sont produites par des bactéries et champignons et peuvent servir pour les antibiotiques, les anti-rejets de greffes, les anti-inflammatoires, les anticancéreux, etc. La pénicilline en est l’un des exemples les plus connus.

Toutes les données du projet sont accessibles librement. Le projet est présenté par une équipe de 7 personnes (enseignants-chercheurs, ingénieurs de recherche, documentalistes) issues de l’UMR CNRS CRIStAL (Univ. Lille, CNRS, Centrale Lille), de l’Institut régional de recherche Charles Violette, UMR BioEcoAgro (INRAE, Univ. Lille, Univ. Liège, Univ. Picardie), de la plateforme BiLille, de l’UMS PLBS (Univ. Lille, CNRS, Inserm, Pasteur Lille, CHU Lille), et d’Inria.

Le projet a été déposé par Areski Flissi de l’UMR CRIStAL (CNRS/Université de Lille).

Projet "MOBILISCOPE - cartes et graphiques interactifs de visualisation des variations de la population"

Le projet "MOBILISCOPE - cartes et graphiques interactifs de visualisation des variations de la population" appartient au domaine de la géographie. Mobiliscope, la ville à toute heure propose un outil de géovisualisation issu de données de grandes enquêtes publiques.

Des cartes et graphiques interactifs permettent de visualiser heure par heure la population présente dans les villes au cours de la journée pour 10 000 communes françaises. Un long travail d’anonymisation des données et de traitement de plusieurs sources de données a été nécessaire pour aboutir à ce résultat.

Le projet réunit une équipe de 6 personnes. Il est porté par Julie Vallée de l’UMR Géographie-cités (CNRS, Université Panthéon-Sorbonne, Université Paris Cité et École des Hautes Études en Sciences Sociales).

Catégorie "mention spéciale du jury"

Projet "Prospection d’Amathonte - site archéologique de l’île de Chypre fouillé par une mission française"

Le projet "Prospection d’Amathonte - site archéologique de l’île de Chypre fouillé par une mission française" appartient au domaine de l’histoire.

Le projet a permis la publication des données sur les sites archéologiques découverts lors de la prospection du territoire d’Amathonte (1988-1992). Il s'appuie sur la très grande infrastructure en humanité numérique Huma-Num et sur son outil de partage, de publication et de diffusion des données Nakala. Il intègre un vocabulaire mis en lien avec les standards du domaine, dans le respect des principes FAIR, pour rendre les données faciles à trouver, accessibles, interopérables et réutilisables. 

Le projet a été mené par une équipe de 4 personnes est porté par Anna Cannavò du Laboratoire HiSoMA (CNRS).

Projet "MouseTube - enregistrements de vocalisations de souris"

Le projet "MouseTube - enregistrements de vocalisations de souris" contribue à l’étude du comportement animal.

Il fournit un site Web dédié au partage de vocalisations de souris afin de permettre l’étude de la communication ultrasonore chez ces animaux. Le partage de ces données enrichies de métadonnées permet à chaque laboratoire (650 utilisateurs) de mener ses travaux malgré la disparité des pratiques, tout en réduisant le nombre d’animaux utilisés.

Le projet est présenté par Nicolas Torquet, de l’IGBMC (CNRS, INSERM, Université de Strasbourg).

Projet "YAGO - base de connaissances"

Le projet "YAGO - base de connaissances" appartient au domaine de l’Informatique.

Engagé depuis 15 ans, YAGO est l’un des pionniers du web sémantique qui fait aujourd’hui référence. Il a permis la construction d’une base de connaissance s’appuyant notamment sur Wikipedia et Wikidata et qui peut être utilisée par de nombreux outils, notamment dans le cadre des applications en intelligence artificielle, pour apporter de la connaissance sur le monde réel. Des méthodes ont été intégrées pour traiter et nettoyer les données en entrée et rendre ainsi un service très fortement interopérable et de qualité qui se retrouve au cœur de nombreux projets d’ouverture de données au sein du "Linked Open Data" (données ouvertes liées).

Le projet est présenté par une équipe de 3 personnes de Telecom Paris et de l’Institut Max Planck pour l’informatique en Allemagne.

Il est porté par Fabian Suchanek, Telecom Paris.