© Gwendoline Chopineau pour le CNRS

Sarah Cohen-BoulakiaSciences des données et bioinformatique

Médaille d’argent du CNRS

Professeure à l’Université Paris-Saclay et membre du Laboratoire interdisciplinaire des sciences du numérique1 .

La recherche en bioinformatique repose, comme bien d’autres, sur le traitement de grandes quantités de données hétérogènes. Ces dernières sont conçues, rassemblées, triées et manipulées par des processus informatiques automatisés appelés workflows. Les workflows s’échangent et se partagent entre les équipes de recherche, mais ils sont aussi devenus si complexes qu’ils ont besoin d’être eux-mêmes étudiés, en particulier pour les comparer et pour en décrire des similarités.

Sarah Cohen-Boulakia, professeure à l’Université Paris-Saclay et membre du LISN, développe des méthodes en sciences des données pour comparer différents workflows d’analyses de données biologiques. Pour cela, les workflows sont représentés abstraitement sous forme de graphes, dont les nœuds représentent les traitements informatiques sur les données et dont les arêtes modélisent les flux de données entre ces traitements. Sarah Cohen-Boulakia exploite ensuite les similitudes trouvées entre les workflows afin de les simplifier tout en garantissant qu’aucune de ces modifications structurelles n’aura d’impact sur leurs exécutions ainsi transformés.

De façon plus générale, ses travaux portent sur le développement de techniques pour mieux réutiliser, mais aussi pour rendre plus reproductibles les analyses de données scientifiques. Pionnière dans les critères faciles à trouver, accessibles, interopérables et réutilisables (FAIR) pour les workflows scientifiques, Sarah Cohen-Boulakia mène actuellement le projet ShareFAIR consacré à la transparence et à la reproductibilité dans la recherche. « Dans des domaines tels que la bioinformatique, les analyses passent par de nombreux outils dont on ne note pas toujours bien les versions et les paramètres, précise-t-elle. Quand on refait les calculs, on n’obtient alors pas forcément les mêmes résultats. Le phénomène s’amplifie avec l’avènement de l’intelligence artificielle, qui offre des solutions faciles d’utilisation pas toujours bien maîtrisées par les utilisateurs ».

Sarah Cohen-Boulakia a également travaillé sur la qualité des réponses à des requêtes sur des données biologiques issues de sources disparates. Comme le nombre de réponses peut très vite devenir gigantesque, il est nécessaire de les trier pour les rendre exploitables par les utilisateurs. La difficulté réside alors dans le fait de combiner des critères de classements variés (privilégier les données récentes, les données populaires, les données nettoyées et annotées, etc.). Elle a donc proposé une approche qui génère un classement consensuel minimisant les désaccords entre les classements obtenus selon les différents critères à combiner.

« J’aime être aux interfaces de différentes disciplines, formaliser un problème concret en un nouveau problème informatique suffisamment général pour s’appliquer in fine à d’autres domaines. »

Sarah Cohen-Boulakia a su habilement combiner des méthodes provenant de différents domaines informatiques (théorie des graphes, théorie de la preuve, gestion de données massives) et fédérer autour d’elle des équipes pluridisciplinaires, composées aussi bien de chercheurs et chercheuses confirmés, de doctorantes, doctorants, post-doctorantes, post-doctorants, ingénieures et ingénieurs, mêlant des compétences en biologie, en santé, en mathématiques et en informatique.

Cette expertise reconnue, en science des données appliquée à la bioinformatique, a notamment valu à Sarah Cohen-Boulakia de se retrouver à la tête du volet « intégration des données » du projet COVID-NMA. « J’ai été contactée en avril 2020 par le CNRS, au sujet d’une équipe d’épidémiologistes qui peinait à collecter l’ensemble des informations issues des essais cliniques sur le covid, se souvient Sarah Cohen-Boulakia. Je n’ai quasiment pas dormi durant les quinze premiers jours, mais j’ai fait les plus belles rencontres de ma vie de chercheuse. »

Enfin, la bioinformaticienne participe de façon remarquable à l’animation des communautés et la diffusion du savoir – en témoignent son implication dans la direction Groupement de recherche (GDR) Masses de données, informations et connaissances en sciences (MaDICS) du CNRS et de l’institut DATAIA2 .

Ce parcours riche et pionnier montre une passion pour la recherche en équipe interdisciplinaire, que Sarah Cohen-Boulakia fait remonter à ses enseignants de licence, notamment Alain Denise, professeur à l’Université Paris-Saclay, à sa directrice de thèse Christine Froidevaux, professeure émérite à l’Université Paris-Saclay (tous deux membres du LISN) et à son postdoctorat à l’université de Pennsylvanie avec Susan Davidson, qui y est professeure. Une approche aujourd’hui récompensée par le CNRS.

  • 1CNRS/Université Paris-Saclay
  • 2DATAIA est l’institut d’intelligence artificielle de l’Université Paris-Saclay. Sarah Cohen-Boulakia en est la directrice adjointe. Elle y coordonne les formations en intelligence artificielle et en sciences des données avec un important volet interdisciplinaire