Le 15 février 2018, l’Institut Dataia, était officiellement lancé. Sa directrice, Nozha Boujemaa, nous en dit plus sur ses axes de recherche prioritaires et les circonstances qui ont présidé à son émergence au sein de l’écosystème de Paris-Saclay.
– Si vous deviez pitcher la vocation de cet Institut Dataia ?
Comme son nom le suggère, cet institut est dédié à la science des données et à l’intelligence artificielle, dans leur rapport – c’est une autre de ses originalités – à la société. Cette journée du 15 février était consacrée à son lancement officiel. Y sont intervenus, en matinée, des chefs d’établissements fondateurs (les Universités de Paris-Saclay et de Paris-Sud, l’Ecole polytechnique, Institut Mines-Télécom, Inria, le CNRS, le CEA, EDF, sans oublier CentraleSupélec, où se déroulait la journée), puis, l’après-midi, des chercheurs et des industriels, représentatifs des quatre axes prioritaires que nous nous sommes fixés.
Le premier est consacré à « l’apprentissage automatique et l’intelligence artificielle ». Soit le domaine qui progresse actuellement le plus vite, mais pour lequel subsistent des questions difficiles à traiter notamment en matière d’apprentissage de situations imprévisibles. Il s’agira, avec le concours des mathématiciens et des informaticiens, d’aller au-delà du deep learning, en recherche fondamentale.
Le deuxième axe, « Des données à la connaissance, des données à la décision », traitera des enjeux aussi importants que les interfaces entre les sciences des données et l’optimisation, l’évolution des interactions Homme Machine, les chatbots, la gestions des données hétérogènes et distribuées à large échelle,… Concrètement, il s’agira de savoir comment extraire des connaissances à partir de données pour des décisions optimales au vu de paramètres, de contraintes et de contextes à chaque fois différents.
Le 3e axe prioritaire, « Transparence, responsabilité et éthique », concerne plus spécifiquement les systèmes algorithmiques : il s’agira de traiter de leur robustesse et de leur fiabilité, de savoir comment lutter contre les biais. Force est de constater que les algorithmes deviennent de plus en plus prescriptifs. Se pose alors la question de savoir où se situe la responsabilité d’un point de vue juridique. Une question complexe quand on sait que des algorithmes d’apprentissage, par exemple, sont disponibles en librairies open-source, ce qui impose de connaître l’ensemble des acteurs de la chaine, entre ceux qui les ont conçus, ceux qui les ont paramétrés, ceux qui les ont entrainés , enfin, ceux qui les ont déployés.
A quoi s’ajoute un enjeu en termes de formation. A partir du moment où les algorithmes sont disponibles dans les nombreuses librairies fonctionnant en open-source, qu’il n’est plus utile de refaire un algorithme de régression de zéro (from scratch), la science des données tend à exiger de savoir réutiliser l’existant à bon escient et avec rigueur quant à la finalité du problème à résoudre.
– Cela signifie-t-il qu’elle inclinerait-elle à une forme de frugalité ?
Oui, absolument ! Un bon data scientist doit savoir valoriser des algorithmes disponibles. De là l’enjeu de formation que j’évoquais : il importe de former la prochaine génération de data scientists à ce genre de démarche. Les entreprises ne souhaiteront plus nécessairement mobiliser des ingénieurs pour refaire de la programmation d’algorithmes simples, comme celui de la régression, en partant de zéro, alors qu’une multitude de librairies mettent à disposition des algorithmes en open source.
– Qu’en est-il du 4e axe ?
Il concerne la « protection des données, leur régulation et leur modèles économiques ». Un axe illustré par le dernier exposé de la journée, sur « l’avènement d’une gestion individuelle de nos données personnelles ». Un exposé d’autant plus intéressant qu’il était fait en duo par deux chercheurs de deux établissements différents – Célia Zolynski, une juriste de l’Université de Versailles Saint-Quentin-en-Yvelines, et Nicolas Anciaux, un informaticien d’Inria Paris-Saclay.
– Dans quelle mesure voulez-vous cultiver cette interdisciplinarité ?
Cette interdisciplinarité est la raison d’être de l’Institut Dataia. La science des données n’a de sens que si elle fait dialoguer des disciplines, y compris en sciences sociales et humaines. A travers l’institut, nous voulons donc décloisonner les approches et les disciplines, faire en sorte qu’elles s’associent en amont. L’erreur serait de vouloir développer des algorithmes en cherchant d’abord la performance, sans vérifier au préalable leur conformité avec le droit sinon des considérations éthiques ou encore la pertinence du modèle économique ou social sous-jacent.
– Concrètement, comment fonctionnera l’Institut Dataia ?
L’institut dispose d’un budget annuel d’environ 1,2 million d’euros. Des moyens substantiels que nous flécherons sur plusieurs actions, une des principales consistant à financer des projets de recherche au travers de postes d’ingénieurs, de doctorants et de post-docs. L’institut prendra également en charge le séjour de personnalités internationales (à la fois pour l’animation de séminaires, le co-encadrement de thésards ou encore la co-publication avec nos chercheurs), des écoles d’été et des workshops dans l’idée de favoriser l’émergence d’idées et d’axes de travail novateurs. Autant d’actions qui ont vocation à cristalliser une communauté, qui, c’est important de le dire, existe déjà…
– Pour preuve le nombre de participants qui ont assisté à cette journée…
Quelques 200 spécialistes des data et de l’intelligence artificielle se sont en effet inscrits à notre journée. Nous nous appuyons par ailleurs sur des travaux déjà lancés dans le cadre de l’Institut de la société numérique (ISN) – c’est le cas de ceux de la juriste et de l’informaticien que j’évoquais tout à l’heure. Bref, des chercheurs ont déjà appris à travailler ensemble et à co-publier. En somme, l’Institut Dataia capitalise sur une sorte de preuve de concept réussi et vise à transformer l’essai, dans le cadre d’un projet encore plus ambitieux en termes de périmètre scientifique et partenarial.
– Et incarné dans un lieu précis ?
Oui, l’Institut Dataia est abrité dans le bâtiment Alan Turing d’Inria Paris-Saclay. Il dispose d’un espace de coworking où les partenaires académiques, mais aussi les industriels qui voudront travailler avec nous, pourront se retrouver un ou deux jours par semaine en plus des multiples espaces de réunion dont ils disposent déjà dans leurs institutions respectives.
– Même à l’heure des data, c’est important de se voir…
Oui et même si, bien sûr, nous exploiterons aussi les ressources des communications à distance. Aujourd’hui, des réseaux d’écrans de télé-présence permettent de visualiser ses interlocuteurs à l’échelle 1 et de reproduire ainsi la convivialité des échanges informels en coprésence.
– Quelle est la part entre le benchmark et la dynamique propre à l’écosystème Paris-Saclay dans l’émergence de l’Institut Dataia ?
D’autres instituts de ce genre ont vu récemment le jour, à l’étranger. Je pense à l’institut du MIT Institute For Data, Systems, and Society (IDSS), à l’Institute for Data Valorisation IVADO), créé à Montréal, ou encore à l’Institut Alan Turing, à Londres. Autant d’initiatives récentes et similaires, portées par des établissements qui se fédèrent pour travailler sur des thématiques prioritaires, autour de la science des données et de l’IA au prisme de la société. Mais il est clair que l’écosystème Paris-Saclay a été précurseur au travers ne serait-ce que de cette preuve de concept que j’évoquais (l’ISN). L’Institut Dataia a en outre l’avantage de fédérer des établissements du site du campus de Paris-Saclay autour d’un vrai projet scientifique. A cet égard, le fait que des directeurs d’établissements des deux nouveaux pôles académiques de Paris-Saclay aient tenu à participer à son lancement officiel témoigne de leur part d’un réel engagement de travailler ensemble. Lequel devrait encourager nos chercheurs à poursuivre dans cette dynamique interdisciplinaire et inter-établissements.
Journaliste
En savoir plus