Entretien avec Jean-Claude Belfiore, directeur de l’Advanced Wireless Technology Lab, de Huawei Technologies France
Suite de nos entretiens organisés en amont de la table ronde que nous animions dans le cadre du séminaire de l’association Aristote qui s’est tenu le 21 juin dernier sur le thème « Quelles mathématiques pour une IA fiable, frugale, moins artificielle ? ». Avec cette fois le témoignage de Jean-Claude Belfiore, enseignant-chercheur au département Communications et Électronique de Télécom Paris, qui a rejoint le centre de recherche Huawei pour y diriger l’Advanced Wireless Technology Lab où il poursuit des recherches sur la 6G.
- Pour commencer, pouvez-vous nous dire où nous sommes et les recherches que vous y menez ?
Jean-Claude Belfiore : Vous êtes ici au centre de recherche parisien de Huawei. Il regroupe plusieurs laboratoires de recherche dont celui que je dirige : l’Advanced Wireless Techology Lab. Nous travaillons sur la future 6G. Quel rapport avec l’IA me direz-vous ? Le voici : dans la future 6G, l’IA sera native, c’est-à-dire, partie intégrante du système et c’est d’ailleurs l’une des principales nouveautés par rapport à la 5G. Notre approche procède selon deux axes différents. Le premier, qu’on peut appeler « IA for Net » : nous utilisons l’IA pour améliorer les performances du réseau non filaire et ce, pour toutes les couches de ce réseau, que ce soit la couche physique – la couche radio – jusqu’aux couches plus hautes – la couche protocolaire, par exemple. L’idée étant de parvenir à une gestion dynamique et même, si possible, autonome par rapport au réseau avec, donc, le moins d’intervention humaine. Le second axe, « Net for IA » – soit une simple commutation des termes de l’axe précédent – vise à obtenir, dans le réseau non filaire, de faire communiquer les IA entre elles.
- Qu’entendez-vous par là ?
J.-C. B. : Ceci mérite en effet d’être précisé. Il ne s’agirait plus d’une simple communication de données, mais d’une communication qu’on appelle « sémantique » en ce sens où il faut non seulement s’assurer que les données vont pouvoir être véhiculées ou transportées avec une grande fiabilité, si possible dans des délais raisonnables, au plus grand nombre ou à partir du plus grand nombre vers le réseau – soit ce qui est attendu de toute transmission de données. Il faut encore que les IA puissent échanger des connaissances, des idées. Ce qui implique que les données communiquées aient du sens. C’est pourquoi on parle de communication « sémantique ».
- Sont-ce ces axes de recherche qui vous amènent à vous tourner, sur un plan plus théorique, vers la théorie des topos ?
J.-C. B. : C’est en réalité les deux : ces axes me conduisent à la théorie des topos tandis que la connaissance que j’ai de celle-ci – une connaissance intuitive, autant le préciser, faute de prétendre en être un spécialiste – m’amène à orienter mes recherches selon ces axes. Si cela peut paraître plus évident au regard du second axe, du fait du caractère « sémantique » de la communication, le premier axe n’en justifie pas moins aussi cette articulation à la théorie des topos. Les contraintes auxquelles nous sommes confrontés dans les réseaux non filaires, comme d’ailleurs dans tous les réseaux de communication en général, sont fortes : elles concernent la fiabilité – il nous faut parvenir à des taux de succès au-delà de 99% ! Or, avec de l’IA embarquée dans les réseaux de communication, nous n’en sommes actuellement qu’à 60-70%. Même si, en réalité, ce taux de fiabilité est variable selon les tâches, nous sommes encore loin des performances requises dans des systèmes pour y implémenter ces IA.
Si, donc, on disposait d’une IA qu’on comprenne, plus explicative, on pourrait mieux contrôler, mieux gérer, parvenir à quelque chose dont on puisse garantir le niveau de fiabilité. À l’heure actuelle, on en est réduit à tester des solutions sur un data set, voire plusieurs, puis à observer les résultats qui en sortent. Ce qui ne saurait suffire. Car on peut être confronté à des situations qui n’ont pas encore été « vues » précédemment par le modèle.
- Sont-ce donc ces problématique qui vous ont amené à vous tourner vers la théorie des topos ? Où y-a-t-il eu une concomitance entre vos travaux sur la 6G et une éventuelle « découverte » de cette théorie ? Je trouve intéressante l’idée que ce soit des problématiques concrètes, auxquelles des sciences de l’ingénieur sont confrontées, qui amèneraient à en « revenir » à de la recherche fondamentale – l’inverse, plus abondamment illustré, n’en restant pas moins intéressant…
J.-C. B. : Oui, tout à fait ! D’ailleurs, moi-même ait une formation d’ingénieur et non de mathématicien. Je ne peux donc faire autrement que de partir de cas pratiques, sans quoi je ne parviens à « fixer » des hypothèses purement théoriques. Mais je n’en ai pas moins aussi un intérêt certain pour les mathématiques et, désormais, pour celle des topos en particulier, qui jusqu’à récemment me paraissait plutôt « exotique »… Cependant, avant de rejoindre le AWT Lab de Huawei, j’ai été enseignant-chercheur à Télécom Paris. À l’époque, c’est-à-dire dans les années 1990/2000 PRÉCISER, j’avais déjà utilisé des mathématiques qui ne s’enseignaient pas forcément dans les cursus d’ingénieur français, notamment la théorie de Galois, qui m’avait été bien utile pour concevoir de nouveaux codes – mon champ de recherche d’alors, un champ éloigné de l’IA s’il en est.
- Comment s’est faite votre véritable rencontre avec la théorie des topos ?
J.-C. B. : À l’occasion du workshop organisé par Huawei, en 2017. À l’époque, Laurent Lafforgue était professeur permanent à l’IHES, a fini par donner son accord pour y participer. Il était déjà passionné par la théorie des topos et, au-delà, par ce personnage de légende que fut Alexander Grothendieck. Bien sûr, moi-même avait entendu parler de ce dernier mais sans prétendre oser me confronter à son apport théorique tant j’étais convaincu ne jamais pouvoir en saisir la portée. Si j’y suis venu, c’est grâce à l’exposé que Laurent Lafforgue fit lors de ce workshop : il a su nous montrer, entre autres choses, comment Grothendieck était parvenu, avec sa théorie des topos, à généraliser celle de Galois. Une théorie à laquelle, comme je vous l’ai dit, je me suis intéressé assez tôt et qui me parlait sans que j’en saisisse forcément le rapport avec la théorie des topos.
- Au fond, Laurent Lafforgue vous aura aidé à jeté un « pont » entre les deux…
J.-C. B. : C’est tout à fait cela. Tant et si bien qu’à partir de là, j’ai commencé à m’intéresser aux topos et à voir le lien potentiel avec l’IA : ce qu’elle pouvait apporter à celle-ci mais aussi à mes propres problématiques immédiates.
- À vous entendre, on a une belle illustration de ce qu’est la recherche, à savoir une affaire humaine, faite de rencontres plus ou moins fortuites pour ne pas dire sérendipiennes - au sens où vous aviez l’esprit manifestement préparé pour saisir la portée de l’exposé de Laurent Lafforgue…
J.-C. B. : On peut, en ce sens-là, parler effectivement de sérendipité. Car il n’y a pas eu à proprement parler de hasard. Si la théorie des topos était totalement déconnectée de ce qui m’intéresse, de ce qui m’attire, même à mon insu, je ne me serais pas autant accroché pour en approfondir ma compréhension, même en bénéficiant des talents de pédagogue de Laurent.
- Est-ce vous qui l’avez convaincu à vous rejoindre au Centre de recherche Lagrande de Huawei ?
J.-C. B. : Non. En revanche, j’ai continué à discuter avec lui comme avec Olivia Caramello à laquelle vous avez fait allusion à travers la notion de pont…
- À travers des échanges plus ou moins informels ?
J.-C. B. : Concrètement, Laurent me parlait de cette théorie puis, de retour chez moi, je me plongeais dans la lecture d’articles pour essayer de saisir toute la portée de ses explications. Cela étant dit, Laurent a des talents de pédagogue proprement extraordinaires. Il arrive à éclaircir les aspects les plus obscurs de la théorie des topos ou des mathématiques en général.
- Mais cela suppose aussi que le théorie manifeste un intérêt pour des problématiques d’ingénieur…
J.-C. B. : Laurent a de lui-même perçu l’intérêt de la théorie des topos pour les domaines de recherche de Huawei. Ses échanges avec le directeur de l’époque l’ont d’ailleurs convaincu de rejoindre le centre Lagrange.
- À la différence de vous, il n’est pas ingénieur de formation, mais un chercheur en recherche fondamentale… Même si je ne manquerai pas de lui poser directement la question, je vous la pose à vous : comment expliquez-vous son appétence pour ce dialogue dans la perspective d’une recherche plus appliquée ?
J.-C. B. : Ce que je peux en dire, c’est que nous touchons là à un point essentiel : ce nécessaire dialogue entre chercheur en recherche fondamentale et ingénieur. Heureusement, ce dialogue est fréquent, dans un sens comme dans l’autre. La théorie des topos étant ce qu’elle est, il n’était cependant pas évident qu’un tel dialogue s’amorce aussi vite et bien. Cela suppose une ouverture d’esprit, de part et d’autre : le chercheur doit s’intéresser aux problématiques concrètes d’ingénieurs et, donc, d’industriels, ceux-ci devant prendre le risque de se confronter à des niveaux d’abstraction, sans chercher pour autant à devenir experts, en l’occurrence, pour m’en tenir à l’objet de notre échange et de notre table ronde, de la théorie des topos. D’ailleurs, je ne saurais prétendre me substituer à Laurent pour vous en faire une présentation ! Nos approches sont différentes. Tandis qu’il a une vision top down de la théorie et de son enjeu pour l’IA, j’en ai moi une vision plus bottom up. Laurent maîtrise tous les mécanismes mathématiques qui permettent d’aller de la théorie des topos vers une éventuelle application. Ce qui n’est pas mon cas. Pour autant, avec Laurent, nous n’avons pas encore travaillé ensemble sur un projet commun. Laurent est arrivé en septembre 2021. De mon côté, j’ai changé de fonction peu avant, au cours du mois de juillet, pour prendre la direction de l’AWT Lab – j’étais jusque-là expert pour Huawei. Je suis donc moins engagé dans la recherche proprement dite.
- Néanmoins, dans quelle mesure ce dialogue vous a-t-il conforté dans l’idée que c’est du côté de la théorie des topos qu’il faut aller pour traiter de vos problématiques relatives à la 6G ?
J.-C. B. : Reconnaissons qu’il existe encore un gap par rapport à une mise en œuvre dans des systèmes réels. Sans prétendre encore la comprendre d’une manière très précise, je considère cette théorie des topos avant tout comme un guide. Autrement dit, ce n’est pas un outil que je vais utiliser directement – d’ailleurs elle ne prétend pas en être un. Il y a énormément d’algorithmes, de modèles implémentés, qui peuvent très bien s’expliquer, se décrire par cette théorie. Le problème, c’est qu’entre ce guide et l’implémentation dans des systèmes réels, il manque des outils intermédiaires jouant le rôle de pont, pour reprendre une notion clé introduite par Olivia. Je dis cela en gardant à l’esprit que les travaux de Laurent comme ceux de cette dernière vont bien au-delà de ces considérations, comme d’ailleurs les réflexions que je mène en lien avec la théorie des topos. Voici un exemple très simple pour illustrer mon propos. Des modèles d’IA ont été étudiés voici quelques années et continuent à l’être : les modèles de Geometric Deep Learning. Le principe de ces modèles est d’utiliser des structures déjà présentes dans les données qu’on va apprendre. Ce peut être, par exemple, un groupe de permutation qui va laisser invariantes les tâches qu’on veut effectuer. Autrement dit, au lieu de faire comme si on ne savait pas qu’il y avait ce groupe de symétries, on va, au contraire, l’utiliser. Comment ? Plusieurs articles ont été consacrés à cette question. Tous invitent à considérer les applications équivariantes. Les actions du groupe G sont en fait des préfaisceaux, donc des objets du topos des G-ensembles où G est le groupe agissant. Un réseau de neurones équivariant peut être vu comme l’équivalent d’une « fonction » dans le topos des G-ensembles. C’est effectivement ce qu’il faut faire. Quel rapport avec la théorie des topos me direz-vous. Eh bien justement, cela peut s’expliquer de manière très simple à l’aide de cette théorie. On peut en effet considérer que le groupe va agir sur un ensemble – les données, par exemple -, soit un pré-faisceau, autrement dit l’objet d’un certain Topos. Or que sont les applications équivariantes qu’on va implémenter au sein des couches du réseau de neurones ? Les morphismes entre ces pré-faisceaux. Et si on considérait la classe de tous ces pré-faisceaux avec leur morphisme, on a affaire à un topos, à ce qu’on appelle le topos des G ensemble G pour le groupe qui va agir. Cet exemple est le cas le plus simple qui permet, au-delà de la théorie des ensembles, d’arriver à un topos. C’est donc bien comme un guide que j’utilise la théorie des topos. Cela dit, nous n’en utilisons pas beaucoup dans nos domaines d’application. L’outil mathématique que j’utilise davantage pour les réseaux équivariants et vraiment en tant que tel, c’est la théorie des représentations linéaires du groupe en question l’implémentation se faisant à partir d’algèbre linéaire : des matrices, des changements de base, etc.
- J’en viens à l’objet de la table ronde à laquelle vous participez aux côtés de deux personnes que vous avez citées – Laurent Lafforgue et Olivia Caramello. Qu’en est-il des perspectives de cette théorie au regard d’une IA plus frugale et souveraine ?
J.-C. B. : Plus un modèle est petit, moins il consomme, que ce soit au niveau de l’entraînement ou de l’inférence. Depuis quelques temps, on travaille sur la structuration des LLM, les modèles de langage. La structure n’est plus la même : ce n’est pas un groupe. On a affaire à des choses plus compliquées. J’en reviens au Net for IA et au problème de savoir comment faire « communiquer » ou plutôt faire interagir au sens où on l’entend dans le domaine des interactions homme/machine, sachant qu’ici il s’agit d’interaction machine / machine. Problème : chaque modèle vit dans un certain espace sémantique qui peut être complètement orthogonal à d’autres. Ce qu’on observe d’ailleurs quand on fait tourner par fine tuning des LLM, les uns spécialisés dans un certain domaine, d’autres spécialisés dans un autre de sorte que leurs espaces sémantiques sont totalement différents. Quand, donc, on veut les faire interagir, la première chose à faire est de les aligner, d’essayer de leur faire partager un même espace sémantique. Pour cela, il existe un outil qui fonctionne parfaitement et qui s’appelle les faisceaux. On en revient ainsi à notre théorie des topos qui sont une catégorie des faisceaux sur un site donné . Là aussi il faut trouver les outils qui vont servir à établir un pont. Certains ont proposé d’aller plus loin, ce qu’on appelle la diffusion faisceautique.
- Si je vous comprends bien, la théorie des topos vous intéresse dans la mesure où elle vous pourvoit en concepts – pré-faisceaux, faisceaux, ponts, invariants… - qui permettent de saisir des phénomènes, des réalités passées jusqu’à présent inaperçues dans votre propre domaine de recherche ?
J.-C. B. : Oui, c’est tout à fait cela. On retrouve dans les topos deux aspects fondamentaux : un aspect géométrique et un aspect linguistique, logique. Reprenons l’exemple des applications équi-variantes, elles n’engageaient que l’aspect géométrique. Nous sommes en train d’étudier actuellement les LLM en vue de les dépasser. Plusieurs raisons à cela. La première : dans les tâches qui nous intéressent, que nous voudrions utiliser – et dans le détail desquelles je n’entrerais pas pour des questions de confidentialité –, nous aurons besoin, comme je l’ai dit précédemment, d’un taux de fiabilité, de succès d’au moins 99%. Actuellement, nous en sommes, je le rappelle, pour ces mêmes tâches à 60-70%. Il nous faut donc mettre en œuvre des outils de vérification et de correction. Venant du codage au départ, la détection et la correction d’erreur, je sais quels sont les concepts mis en œuvre. Évidemment, dans le cas des modèles LLM, c’est autrement plus compliqué, car la structure est beaucoup moins claire et plus complexe. Quand un LLM commence à halluciner, il oublie toute logique. Il faut donc vérifier la consistance logique de ce que va sortir le LLM et, donc, être capable de passer de l’aspect géométrique à l’aspect linguistique ou logique. L’aspect géométrique va définir les règles syntaxiques. De là, il faut passer à la sémantique pour s’assurer que la cohérence logique est bien respectée. Pour cela, on a besoin de topos. Mais encore une fois, comme guide et, à partir de là, extraire des outils qui vont nous permettre de vérifier.
- À vous entendre, je comprends que le fait que vous ayez travaillé sur la 5G et, désormais, sur la 6G, n’est pas anodin dans votre intérêt pour l’apport de la théorie des topos à une IA frugale, dans la mesure où on y retrouve les mêmes exigences de fiabilité en plus de celle de latence…
J.-C. B. : C’est tout à fait exact. Là aussi plus le modèle est petit, plus il gagne en efficacité, en latence et en volume.
- Autrement dit, ce champ de recherche des 5G et 6G vous a prédisposé à vous intéresser aux défis d’une IA frugale...
J.-C. B. : Oui, et ce d’autant plus que, pour la 5G, j’avais déjà travaillé sur les enjeux de codage et, donc, sur tous ces aspects de vérification et de correction des erreurs.
- Qu’est-ce que ces champs de recherche, que ce soit la 6G ou l’IA frugale, impliquent-ils au plan disciplinaire pour l’ingénieur que vous êtes ? Comme on l’imagine, l’une et l’autre obligent à élargir votre spectre disciplinaire…
J.-C. B. : Oui, et même à l’élargir énormément… Il faut maitriser évidemment l’ingénierie de communication ; la communication non filaire et les problématiques qui y sont liées ; le codage, la théorie de l’information. Soit les aspects classiques auxquels il faut désormais intégrer l’IA, l’informatique théorique, pour aller vers des IA plus robustes, fiables, jusqu’à, éventuellement, la vérification formelle ; sans oublier les mathématiques dont nous avons parlé.
- Ce qui justifie l’existence d’écosystèmes comme celui de Paris-Saclay qui, précisément, concentre ces différentes disciplines et expertises...
J.-C. B. : En effet, une telle concentration ne peut que favoriser les synergies.
- Est-ce à dire que vous continuez à suivre l’actualité de cet écosystème, vous qui avez été enseignant-chercheur dans l’une de ses grandes écoles, Télécom Paris ?
J.-C. B. : Oui, et je serais intéressé de pouvoir constituer un pôle d’experts dans les disciplines et expertises que j’ai énumérées. Mais ce n’est pas simple compte tenu des polémiques qui entourent la société Huawei.
Journaliste
En savoir plus sur Sylvain Allemand