Entretien avec Aurélien Plyer, chercheur à l’ONERA et Professeur en intelligence artificielle, attaché à l'Université de Paris-Saclay dans le cadre de SaclAI-School.
Suite de notre entretien. Où il est encore question d’IA, de ChapGPT, de recherche académique et… de tango… (Pour accéder à la première partie de l’entretien, cliquer ici).
- Que conclure de cet élargissement aux sciences humaines ? Cela accrédite-il l’analogie possible entre IA et intelligence humaine ?
A.P. : Aussi loin qu’on remonte dans l’histoire de l’informatique, d’Ada Lovelace jusqu’à Turing et bien d’autres, on retrouve une même aspiration à copier le mode de raisonnement humain. Y parviendra-t-on ? C’est une question à laquelle il est difficile de répondre. Il faudrait d’abord s’accorder sur ce qu’on entend par intelligence humaine ! Il n’y a pas de définition canonique en la matière. Une chose est sûre : ce qu’un modèle du langage permet de faire, c’est seulement de prédire la suite probable d’un texte. Pour lui apprendre cette fonction de prédiction, on lui fait lire l’équivalent de quasiment tous les textes disponibles sur le web. Voici quelques chiffres pour vous donner un ordre de grandeur de ce que cela implique : dans les bases d’apprentissage, les pages nettoyées de Wikipédia représentent à peu près vingt Giga octets de données ; un modèle de langage de type GPT-3 apprend sur un à deux Téra octets, soit à peu près cent fois plus… Quant au nombre de paramètres requis par ChatGPT, il équivaut approximativement au nombre de brins d’herbes de deux cents terrains de foot… Pour bien comprendre l’ampleur de la tâche, je précise que c’est comme si on avait planté à la main ces brins d’herbe dans chacun de ces deux cents terrains de foot en cherchant à les aligner.
Force est cependant de constater que ces modèles de langage qui n’étaient censés au début que prédire la suite d’une phrase, se révèlent avoir une capacité de raisonnement de sorte qu’on peut les exploiter pour résoudre des problèmes. Grâce à la grande quantité de codes informatiques disponibles sur internet, les grands modèles de langage sont en mesure d’en produire de bonne qualité. Combinée avec leur capacité à répondre à des questions ou à suivre des instructions, cette capacité peut être mise à profit pour produire des agents aux comportements intelligents. Des chercheurs se sont ainsi amusés à utiliser un modèle de langage pour jouer à Minecraft, un jeu vidéo dans lequel le joueur se promène en pouvant interagir avec l’environnement, reproduit en 3D, pour y trouver des ressources, le modèle de langage fonctionnant à la manière d’un cerveau pour définir l’action suivante en fonction de ce qu’il perçoit, en ayant la capacité de développer ses propres outils logiciels.
- Il reste que ces modèles de langage imitent des productions de l’esprit humain - textes, images, raisonnements,… - de manière bluffante, certes, mais selon des modalités totalement différentes : à partir d’un traitement de données, de surcroît coûteux en termes d’énergie de sorte qu’au final cette IA générative pourrait souligner en creux la puissance de l’intelligence humaine qui parvient à des résultats comparables, mais à un moindre coût…
A.P. : Il me semble que votre remarque renvoie à au moins trois problématiques distinctes.
Le coût énergétique, en premier lieu : c’est une objection qui est régulièrement mise en avant pour disqualifier l’IA ou en relativiser l’intérêt. En réalité, il faut, comme je le disais tout à l’heure, différencier deux phases. D’abord, la phase d’apprentissage des modèles de langage, qui est réalisée une fois pour toute sinon à intervalle régulier si on souhaite en actualiser la base d’apprentissage. Cette phase est effectivement énergivore du fait des coûts de calcul et, donc, préjudiciable à l’environnement. Mais une fois qu’elle est réalisée, la phase suivante – l’utilisation d’un modèle de langage depuis un ordinateur – n’engendre pas de coût énergétique supplémentaire significatif par rapport aux autres usages qu’on peut en faire.
Une fois l’apprentissage du modèle de langage effectué, il peut en outre être dupliqué autant de fois qu’on le souhaite sans surcoût significatif là non plus. Soit une différence de taille avec l’apprentissage humain, la deuxième problématique sous-jacente à votre commentaire. Si je devais faire profiter de ma formation à une personne qui aurait tout à en apprendre, des années d’interactions seraient nécessaires à l’image de celles accumulées au cours de mon cursus. En ce sens-là, les modèles de langage sont bien « supérieurs » à l’esprit humain au regard de leur diffusion. Une fois appris, ils sont instantanément duplicables. L’ensemble des connaissances de l’humanité qu’ils intègrent à un instant donné est facilement accessible au plus grand nombre et d’une manière quasi-instantanée. C’est aussi en ce sens qu’on peut parler de « démocratisation » à propos des modèles de langage.
D’autant que ces modèles de langage ont pour caractéristique majeure, qu’il convient de souligner à ce stade de notre entretien, de s’adapter à la manière dont on interagit avec eux – ce qui n’est pas le cas avec Wikipédia, dont les articles ne répondent pas spécifiquement à la question telle que vous vous la posez ou à votre niveau réel de connaissance. Désormais, quiconque peut solliciter un modèle de langage pour en savoir plus sur n’importe quel sujet, du plus basique (une recette de cuisine, par exemple) au plus théorique (le calcul quantique, par exemple), en fonction de son niveau de pratique ou de connaissance. Là réside la nouveauté principale de ces modèles de langage : désormais, on n’a plus besoin de faire l’effort d’accéder à des connaissances disponibles sur le web, on dispose de connaissances adaptées à ses besoins. Le modèle de langage interagit en s’adaptant à vous. Bref, tout se passe comme si vous disposiez d’un prof attitré, pour vous tout seul ! En cela, c’est quelque chose de proprement génial, pourquoi ne pas le dire. D’autant que, il faut insister sur ce point aussi, tout un chacun peut l’utiliser. Il n’est pas réservé au seul « as » de l’IA. Il suffit de savoir lire ou écrire dans une langue ordinaire. Quant au fait de devoir interagir avec une machine, tout le monde en a déjà l’expérience, ne serait-ce que par l’intermédiaire de son smartphone et des réseaux sociaux.
Quant à savoir ce qui différencie cette IA générative de l’intelligence humaine – la 3e problématique soulevée par votre commentaire -, elle réside en ceci que nos manières humaines de penser, d’interagir ne sont pas indifférentes à notre corporéité : nous interagissons avec autrui en faisant des gestes, voire en nous mouvant dans l’espace. Une aptitude que ne possèdent pas les modèles de langage, et pour cause. Ils reposent sur des jeux de données volumineux grâce auxquels on va certes pouvoir leur apprendre à réagir en interprétant correctement une image, mais sans être en capacité d’entrer en interaction avec un environnement… Sauf à s’orienter vers une convergence entre le monde de l’IA générative, abstraite et limitée au domaine de l’internet, et le monde réel via la robotique. Si on scrute l’orientation que prennent les investissements des GAFA, c’est précisément cette convergence qu’ils semblent rechercher. Elle ne vise pas seulement à rapprocher l’IA de l’intelligence humaine, elle répond aussi à une nécessité pour ces GAFA.
- Laquelle ?
A.P. : Les GAFA savent qu’ils vont se heurter à une limite : celle des données disponibles pour l’apprentissage de leurs prochains modèles d’IA. Des articles s’emploient à prédire dans combien de temps on ne disposera plus de données suffisantes sur le Web. De fait, la croissance des données textuelles sur le réseau des réseaux est trop faible pour suivre celle du volume de données nécessaires pour l’apprentissage de ces prochains modèles. On sait d’ores et déjà que pour les données visuelles et vidéos, on dispose encore d’un sursis quise situe entre une dizaine et une vingtaine d’années. Les GAFA anticipent donc en investissant la robotique de façon à concevoir des agents physiques à même de se déplacer dans un environnement et interagir avec lui et ce, dans le but de récolter des volumes supplémentaires de données. On peut d’ailleurs se demander si ce n’était pas déjà l’intention qui a motivé un Elon Musk à se lancer, à travers Tesla, dans le secteur automobile : non pas pour le plaisir de produire des voitures que pour disposer de nouveaux viviers de données récoltées par les logiciels intégrés dans les véhicules qu’il met sur le marché. En l’état actuel de la robotique, une voiture est le moyen le plus simple d’y parvenir avant de s’engager dans la création de nouvelles générations de robots plus évolués : des robots humanoïdes qui se rapprocheraient davantage des comportements des humains et de leur mode d’interaction avec leur environnement.
- Puisque vous avez évoqué la corporéité à laquelle est associée l’intelligence humaine, je ne résiste pas à l’envie de faire remarquer que vous parlez beaucoup avec les mains…
A.P. : Bien plus, j’interagis avec vous en fonction de vos propres réactions. Nul doute que je ne formulerais pas les choses ainsi si nous interagissions par écrans interposés, en distanciel comme on dit aujourd’hui. Je tiendrais probablement un autre discours. Sans doute est-ce en cela que réside la particularité de l’intelligence humaine par rapport à l’intelligence artificielle. Elle s’exprime en fonction de l’environnement dans lesquels on se trouve, du moment où on interagit.
- Revenons-en au scénario d’avenir que vous avez dessiné - la convergence entre IA générative et robotique - en semblant considérer qu’il est encore entre les mains des GAFA. Mais alors qu’en est-il de l’ONERA et de la recherche académique en général, de leur contribution au futur de l’IA ? En quoi l’écosystème Paris-Saclay est-il un environnement favorable pour prendre part à ce futur ?
A.P. : Il l’est justement par la possibilité qu’il offre à des ingénieurs, des chercheurs d’interagir autour de sujets qui couvrent un large spectre de problématiques. Pour mémoire, l’ONERA est un ÉPIC [Établissement public à caractère industriel et commercial] qui aborde des domaines allant de la physique à la physique quantique en passant par la mécanique des fluides, etc. C’est dire si le scope est large, et combien les profils de ses ingénieurs et chercheurs sont divers. Paris-Saclay, c’est la même chose, mais à l’échelle de tout un territoire réunissant une grande diversité d’établissements d’enseignement supérieur et de recherche, de laboratoires et de centres R&D. C’est un bouillon de culture particulièrement propice à des interactions improbables et qui, à ce titre, me convient parfaitement. Car, personnellement, j’ai toujours pensé que la recherche se faisait en premier lieu à la pause café ! L’essentiel de mon travail réside d’ailleurs dans l’échange avec des collègues. Bien sûr, je passe du temps à coder ou faire des calculs, mais cela reste finalement marginal. J’en passe beaucoup plus à interagir avec mes collègues avant de passer le reste de mon temps devant mon ordinateur à essayer de capitaliser sur le fruit de mes interactions. Je n’ai jamais procédé autrement. Quand je suis allé à Toulouse pour travailler avec Airbus sur un démonstrateur d’atterrissage d’avion autonome basé sur la vision par ordinateur, les interactions avec mes collègues faisaient partie intégrante du fonctionnement de l’équipe. Nous passions beaucoup de temps à discuter, à échanger entre nous, à essayer de comprendre les problématiques des uns et des autres, leurs contraintes techniques avant de retourner, en fin de journée, à nos ordinateurs ou machines pour travailler sur les résultats de nos échanges plus ou moins informels. Ce mode de travail n’est réellement productif que si on co-localise les équipes dans un même et seul lieu. Naturellement, nous sommes aussi amenés à échanger à distance. Mais ce ne peut être le mode exclusif d’interactions entre chercheurs. Sans quoi on s’expose à un risque que je perçois déjà dans les réseaux sociaux, à savoir une standardisation des modalités d’échange. Qu’on interagisse via Facebook, Instagram ou tout autre réseau social numérique, les échanges sont plus standardisés qu’ils n’en ont l’air, ne serait-ce qu’à travers l’usage du Like ou de Smileys, et de formules pré-écrites. Ou de ce souci de donner la meilleure image de soi qui incline à être attentif aux traces qu’on peut y laisser. Le résultat, c’est une moindre spontanéité, qui fait pourtant le sel des échanges de la vie réelle, autour de la machine à café – j’y reviens – et qui autorise à tenir des propos erronés, sachant qu’on a toujours la possibilité de les corriger dans l’instant, sans craindre la moindre « traçabilité ».
- Faut-il voir dans ces propos des réserves à l’égard de l’IA et de ses promesses ?
A.P. : Non, pas du tout. En tant que chercheur en informatique, je me garderais de la condamner. Elle aboutit à lever des verrous qui ouvrent sur de nouvelles perspectives de recherche stimulantes.
Pour autant, ne perdons pas de vue le monde réel, tout ce qui y est encore irréductible à cette IA comme ces échanges informels de la vie ordinaire d’un laboratoire de recherche que j’évoquais. Dans le même esprit, rien ne remplacera l’intérêt d’une rencontre avec des collègues en présentiel. Des séminaires en visioconférence peuvent avoir leur intérêt, mais ils rencontrent vite leur limite au regard de l’intensité des échanges et de leur qualité. Ils ne sauraient donc devenir la norme.
- Au fond, n’est-ce pas des conditions à la créativité que vous mettez en exergue ?
A.P. : Si votre question porte sur la supériorité de l’intelligence humaine et collective sur l’IA au regard de sa créativité, je ne vous cacherai pas mes réserves à l’égard de cette tentation à comparer l’une et l’autre en considérant que la seconde (l’IA) serait finalement moins performante que la première. Ses performances sont à considérer en fonction de l’état de l’art. Compte tenu du gigantisme des moyens investis par les GAFA, le développement de l’IA n’a probablement pas encore dit son dernier mot.
Cela étant dit, questionnons-nous davantage sur ce à quoi nous aspirons vraiment. Personnellement, mon but dans la vie n’est pas d’être supérieur à mon ordinateur ! Je ne m’estime pas en compétition avec lui. Je sais pertinemment qu’en bien des domaines, les capacités de calcul, par exemple, il est bien plus performant que moi. Je suis même sûr que dans d’autres domaines où je le suis encore, il me surpassera d’ici à quelques années. Pour autant, il ne parviendra jamais à être… moi, pas plus que vous ou tout autre humain. Devant le risque de standardisation que j’évoquais, l’humanité aura pour elle d’opposer tous les êtres singuliers qu’elle recèle.
Je ne raisonne pas autrement dans ma pratique du tango…
- Précisez s’il vous plaît…
A.P. : Je me suis mis au tango il y a maintenant près de trois ans. Mon objectif n’est pas de rivaliser avec les meilleurs danseurs. Si je me suis mis à le pratiquer, c’est d’abord parce que, en dehors de la chance de pouvoir en faire avec ma compagne, c’est une danse qui me plaît, point !
- En somme, l’intelligence humaine a ses raisons que l’IA ignore…
A.P. : En effet. Gardons-nous donc de les opposer. Non seulement, l’IA ne se substitue pas à l’intelligence humaine, mais encore elle lui offre la possibilité d’explorer d’autres hypothèses. Voici un exemple que j’aime bien évoquer, c’est celui de la pelleteuse…
- ?I
A.P. : On estime qu’en équivalent de puissance humaine, cet outil équivaut à environ dix milles travailleurs humains munis d’une pioche. C’est peu dire si elle a révolutionné le domaine des travaux publics. Pour autant, elle n’a pas signifié la mort de la pioche. Celle-ci reste indispensable pour faire des trous et il continue à s’en vendre par milliers…
- Vous me faites penser au livre de Jean-Baptiste Fressoz, Sans transition (Seuil, 2024), qui montre que loin de chasser les « anciennes » énergies, les nouvelles ont entretenu avec elles des « relations symbiotiques » au sens où elles leur ont trouvé d’autres débouchés tout en étant tributaires d’elles - il a fallu beaucoup de bois pour étayer les mines de charbon, pour reprendre un de ses exemples. En filant la métaphore, on pourrait s’intéresser à ce que pourrait être la relation symbiotique entretenue par l’IA avec l’intelligence humaine…
A.P. : Dans leur album Le monde sans fin, Christophe Blain et Jean-Marc Jancovici [Dargaud, 2021] rappellent que nous n’avons en réalité jamais quitté le monde du charbon. Cela étant dit, je trouve intéressante cette idée de « relation symbiotique » entre les deux intelligences : elle incline à réfléchir non pas sur la manière dont l’une va se substituer à la seconde, mais à comment les deux vont interagir et co-évoluer. Reste à savoir qui détient la capacité d’entretenir une telle relation. Voyez la pression sociale qui s’exerce pour nous incliner à recourir de plus en plus à l’IA au travers d’applications de toutes sortes. Voyez aussi la manière dont le smartphone a fini par s’imposer au point de devenir indispensable ne serait-ce que pour s’identifier auprès d’une plateforme, y compris celles d’institutions publiques. Si on consent à ce que l’IA intègre nos modes d’existence, posons-nous la question des limites que nous voulons lui fixer et, au-delà, de quelle société nous voulons. C’est dire si nous avons besoin des philosophes, des sociologues et d’autres chercheurs en sciences humaines et sociales.
- Ce dont recèle aussi le cluster Paris-Saclay, qui est loin de ne compter que des chercheurs en sciences exactes ou de l’ingénieur.
A.P. : Leur concours ne peut qu’être précieux. Tout informaticien que je sois, je considère qu’il ne faut pas laisser les enjeux du numérique aux seules mains des informaticiens !
Journaliste
En savoir plus