Entretien avec Aurélien Plyer, chercheur à l’ONERA et Professeur en intelligence artificielle, attaché à l'Université de Paris-Saclay dans le cadre de SaclAI-School
Comment interpréter l’irruption de ChapGPT ? Quel tournant, si c’en est un, traduit-elle dans l’histoire déjà ancienne de l’Intelligence Artificielle ? Si elle confirme la toute-puissance des plateformes numériques et autres GAFA, qu’advient-il de la recherche académique ? Éléments de réponse, à titre personnel, d’Aurélien Plyer, chercheur à l’ONERA et Professeur en intelligence artificielle, attaché à l’Université de Paris-Saclay dans le cadre de SaclAI-School. Première partie.
- Pouvez-vous, pour commencer, préciser ce qui vous a motivé à rejoindre l’ONERA, et les thématiques de recherche que vous y abordez ?
Aurélien Plyer : J’ai rejoint l’ONERA en 2008 à l’occasion d’un stage avant d’y poursuivre ma thèse en cotutelle avec l’Université Paris 13, puis d’y décrocher un poste de chercheur. Mes travaux portent sur ce qu’on appelle la vision par ordinateur. Ils consistent à chercher à traduire des signaux qui se présentent sous forme d’images ou de vidéos en informations de plus haut niveau, ce qui peut se traduire par la reconstruction d’une forme géométrique 3D, la reconstruction d’un champ de mouvement 2D ou la reconstruction d’une information de plus haut niveau encore avec une sémantisation en faisant le lien entre le langage et le signal. À chaque fois, ma démarche est la même : je commence bas, à un niveau proche du signal, géométrique, pour, progressivement me rapprocher de l’interprétation du plus haut niveau possible, autrement dit le niveau correspondant à l’humain.
- Quelles ont été les étapes majeures dans ce domaine du traitement de l’information ?
A.P. : Depuis 2008, on a assisté à la levée d’un certain nombre de verrous qu’on croyait, pour certains, impossibles à lever. Je me souviens qu’à la fin de la première décennie des années 2000 – j’étais alors étudiant à l’Université Paris 6 -, nos enseignants, qui étaient aussi des chercheurs spécialistes du domaine, nous disaient que la perception et la compréhension d’une image étaient des propriétés propres à l’humain, qu’une machine ne parviendrait jamais à reproduire. Or, dès 2012-2013, on devait assister dans le domaine scientifique de la reconnaissance d’image, à l’arrivée d’algorithmes parvenant à égaler les performances humaines voire, dans certains domaines, à les surpasser. Il en a été finalement ainsi depuis le début de ma carrière : des verrous qu’on croyait il y a encore quelques années impossibles à lever, l’ont été finalement, les révolutions se succédant les unes après les autres. Ce qui était encore des certitudes a été battu en brèche. Depuis AlexNet – le réseau de référence en reconnaissance d’images qui, grâce à une grande quantité de données, a apporté la démonstration qu’on pouvait surpasser la capacité de reconnaissance de l’humain -, le domaine de vision par ordinateur s’est laissé gagner par l’apprentissage statistique, lequel introduit un changement de paradigme sur le plan algorithmique.
- En quoi précisément ?
A.P. : En première approche, on peut considérer un algorithme comme une recette de cuisine dans la mesure où, schématiquement, il revient à traiter d’une donnée en entrée pour en donner une autre en sortie. Jusqu’alors, informaticiens et chercheurs en informatique se sont employés à commencer par conceptualiser un problème pour, ensuite, le traduire sous la forme d’un algorithme, autrement dit un ensemble d’équations mathématiques.
Désormais, avec le changement de paradigme auquel nous assistons, il suffit de mobiliser une grande quantité de données, de les transformer pour en extraire a posteriori une recette de cuisine, l’algorithme à même de résoudre le problème posé. Ainsi d’une approche formelle, fondée sur la conceptualisation, la mathématisation, on passe à l’extraction d’algorithmes efficaces à partir d’un traitement massif de données.
- Sauf qu’il faut pouvoir disposer d’une masse de données… N’est-ce pas ce qui a favorisé l’émergence d’acteurs nouveaux, en l’occurrence les plateformes numériques du type GAFA qui ont les moyens de produire et traiter des volumes importants de données ?
A.P. : Effectivement et votre remarque vient à point nommé à ce stade de notre entretien ! Pour parvenir à extraire des algorithmes efficaces, il n’est plus autant nécessaire de mobiliser de brillants cerveaux humains à même de formuler les bonnes équations pour parvenir à la résolution formelle d’un problème. Le pouvoir revient désormais à l’entité qui a accès à une masse de données suffisante, en plus de disposer de la capacité de traitement de ces quantités. Certes, des compétences particulières sont encore requises, mais sans plus exiger ce haut niveau de capacité à la formalisation mathématique.
En 2023, le « Artificial Intelligence Index Report » produit par l’Université de Stanford, le disait bien : la recherche en informatique est passée des académiques universitaires vers les industriels du numérique car ce sont eux qui disposent des données et des capacités d’investissements dans le domaine du big data. Un rapport dont on peut cependant interroger l’impartialité compte tenu du fait que ces mêmes industriels font partie des auteurs…
- Quand vous dites « industriels », vous pensez aux plateformes numériques ?
A.P. : Oui, à Google, Amazon, Facebook, etc., autrement dit aux GAFA. Actuellement, les plus grandes équipes dédiées à l’IA sont celles de Google, Microsoft et de Facebook – aujourd’hui Meta. Ce dernier finance largement les travaux de chercheurs et doctorants pour développer leur recherche en faisant profiter de leurs capacités de calcul qui sont supérieures à celles d’États et d’organismes de recherche publique. Actuellement, les investissements en capacités de calcul de Meta IA sont supérieurs à ceux de la France : les plus gros calculateurs dont nous disposons sont plus petits que ses calculateurs de recherche.
- Qu’advient-il alors de la recherche académique ? Les universitaires en sont-ils réduits à rejoindre les centres de recherche de ces GAFA pour espérer peser sur les développements de l’IA ?
A.P. : Non. Heureusement, le traitement de ces données massives requiert encore des savoir-faire scientifiques et continuent de s’alimenter de la recherche théorique. Cela étant dit, je pense, à titre personnel, que nous sommes dans une phase transitoire propice à une démocratisation de la connaissance et de l’expertise en IA et ce, grâce à l’apparition de nouveaux outils comme ChatGPT, dont l’irruption en novembre 2022 marque à cet égard un tournant majeur. Autant le reconnaître, tout le monde a été surpris : le grand public aussi bien que les scientifiques. Même les plus grands experts ne s’attendaient pas à de telles performances. Les certitudes qu’on pouvait avoir il y a encore deux ans ont été balayées. ChatGPT apportait la démonstration que la modélisation du langage était une nouvelle manière d’aborder la résolution de problèmes d’intelligence artificielle. Ce qui ne veut pas dire que tous les problèmes étaient résolus, ni que ChatGPT n’avait pas de concurrent. Il reste que durant la seule année 2023, les progrès obtenus ont été proprement incroyables. C’est comme si dans le domaine du jeu vidéo, nous étions passés en seulement un an de Pong [le premier jeu vidéo d’arcade, commercialisé par Atari, en 1972] à GTA 6 [un jeu d’action en mode ouvert annoncé pour 2025] alors qu’il aura fallu plus d’un demi-siècle de développement conjoint entre les mondes des mathématiques, du logiciel et du développement des matériels pour y arriver.
Cela étant dit, ChapGPT s’inscrit dans une évolution qui remonte à plusieurs années, jusqu’en 1964, année de création du Chatbot Eliza mais, selon moi, c’est ce qui s’est passé en 2016 qui est plus fondamental.
- Que s’est-il donc joué cette année-là ?
A.P. : Microsoft, déjà [l’entreprise est actionnaire d’OpenAI à l’origine de ChapGPT] avait lancé en grandes pompes un Chatbot dénommé Tay. Un événement que l’on a très vite oublié alors même qu’il explique la création d’OpenAI. Tay reposait sur un type d’apprentissage particulier : un apprentissage en ligne qui lui permettait d’apprendre en interagissant directement avec les utilisateurs. Plus ceux-ci interagissaient avec lui, plus il apprenait. Un mode d’apprentissage qui n’a plus cours dans le ChapGPT d’OpenAI, mais qui, à l’époque, était considéré comme une avancée majeure. Du moins jusqu’à ce qu’on en découvre les risques : en l’espace de 24 heurs, Tay s’était mis à tenir des propos homophobes, racistes. En fait, les utilisateurs s’amusaient à entretenir avec lui des discussions non politiquement correctes, ce qu’on appelle des « trolls ». Comme vous l’imaginez, l’affaire fit scandale, contraignant Microsoft à interrompre prématurément son service de Chatbot. Depuis lors, les grands acteurs de l’IA se sont bien gardés de se lancer trop vite dans la commercialisation de ce type de technologie en se mettant de surcroît au-devant de la scène. Malgré la présence de Google au niveau des publications scientifiques sur le sujet, c’est OpenAI, une start-up créée par des ingénieurs issus de la tech californienne (dont Google), qui a mis en ligne ChatGPT. Microsoft a quant à lui négocié un lien de partenariat fort dès 2019 avec OpenAI afin de profiter de ses avancées tout en se dédouanant en cas de problèmes, afin de protéger son image et son cours en bourse… De son côté, OpenAI a pris les précautions d’usage en ne faisant pas le choix de l’apprentissage en ligne. L’apprentissage de chapGPT est structuré en trois phases. Dans la première, le réseau apprend sans supervision en étudiant la structure du texte qui lui est soumis. Durant cette phase, le logiciel ingère ainsi toutes ses connaissances ; c’est une phase excessivement coûteuse en temps de calcul, ChatGPT passant sur l’ensemble des données textuelles du web qui est librement accessible. Dans la deuxième phase, le logiciel est entraîné à répondre à des sollicitations d’un utilisateur ; appelée « affinage », cette phase est moins coûteuse que la précédente et s’affectue sur des jeux de données préparés pour l’occasion. La dernière phase est une phase de « conditionnement » ; elle est supervisée par des humains qui vont sélectionner des exemples de discussions issues des utilisateurs pour pousser ChatGPT à s’améliorer dans la qualité de ses réponses.
- L’occasion de rappeler que l’humain reste présent jusque dans la boîte noire de l’intelligence artificielle…
A.P. : En effet. Dans les services en ligne, la présence de l’humain reste indispensable, fût-ce de manière dissimulée, sous les traits de ces personnes, installées dans des pays à bas salaire, avec pour mission de passer leurs journées ou leurs nuits à annoter et classifier des discussions pour améliorer la qualité des bases d’apprentissages.
- Ce que la sociologue Antonio Caselli a bien mis en évidence dans son livre, En attendant les robots [Seuil, 2019] qui décrit l’exploitation invisible des digital workers par les plateformes numériques…
A.P. : Cette invisibilité est depuis toujours une caractéristique du fonctionnement d’internet. Prenez le moteur de recherche de Google, en apparence le plus simple possible du point de vue de l’utilisateur. En réalité, il repose sur de nombreux data centers et une ingénierie sans équivalent, mais cachés aux yeux des utilisateurs de sorte que ceux-ci ignorent les puissances monstrueuses de calcul, la consommation massive d’énergie nécessaire à la moindre indexation sur le web. Idem pour les boutiques en ligne : un simple clic pour mettre un produit dans son panier met en branle une machinerie énergivore dont l’utilisateur n’a pas conscience, faute de le percevoir. Internet et le monde numérique cultivent l’image d’un monde virtuel pour mieux masquer ses réalités matérielles, énergétiques, économiques, humaines, sociales…
Les dirigeants des sociétés qui recourent à de l’IA ne prennent pas non plus toujours la mesure des investissements colossaux consentis pour parvenir au niveau de service actuel. La quantité de données et leur traitement nécessaire pour apprendre une version de GPT oscille entre 500 000 et plusieurs millions d’euros rien qu’en termes de coût de calcul machine.
- Je repose donc ma question : qu’advient-il de la recherche académique ? Ses chercheurs en sont-ils réduits à commenter, fût-ce avec talent, l’actualité des progrès réalisés par l’IA des GAFA, ses implications géopolitiques et éthiques, mais sans avoir de prise sur cette actualité ? Quel rôle peuvent-ils assurer tant en matière de recherche fondamentale que de recherche appliquée ? En quoi peut-on par ailleurs parler de « démocratisation » pour reprendre le terme que vous avez utilisé tout à l’heure ?
A.P. : Pour répondre à cette question, il faut revenir à ce qui s’est également joué en ce début d’année 2023. À ce moment-là, la communauté scientifique était sur le point de considérer qu’OpenAI avait gagné la partie et qu’elle n’arriverait jamais à produire un modèle de langage aussi performant que le sien. Mais dès le mois de février Meta a pris la décision de publier en open source les travaux de ses propres équipes que sont les architectures de réseaux LLaMA, permettant ainsi à tous les chercheurs d’avoir accès à l’état de l’art des modèles de langage, concurrents de ChatGPT. Mais pour nous autres chercheurs, cette mise à disposition des recettes de cuisine n’était pas suffisante, il nous fallait disposer des résultats de l’apprentissage, résultats pouvant être très coûteux à reproduire en termes de coûts de calcul. C’est une fuite malencontreuse d’information qui a provoqué la mise en ligne des résultats de l’apprentissage effectué par Meta. Depuis lors, tout chercheur comme tout développeur pouvait accéder à des résultats d’apprentissage de modèle de langage très performants. L’effet ne s’est pas fait attendre : dès les mois suivants, en mars et avril, on a assisté à une envolée des travaux de la communauté open source : des chercheurs indépendants, des hackers ou de simples usagers du web, qui se sont appropriés les travaux de Meta, en parvenant à les faire tourner sur toutes sortes de machines allant jusqu’à des Raspberry Pi. Autrement dit, et c’est une autre évolution majeure, le ChapGPT qui tournait jusqu’ici sur un cluster de calculs accessible uniquement aux acteurs du numérique, l’est désormais à tout un chacun. Pour le coup, c’est bien à une « démocratisation » à laquelle on assiste et on la doit à un GAFA.
- Quel était l’intérêt de Meta ?
A.P. : Malheureusement, je ne suis pas dans la tête de Mark Zuckerberg ni de Yann Le Cun [son directeur de la recherche fondamentale sur l’IA] . Mon hypothèse est qu’il s’agissait de ne pas laisser OpenAI en position de monopole. Pour mémoire, les modèles de langage s’inscrivent dans une continuité de recherche issue de l’apprentissage profond – un domaine de recherche dont l’open source a été le moteur : depuis les débuts de la recherche sur l’apprentissage profond, les grandes entreprises ont l’habitude de publier leur framework en open source – PyTorch (le Meta Open Source) ou TensorFlow (le Google Open Source) – de façon à profiter de l’émulation des chercheurs du monde entier. Car pour elles, l’alternative est simple : ou bien se reposer sur leurs forces internes, ou bien profiter de celles de dizaines de milliers de chercheurs à travers le monde. Bien que la première option soit tentante, la seconde est bien sûr la plus pertinente sur du long terme, et c’est le calcul que Meta a sûrement fait pour contrecarrer le monopole qu’OpenAI était sur le point d’exercer. Ce faisant Meta a su constituer une armée d’acteurs du monde libre, si je puis user de cette métaphore. Une situation dont notre pays et nos entreprises profitent directement. Je pense en particulier à Mistral AI, une start-up française qui propose des modèles de langage d’une incroyable performance découlant des architectures LLaMA. Elle comme d’autres sont ainsi déjà en capacité de contester le monopole d’OpenAI. Un renversement de situation qui s’est donc joué au cours de ces mois de mars et avril 2023. Des chercheurs de laboratoires universitaires ou d’organismes de recherche comme l’ONERA disposent eux-mêmes des moyens de faire de la recherche sur le sujet. Certes, ils n’ont peut-être pas ceux d’apprendre un modèle de langage depuis une page blanche aussi généraliste que ceux d’OpenAI mais ils peuvent se servir de modèles pré-appris et étudier leurs comportements sur des usages plus spécifiques afin d’en définir les limites. Et on est bien là dans le rôle du chercheur en IA : chercher à comprendre comment marchent les modèles de langage appliqués à cette intelligence. On est cependant passé d’une science du signal à dominante abstraite et théorique (mathématique, informatique) à une science de plus en plus « molle » au sens où l’étude des gigantesques réseaux de neurones que sont les grands modèles de langage se rapproche de plus en plus de la psychologie. On ne compte plus les papiers qui se tournent vers les théories de la psychologie comme celles de Piaget ou relative à la conscience. Ils analysent les comportements de modèles de langage comme LLaMa et consorts au prisme de la psychologie.
Journaliste
En savoir plus