1. Introduction
- L’intelligence artificielle n’est pas une technologie isolée, c’est d’un point de vue pratique pour les entreprises une modalité des systèmes logiciels.
- Il est important d’avoir une vision large de l’IA, et de se maintenir « au courant » de l’état de l’art à la fois en termes d’outils et de méthodes de composition.
- L’intelligence artificielle est une boucle d’apprentissage avec des humains à l’intérieur.
- Il est absolument fondamental de penser les données en tant que cycle continu de collecte : les données du futur ont plus de valeur que celles du passé.
- La mise en place d’applications enrichies par l’IA doit être vue de façon systémique comme une boucle.
Ce qui est fascinant avec l’IA, c’est son évolution rapide, qui pousse à remettre en cause en permanence ses connaissances et qui justifie d’ailleurs la deuxième recommandation de cette liste. Pour ce faire, il existe de nombreux outils, comme par exemple l’excellent podcast de Deepmind : « DeepMind : The PodCast», animée par Hannah Fry, qui est maintenant à sa deuxième saison, et que je recommande chaleureusement. Il existe aussi des rapports annuels qui permettent de se mettre à jour, tels que :
- Le « Artificial Intelligence Index Report » de Stanford University
- Le rapport « State of AI » proposé chaque année par deux investisseurs britanniques.
Je vais également profiter de ce billet pour parler de deux livres récents. Le premier est « The Age of AI: And Our Human Future» qui propose une réflexion globale sur le rôle de l’IA dans la société. Le second est un livre prospectif, « AI 2041 : Ten Visions for Our Future », qui illustre ce que l’IA pourrait être dans 20 ans à travers 10 scénarios proposés par Kai-Fu Lee, l’auteur du best-seller « AI Super-Powers ».
Si je devais maintenant – à l’été 2022 – reformuler quelques idées clé sur le développement de l’IA dans l’entreprise (les compétence clés à développer) j’aurai probablement une formulation différente, même si les principes généraux ne changent pas :
- La boîte à outils autour du Deep Learning évolue constamment et rapidement, de nouvelles méthodes et heuristiques ont pris place à coté de celles évoquées dans mon livre (reinforcement learning, GAN, LSTM, etc.).
- Les approches hybride, qui combinent plusieurs techniques et meta-heuristiques, soit à un niveau élémentaire (dans les algorithmes) soit à un niveau systémique (L’approche « system of systems ») sont présentes partout, dès qu’on analyse les solutions qui constituent l’état de l’art (cf. Section 3).
- En particulier la combinaison de la simulation et de l’IA, qui est la fondation de l’approche « jumeau numérique », est un domaine très fécond, dans les deux directions : utiliser l’IA pour améliorer la simulation (par exemple, la simulation numérique par éléments finis) et construire des systèmes itératifs pour faire de l’apprentissage systémique par renforcement.
- A côté de l’apprentissage statistique fondé sur les corrélations, l’apprentissage par modèles de causalité progresse, même si le thème « Causal AI » reste encore minoritaire en tant que domaine de recherche.
Ce billet d’été est organisé comme suit. La section 2 s’intéresse à une vision globale de l’IA, en suivant les pas des auteurs de « The Age of AI – And Our Human Future ». Les progrès réalisés au cours de la dernière décennie sont spectaculaires, mais ce n’est qu’un début. Les outils construits autour de l’IA sont partout dans nos vies et ils conduisent à un « état permanent de collaboration homme-machine », qui va se généraliser et se renforcer. La section 3 se concentre sur les développements récents, et illustrer ce qui a été dit plus haut autour de concepts tels que les (visual) transformers, les réseaux neuronaux de graphes (GNN), les modèles de diffusions ou les approches de self-supervision. En s’appuyant sur les deux rapports évoqués précédemment, c’est l’occasion de présenter certaines avancées / solutions récentes qui représentent l’état de l’art en 2022. La dernière section est organisée autour du livre « AI 2041 » et propose quelques réflexions prospectives sur le futur de l’IA.
2. “The Age of AI”
- Je recommande ce livre à un public large car il offre une excellente introduction pour comprendre ce qu’est l’intelligence artificielle, dans un esprit qui est proche de la première proposition de l’introduction : l’IA n’est pas un domaine en soi, c’est une nouvelle modalité d’un très grand nombre d’activité humaines : « AI is not an industry, let alone a single product. In strategic parlance, it is not a “domain.” It is an enabler of many industries and facets of human life: scientific research, education, manufacturing, logistics, transportation, defense, law enforcement, politics, advertising, art, culture, and more ». L’intelligence artificielle est tissée dans le logiciel, qui, comme nous le savons tous « dévore le monde » : « Persistently, often imperceptibly, but now unavoidably, a web of software processes is unfolding across the world, driving and perceiving the pace and scope of events, overlaying aspects of our daily life — homes, transportation, news distribution, financial markets, military operations — our minds once traveled alone ». Un des thèmes centraux est celui du « centaure», le couple formé par l’humain et l’intelligence artificielle. La première caractérisque de cette nouvelle ère qui commence, c’est celle de la collaboration permanente entre nous et nos assistants cognitifs, nos intelligences humaines avec de multiples formes d’intelligence artificielle : « AI will usher in a world in which decisions are made in three primary ways: by humans (which is familiar), by machines (which is becoming familiar), and by collaboration between humans and machines (which is not only unfamiliar but also unprecedented). AI is also in the process of transforming machines — which, until now, have been our tools — into our partners ».
- C’est à la fois une réflexion conceptuelle et un livre pratique qui illustre avec de nombreux exemples les avancées rendues possibles par l’intelligence artificielle aujourd’hui. Parmi les nombreux domaines que nous allons également retrouver dans la section suivante, l’utilisation de l’IA pour assister la construction de connaissance et la découverte de nouvelles molécules ou recettes est un exemple emblématique. D’une part, parce que ces avancées sont déjà spectaculaires (voir également « The State of AI ») et parce qu’elles nous concernent tous. Je vous recommande de lire la création de Halicin : « When it was done training, the researchers instructed the AI to survey a library of 61,000 molecules, FDA-approved drugs, and natural products for molecules that (1) the AI predicted would be effective as antibiotics, (2) did not look like any existing antibiotics, and (3) the AI predicted would be nontoxic. Of the 61,000, one molecule fit the criteria. The researchers named it halicin — a nod to the AI HAL in the film 2001: A Space Odyssey ». Sans surprise puisque Google a fait l’acquisition de DeepMind en 2014, Eric Schmidt donne de nombreux exemples autour des résultats spectaculaires de AlphaFold qui est aujourd’hui le système le plus avancé pour prédire la structure des protéines : «AlphaFold has more than doubled the accuracy of protein folding from around 40 to around 85 percent, enabling biologists and chemists around the world to revisit old questions they had been unable to answer and to ask new questions about battling pathogens in people, animals, and plants ». Le livre contient également des exemples plus classiques d’utilisation d’apprentissage automatique pour améliorer les performances d’algorithmes de recherche opérationnelle. Par exemple Google utilise les algorithmes de DeepMind pour réduire la consommation électrique de ses centres de calcul : « Although some of the world’s best engineers had already tackled the problem, DeepMind’s AI program further optimized cooling, reducing energy expenditures by an additional 40 percent—a massive improvement over human performance ».
- Le livre insiste, à travers de nombreux exemples, sur les approche « génératives » qui permettent de produire des « créations » à partir de réseaux neuronaux. L’exemple le plus célèbre est probablement GPT-3, un réseau neuronal massif entrainé à prédire les enchainements dans un discours, capable de synthétiser, résumer ou compléter un fragment de texte : « In contrast to AI that does a particular task, such as playing chess or discovering antibiotics, models like GPT‑3 generate possible responses to various inputs (and thus are called generative models). This makes them both widely applicable and, at the same time, difficult to evaluate; they do not solve specific problems ». Ces méthodes utilisent des réseaux neuronaux qui apprennent des caractéristiques clés de leurs données d’entrée pour être ensuite capable de reproduire, de façon « générative », d’autre artefacts similaires : « First, generative neural networks are trained using text or images. Then they produce novel text or images — synthetic but realistic ». L’approche des réseaux GAN (Generative Adversarial Networks) est une méthode célèbre pour produire ces images, textes ou vidéo. Les auteurs soulignent cette notion essentielle de la « boîte à outils » que constitue l’ensemble des techniques développées autour du Deep Learning : « its improvement did not just derive from the application of neural networks or machine-learning techniques. Rather, it sprang from new and creative applications of these approaches. These developments underscore a key point: from the basic building blocks of machine learning, developers have the capacity to continue innovating in brilliant ways, unlocking new AIs in the process ». Notons que l’approche GAN sert à d’autres choses, comme l’augmentation de la robustesse des réseaux, et qu’il y a de multiples autres méthodes pour utiliser l’IA de façon générative, en particulier en utilisant les approches probabilistes (de type Monte-Carlo) pour explorer des espaces de design.
- Comme cela a été dit, l’IA n’est pas une technologie isolée, elle est « tissée » dans des systèmes numériques. Logiquement, en particulier de la part d’Eric Schmidt, ce livre s’intéresse aux systèmes digitaux et en particulier aux plateformes. Comme cela a été souligné plusieurs fois dans ce blog, les plateformes digitales sont fascinante à cause des effets de réseau qu’elles produisent : « This is unfolding rapidly and in connection with a new type of entity we call “network platforms”: digital services that provide value to their users by aggregating those users in large numbers, often at a transnational and global scale ». Les auteurs insistent sur l’importance de l’IA dans le développement des plateformes (je vous renvoie au chapitre 8 de mon propre livre) : « These network platforms increasingly rely on AI, producing an intersection between humans and AI on a scale that suggests an event of civilizational significance ». Cette importance de l’IA conduit à une tension : d’une part le volume sans cesse croissant de donnée exige d’utiliser des techniques « IA / ML » pour les traiter efficacement, et d’autre part le recours croissant à l’IA conduit à une plus grande dépendance envers les outils pour comprendre ses propre données – « AI increasingly shapes our informational domain » - et expose à des plus grands risques de biais non détectés.
- Les auteurs sont persuadés, ce qui est capturé dans le titre du livre, que l’IA va jouer un rôle fondamental et croissant dans nos vies et l’organisations de nos sociétés. Sans proposer une prospective – « Forecasting how swiftly AI will be applied to additional fields is equally difficult. But we can continue to expect dramatic increases in the capacities of these systems » – ils proposent sur une réflexion sur le futur de l’IA, sur les impacts probables et comment il faut s’y préparer. On reconnait dans ces pages l’influence de Ray Kurzweil qui relie les progès continus de l’IA et ceux de la puissance de calcul : « It is reasonable to expect that over time, AI will progress at least as fast as computing power has, yielding a millionfold increase in fifteen to twenty years. Such progress will allow the creation of neural networks that, in scale, are equal to the human brain ». Autrement dit, les performances des assistants cognififs avec lesquels nous partageons nos vies, personnelles et professionnelles, vont augmenter continument : « When users turn to AI‑enabled network platforms for assistance with tasks, they are benefiting from a type of gathering and distilling of information that no prior generation has experienced ». On retrouve ici la transformation profonde de l’humanité évoquée précédement : « The boundary between humans and AI is strikingly porous. If children acquire digital assistants at an early age, they will become habituated to them. At the same time, digital assistants will evolve with their owners, internalizing their preferences and biases as they mature ». L’émergence de ces assistants cognitifs changent profondément l’expérience d’apprentissage : « Now, in every domain characterized by intensive intellectual labor, from finance to law, AI is being integrated into the process of learning ». En revanche, cela pose les questions évoquées précédemment : « AI’s effects on human knowledge are paradoxical. On the one hand, AI intermediaries can navigate and analyze bodies of data vaster than the unaided human mind could have previously contemplated. On the other, this power — the ability to engage with vast bodies of data — may also accentuate forms of manipulation and error ».
- Pour finir, une partie importante du livre est consacrée à la dimension éthique du développement des systèmes qui s’appuient sur l’IA. Le rôle clé de l’IA, associé aux faiblesses et risques que nous venons de mentionner, conduisent naturellement à questionner le développement des plateformes digitales : « As AI becomes increasingly critical to network platforms’ functioning, it is also becoming, gradually and unobtrusively, a sorter and shaper of reality — and, in effect, an actor on the national and global stage. … . This raises essential questions: With what objective function is such AI operating? And by whose design, and within what regulatory parameters? ». Cette question est d’autant plus intéressante que l’utilisation de l’IA est émergente dans les plateformes digitales (on se rappelle de la proximité avec Google) : « Designers did not set out with the clear objective of inventing AI‑enabled network platforms; instead, they arose incidentally, as a function of the problems that individual companies, engineers, and their customers sought to solve ». Les auteurs reconnaissent que l'utilisation d’algorithmes de plus en plus sophistiqués a une influence considérable sur le « paysage commercial », national et mondial. Cela les conduits à souligner l’importance de l’éthique dans le développement de l’intelligence artificielle : « An AI ethic is essential. Each individual decision — to constrain, partner, or defer — may or may not have dramatic consequences, but in the aggregate, they will be magnified. They cannot be made in isolation. If humanity is to shape the future, it needs to agree on common principles that guide each choice ». Je vous laisse lire les développements très intéressants sur les recommandations pour les pays, où l’on reconnaît l’analyse de Henri Kissinger : « For AI powers, pursuing some form of understanding and mutual restraint is critical. In cases where systems and capabilities are altered easily and relatively undetectably by a change in computer code, each major government may assume that its adversaries are willing to take strategically sensitive AI research, development, and deployment one step further than what they have publicly acknowledged or even privately pledged ». Un aspect que je trouve passionnant et que je porte au sein du groupe d’experts du CSA sur les plateformes numériques, est l’importance de savoir ralentir les processus digitaux. Une des raisons pour lesquelles les biais des plateformes sont problématiques est la croissance exponentielle de la diffusion des mauvaises informations ou la propagation des mauvais choix. Savoir ralentir est une façon « simple » (et moins intrusive que la censure) de redonner à l’humain un meilleur contrôle face à la machine : « Fifth, countries — especially the major technological ones — should create robust and accepted methods of maximizing decision time during periods of heightened tension and in extreme situations ». Pour finir, soulignons l’évidence : le fait de souligner les risques éthiques ne rangent pas les auteurs dans un camp anti-technologique, ni n’entame leur conviction de l’arrivée de l’âge de l’intelligence artificielle : « While the advancement of AI may be inevitable, its ultimate destination is not. Its advent, then, is both historically and philosophically significant. Attempts to halt its development will merely cede the future to the element of humanity courageous enough to face the implications of its own inventiveness ».
3. “The State of AI”
Le rapport “Artificial Intelligence Index Report (2022)”, publié chaque année par le « Human-Centered Artificial Intelligence » Lab de Stanford University, est la référence en matière de mesure de performance et de progrès dans les différentes disciplines de l’IA. Ses courbes qui montrent les progrès obtenus sur des benchmarks (jeux de tests) publics, sont célèbres et largement utilisés, y compris par moi dans des documents tels que le rapport de l’académie des technologies. Par construction, je ne vais pas essayer de résumer le contenu mais plutôt vous engager à le télécharger et le feuilleter en fonction de vos centres d’intérêt (en faisant bien attention aux unités sur les courbes : une lecture rapide pourrait donner l’impression d’un progrès uniforme, alors que certains problèmes restent très difficiles et que les progrès sont très lents). Je me propose ici de simplement commenter quelques points du chapitre 2 sur les « Technical performances », qui sont résumés page 51 :
- Les meilleurs systèmes sont ceux qui sont entrainés avec le plus de données possibles. C’était déjà le point saillant du livre « AI Super-Powers », mais les preuves ne font que s’accumuler. Les auteurs de Stanford attribuent la suprématie des systèmes « state of the art »(SoA) à un plus grand volume de données dans 9 cas sur 10.
- Les progrès sont continus dans le domaine « computer vision », tirés à la fois par la spécialisation (nouvelles méthodes) et par la dissémination des meilleures pratiques. C’est vrai à la fois pour des problèmes classiques tels que la reconnaissance des images de « Imagenet » (ou la « performance humaine » a été atteinte il y a 5 ans) et de nombreux autres problèmes tels que la reconnaissance des postures ou des objets dans une vidéo (Common Objects in Context)
- Si la reconnaissance du langage parlé ou la compréhension des textes simples a beaucoup progressé (ce que nous voyons en utilisant Alexa), la reconnaissance du langage naturel (« complex language recognition ») reste un problème difficile. Sur le jeux de tests RECLOR, la performance passe de 91% de reconnaissance sur les tests simples à 70% sur les tests difficiles, très loin encore de la « performance humaine ». En revanche, le problème plus simple de la reconnaissance « des sentiments » (sentiment analysis) démontre des progrès plus significatif, puisque nous sommes passés, sur le jeu de test Semeval 2014, d’une performance de 78% il y a 5 ans à 88% aujourd’hui.
- Les progrès sont également continus et spectaculaires dans le domaine du « reinforcement learning ». Cela s’apprécie par exemple avec la mesure de performance ELO au jeu d’échec, où les approches d’IA ont dépassé depuis longtemps « le niveau humain » (2882 pour Magnus Carlsen) et sont maintenant à 3581. Le jeu de test Procgen permet également d’apprécier les progrès spectaculaires ces dernières années (illustré par la nouvelle plateforme MuZero de DeepMind).
- Le rapport « AI index » s’intéresse également chaque année aux coûts de calcul pour une tache donnée, ainsi qu’aux temps de traitement, qui baissent rapidement (sans surprise). La combinaison de la « Loi de Moore » (baisse des coûts hardware) et de l’amélioration des méthodes donne des résultats spectaculaires : le coût d’apprentissage pour obtenir une reconnaissance de 93% sur la base Imagenet est passé de 1000$ en 2017 à 4.6$ aujourd’hui.
Pour commencer, voici une synthèse des « nouveaux mots clés », c’est-à-dire des méthodes qui sont devenues populaires dans les différentes conférences sur le machine learning ces dernières années (d’où cette idée de mise-à-jour par rapport à l’état de l’art en 2018) :
- Les « Vision Transformers » (page 11) ont fait une entrée remarquée face à l’approche devenue classique des réseaux convolutifs (CNN). Il s’agit d’une application au domaine de la vision du principe « attention-based » : concentrer « l’attention » (le scope) du réseau neuronal sur une zone (spatiale ici, mais temporelle dans le domaine de la reconnaissance du langage). Les « Visual Transformers » sont des étapes préliminaires dans le réseau neuronal, qui identifie des « patterns élémentaires » qui sont ensuite traités par les couches supérieures du réseau. Il ne s’agit pas d’opposer CNN et Visual Transformer (lire la slide 17), mais bien d’une généralisation (il y a plus de souplesse avec le concept de transformer que les sous-matrices de convolutions qui sont des transformers spécifiques).
- L’approche Self-Supervision, chère à Yann Le Cun, se généralise dans le domaine de la vision(page 12). La self-supervision est intermédiaire entre les approches supervisées, ou l’apprentissage se fait à partir des « labels », les méta-données qui représentent le résultat attendu par l’apprentissage et les approches non-supervisées qui « explorent » les types de classification possibles que l’on peut proposer sur un jeu de données sans « labels ». Dans une approche self-supervisée, la stucture des données (spatiale ou temporelle) fournit un guide pour extraire des buts d’apprentissage (prédire le futur à partir du passé, prédire une zone à partir des voisins, etc.). On retrouve ici une idée central de Yann Le Cun que j’ai cité souvent : une des marque de l’intelligence est la capacité à faire des prévisions.
- Deepmind continue à developer et enrichir ses plateformes de “reinforcement learning”, avec la progression de AlphaGo à AlphaZero, puis à MuZero. Je vous recommande la lecture de “MuZero Intuition” de Julian Schrittwieser, pour appécier le concept d’approche hybride évoqué en introduction . MuZero utilise MCTS (comme AlphaGo) mais également le “Population Based Training”, une approche de type « communauté d’agent » (cf. slide 30 de « State of AI »). MuZero n’est pas simplement une plateforme de recherche, c’est un système opérationnel qui a été appliqué avec succès à des problèmes concrets tels que la compression vidéo.)
- L’approche des Diffusion Models a émergé comme méta-heuristique à côté des réseaux « adversarial » (GAN) (page 36). Les modèles de diffusion consistent à construire des réseaux de diffusion de bruit, qui masquent progressivement l’entrée (par exemple une image) puis à entrainer des réseaux neuronaux à retrouver l’image initiale ( à débruiter, en quelque sorte). Cette approche permet de synthétiser des images, et souvent avec une qualité supérieure à l’approche des GAN (pour un coût computationnel supérieur).
- L’utilisation d’un réseau neuronal sur une grille s’applique parfaitement à une grille de pixels qui représentent une image. L’approche Graph Neural Networks (GNN, page 64 – 65) consiste à construire des réseaux neuronaux à partir d’un graphe (la première couche représente les noeuds, les couches suivantes la structure du graphe). Selon les auteurs, l’approche GNN est passée en quelques années du statut de niche à un des domaines les plus prolifiques du machine learning. En particulier (page 69), les laboratoires Chinois ont massivement investi dans ces approches et dominent une partie des benchmarks mondiaux.
- Pour finir, le rapport « State of AI » donne une part importante à la thématique « ML in Production ». Tous les lecteurs intéressés par le sujet « ML Ops » liront avec intérêt les pages 106 a 110.La slide 57 sur l’approche « Data Mesh » ou la propagation des erreurs dans les flux de données (« data cascades ») est également une source d’inspiration pour travailler sur la qualité des données qui entrainent les systèmes d’apprentissage.
A côté des concepts clés qui deviennent populaires dans les systèmes « state of the art », le rapport permet précisément d’identifier certains de ces systèmes. Ici aussi, l’intérêt du document est de fournir une fiche pédagogique (comment ça marche, ce que ça fair). Sans être exhaustif, voici une petite sélection des « SoA solutions » de 2021 :
- Pages 19 et 20, le rapport présente la deuxième génération d’AlphaFold (AlphaFold2), le niveau de performance obtenu qui est le nouveau « state of the art » du domaine et un certain nombre de détail sur les méthodes employés (comme les attention-based model pour décoder les séquences).
- Comme dans le livre précédent, les auteurs donnent plusieurs exemples de découvertes de nouveaux médicaments grâce à l’IA, tels que Exscientia. En utilisant des techniques de computer vision, Exscienta a été capable d’accéler la sélection des molécules les plus efficaces pour traiter des tumeurs cancéreuses. Plus en amont dans la recherche, l’utilisation d’IA en « Cryogenic Electron Microscopy » (CEM) est un parfait exemple de l’hybridation entre recherche scientifique et IA.
- En particulier, il est intéressant de noter l’utilisation des « transformers » présentés plus haut dans la prévision de réactions chimiques. Avec cette approche, IBM est capable de prédire plus précisément le rendement des réactions.
- L’approche « computer vision » est également utilisée pour améliorer la sécurité dans les usines en détectant à la fois les zones et les comportements à risques.
- L’approche GNN (réseaux neuronaux de graphes) est utilisée pour améliorer les performances des algorithmes de prédiction de temps de parcours dans Google Maps.
- Un très bel exemple d’utilisation de robots dans la gestion des entrepôts dans le domaine « online grocery » illustre la puissance de l’approche « reinforcement learning » pour construire un système d’assistance temps-réel (une illustration du centaure de la Section 2).
- Pour finir, je vous recommande les quelques pages sur l’utilisation d’IA pour assister la production de code (développement logiciel). Le développement autonome est encore loin mais l’utilisation d’approches telles que GPT3 pour suggérer des « complétions automatiques » commence à émerger. Les différents tests montrent que cette approche « deep ML » fonctionne moins bien que l’approche plus classique de « theorem prover » pour résoudre des exercices de mathématiques, dès que ceux-ci sont « complexes ». Ce sujet m’intéresse sentimentalement car mon premier projet universitaire, il y a 40 ans, était un programme d’IA capable de résoudre les exercices du chapitre du cours d’algèbre de Roger Godement portant sur les idéaux (un projet nommé Aurélie : Approche d’une Unité de Résolution d’Exercises Limités aux Idéaux et leurs Extensions).
Il y a beaucoup d’autres choses à lire dans ce rapport. Ici je me suis surtout inspiré de la première section « Research », sans être exhaustif puisque la page 54 qui nous alerte sur la difficulté à reproduire les résultats cités dans les articles scientifiques mérite une lecture attentive, et sur la section « Industry » (à lire en fonction de ses centres d’intérêt). Les autres sections contiennent de nombreuses pépites. La section « Talent » donne des chiffres très intéressant sur le nombre de praticiens de l’IA et leur évolution (en particulier en Inde et en Chine). La section « Politics » parle des sujets « éthiques » en écho aux questions soulevées dans le livre « The Age of AI ». On y retrouve les mêmes questions, mais illustrées sur des cas et des décisions concrètes dans les différents pays du monde.
4. “The Future of AI”
Ce livre propose une prospective fondée sur l’état de l’art de l’IA vu par Kai-Fu Lee, en partant de ce qui existe déjà et en particulier des domaines qui lui sont chers, tels que la reconnaissance vocale : « The technology has surpassed humans in speech and object recognition, served up “digital humans” with uncanny realism in both appearance and speech, and earned passing marks on college entrance and medical licensing exams ». La posture générale est très proche du premier livre, ou de la vision du patron de NVIDIA, et considère l’IA comme une technologie qui va changer, à travers le logiciel, l’ensemble des activités humaines : « AI is an omni-use technology that will penetrate virtually all industries ». Le thème général est l’intelligence artificielle, mais il s’agit surtout de réseaux neuronaux profond, dans la lignée du livre précédent de Kai-Fu Lee : « Deep learning is an omni-use technology, meaning it could be applied to almost any domain for recognition, prediction, classification, decision-making, or synthesis ». J’y reviendrai à la fin de cette section en évoquant d’autres approches en intelligence artificielle qui pourraient trouver leur place dans un scénario prospectif 2041. On retrouve dans les pages de commentaires de Kai-Fu Lee les limites que nous avons déjà évoquées dans la section suivante : « GPT-3 is also weak in causal reasoning, abstract thinking, explanatory statements, common sense, and (intentional) creativity ».
Le livre explore de façon prospective le développement de l’IA en 2040 à travers un ensemble de scénarios correspondants à des domaines différents. Il s’agit plus de prospective sur l’usage et le développement que de prospective scientifique. Les auteurs revendiquent une approche réaliste, en partant de ce qui existe déjà dans les laboratoires aujourd’hui : « This book is based on realistic AI, or technologies that either already exist or can be reasonably expected to mature within the next twenty years ». Kai-Fu Lee insiste sur le côté inévitable de ces développements de l’intelligence artificielle, dans une continuité complète avec le livre « Age of AI » : « In short, I believe that even with few or no breakthroughs, AI is still poised to make a profound impact on our society. And this book is my testimony ». Les avancées tangibles de la dernière décennie n’ont pas encore produit tous leurs fruits : « According to Amara’s law, “We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run”. Plusieurs chapitres mettent en scène des robots, qui ne sont pas très différent de ceux que nous voyons déjà : « These robots will gradually become more capable. Computer vision using cameras and other sensors (such as LiDAR) will be an integral part of smart cities and autonomous vehicles. Mobile platforms will be able to navigate indoors and outdoors and work in swarms with great efficiency and speed, and legged robots will be able to go anywhere ». On retrouve dans les commentaires une partie des développements récents autour du machine learning que nous avons évoqués dans la section précédente : « Recently, however, a simple but elegant new approach for self-supervised learning emerged. Self-supervised learning means AI supervises itself, and no human labeling is required, thus overcoming the bottleneck we just discussed ». Le fait que Kai-Fu Lee parte de sa propre expérience est quelque fois une limite. Par exemple, il suppose implicitement que les agents conversationnels de demain seront les descendants de GPT-3, ce qui n’a rien d’évident … sa réaction sur l’impossibilité d’un scénario proche du film « Her » illustre ce biais : « I believe the kind of romantic-adjacent relationship depicted in the movie Her would be rare. God forbid, if this ever happens to you, remember that you’re just talking to a big sequence transducer, without consciousness or soul—both implied in Her ».
Cependant, les exemples mis en avant dans les chapitres sont “thought provoking”, souvent réalistes et parfois amusants. En particulier, le chapitre sur l’éducation assistée par l’IA, un thème cher aux auteurs du premier livre, est à la fois surprenant et passionnant. Le fait de partir de la Chine comme terrain d’observation n’est pas neutre : « In China, one popular education app has shown that adding interesting virtual students (currently with recorded video, but in the future they will be AI generated) significantly increases the human students’ engagement, participation, and even desire to learn more ». Le chapitre qui parle de l’application de l’IA en médecine, avec une référence à la médecine 4P (personnalisée, prédictive, préventive et participative), est également passionnant car les applications qui sont décrites sont déjà des sujets de recherche d’aujourd’hui. Bien évidemment, la pandémie de la COVID donne des accroches naturelles pour ce type de science fiction : « All this Internet of Things (IoT) data will be combined with other healthcare information such as medical history, contact-tracing records, and infection-control data, to predict and warn about future pandemics ».
Cette prospective touche aussi à des aspects plus obscurs, voire dystopiques, de la technologie. En particulier un chapitre est consacrée à la question de l’impact de l’IA et de l’automatisation sur l’emploi, en suivant un scénario plutôt sombre : « A growing pool of unemployed workers will compete for an ever-shrinking number of jobs, driving down wages ». De façon générale, un effet négatif de la technologie est l’accroissement des inégalités, qu’il s’agisse de compétence ou de ressources économiques : « Wealth inequality will go from bad to worse, as AI algorithms destroy millions of human jobs, while at the same time turning the tech titans who harness these new technologies into billionaires in record time». Pour poursuivre votre réflexion sur le sujet de l’impact de l’IA sur l’emploi, vous pouvez également lire le livre de Azeem Azhar, « Exponential : Order and Chaos in an Age of Accelerating Technology ». Azeem explique fort bien la nature compétitive du processus d’automatisation : « It was not automation itself driving job losses, but the difficulties faced by the companies that didn’t automate ». On y retrouve la même analyse que celle de Kai-Fu Lee, le risque d’un accroissement des inégalités : « You may have noticed a pattern emerging. The future of work seems less defined by the absence of work and more by a growing chasm – between increasingly high-quality work for some, and increasingly low-quality, insecure work for others ». L’ubérisation du travail, le rôle central des platerformes digitales ne conduisent pas à l’amélioration de la satisfaction dans le travail du futur : « This problem is visible in the precarity of gig work, and the treatment of employees as fungible assets to be controlled through management algorithms ».
Pour illustrer le fait que l’ensemble de la prospective en IA ne se résume pas aux avancées en deep learning (même si la section précédente a montré que ces avancées sont nombreuses), je vais vous citer 3 sujets que j’aurai inclus dans ma propre vision prospective à vingt ans. En premier, l’analyse de tous les problèmes complexes, depuis le réchauffement climatique aux modes de gouvernements en passant par les conditions commerciales des entreprises montre la difficulté à prendre en compte, comprendre et analyser les points de vue des différents acteurs. Les approches hybrides qui combinent la théorie des jeux, les méthodes évolutionnaires et l’apprentissage vont permettre de révolutionner l’optimisation des systèmes complexes (comme par exemple GTES). Le raisonnement de « AI 2041 » s’applique : ce n’est pas une idée nouvelle, les plateformes de jeux font déjà appel à ces techniques pour animer des « joueurs non humains », mais la croissance continue de la puissance de calcul va permettre d’étendre largement le champ d’application. Le second domaine, que j’ai évoqué en introduction, est celui de l’apprentissage de causalité (causality AI). Dans un monde incertain, fonder sa prévision sur des corrélation est extrêmement fragile. Comme le souligne Yann Le Cun, prévoir consiste à construire, puis à affiner en permanence, un modèle de fonctionnement de son environnement. Ici aussi, il est facile de prévoir que l’augmentation de la puissance de calcul va alimenter le développement de l’analyse de causalité. Il ne s’agit pas non plus d’un sujet de science-fiction, puisque la société Causality Link propose déjà des outils fondés sur la construction de modèles de causalité. Le troisième sujet est en fait semblable : il s’agit de l’importance croissante des jumeaux numériques. Un jumeau numérique est en fait l’application de cette philosophie d’analyse causale : cette approche conduit un modèle numérique d’un objet, d’un système, d’un environnement qui est à a fois un objet d’apprentissage (améliorer le modèle par l’observation du réel) et un objet de simulation (pouvoir travailler sur des scénarios à partir du modèle numérique). Plus le modèle est riche, plus il est capable de permettre de dépasser l’approche de prévision par corrélation. Le slide reproduite dans l’illustration qui suit est tiré d’une présentation sur le « Digital Manufacturing ». L’approche hybride de simulation et d’intelligence artificielle est déjà une réalité aujourd’hui. Par exemple, je vous renvoie aux solutions développées par la société COSMOTECH. Si l’on se place en 2041, il est facile de prévoir que les solutions de jumeaux numériques seront ubiquitaires et joueront un rôle essentiel dans notre vie de tous les jours.
5. Conclusion
Pour conclure ce billet qui est déjà long, je vous propose un résumé des groupes de techniques et méthodes, liées à l’intelligence artificielle, que les entreprises doivent maitriser pour tirer parti des nouvelles opportunités. C’est le sujet du chapitre 5 de mon livre, mais comme ce billet vient de le démontrer, la réponse à cette question évolue de façon continue, au fur et à mesure que la boîte à outil évolue :
- Les architectures de NN : CNN, LSTM, transformer, …
- Les méta-heuristiques pour NN: GAN, diffusion, self-supervised, ...
- Les méta-heuristiques de contrôle, dont le reinforcement learning,
- La boite à outil NLP (les modèles profonds type GPT3, les ontologies, …),
- Les approche d’hybridation (cf Deep Mind) et de composition (system of system), en particulier les hybridation Simulation & AI.
Et puisqu’il n’y pas de mal à répéter un bon conseil, vous trouverez tous ces concepts et méthodes dans le podcast de Hannah Fry sur Deepmind « DeepMind : The PodCast», depuis AlphaFold2 jusqu’à MuZero, en passant les approches évolutionnaires, l’hybridation entre machine learning et simulation, les transformers, les GANs, etc.