1. Introduction
Le billet de ce jour porte sur la prévision et l’usage de « smart data ». Même si ce terme est flou, j’utilise « smart data » ici pour faire une distinction avec « big data » : pas forcément des énormes volumes de données, mais l’utilisation de méta-données et de modèles qui rendent l’usage plus « smart », pour reprendre les propos de Pedro Domingo in the « The Master Algorithm : How the Quest for the Ultimate Learning Machine Will Remake Our World» : « there is no such thing as learning without knowledge ». Opposer « big » et « smart » data est un peu artificiel et relève plus du marketing que de la science, mais il existe de multiples façons de faire de l’analyse de données et la pratique montre une certaine différence dans la façon dont on traite des petabytes de données et des centaines de gigas. Dans le second cas, la richesse de la boite-à -outils des algorithmes est bien plus grande.
La prévision est le sujet chaud du moment, c’est en fait plus de la moitié des “use cases” de « l’intelligence artificielle » dans les entreprises, l’autre moitié étant la reconnaissance de situations et de motifs. Pour vous en convaincre, vous pouvez regarder les « use cases » de prediction.io, une startup qui proposé précisément des méthodes d’« intelligence artificielle » pour permettre de faire des prévisions. Je reviendrai dans un prochain billet sur cet emploi du terme « intelligence artificielle » pour parler des méthodes d’apprentissage, au moment de la sortie du rapport de l’ADT. On retrouve cet usage partout : le pitch de « DAVinci Labs » est : « Artificiel Intelligence solution to create real values for enterprises » ; les « use cases » sont également majoritairement lié à la prévision. Si vous avez plus de temps, vous pouvez lire la centaine de pages du rapport d’Olivier Ezratty « Les applications de l’intelligence artificielle » consacrées aux applications (à partir de la page 180), pour constater que la moitié des applications sont bien liées à la prévision. On peut même constater qu’une partie de l’autre moitié, les applications de diagnostics par reconnaissance de situation, sont une autre forme de prévision (la catégorie est liée à un jugement sur le futur).
Il n’y a pas de surprise dans le fait que la prévision soit au cœur des systèmes d’aide à la décision, selon l’adage que « gouverner, c’est prévoir ». En revanche, il y une forme de paradoxe dans le développement des méthodes d’ « IA appliquée aux smart data » dans un monde incertain et complexe qualifié de VUCA (Volatility, Uncertainty, Complexity and Ambiguity). La première partie conduit à développer et promouvoir la prévision, tandis que les caractéristiques de complexité du monde VUCA du 21e siècle conduisent à renoncer à la prévision en faveur de l’adaptabilité. La première réponse simple à ce paradoxe est de séparer les échelles de temps : le monde moderne reste fortement prévisible à court-terme (avant que les boucles complexes ne puisse jouer leur rôle perturbateur), c’est le moyen et long terme qui sont, comme la météorologie, hors d’atteinte de nos modélisations. Mais cette réponse cache une réalité plus complexe : la frontière entre ces deux mondes est floue et variable selon le problème considéré. Les extrêmes (le très court-terme linéaire) et long terme (chaotique) sont de peu d’intérêt, c’est à la frontière (« edge of the chaos ») que la vie compétitive de la prévision se situe J
Une bonne façon d’introduire ce sujet est de vous suggérer la lecture de « The Signal and Noise – The Art and Science of Prediction » de Nate Silver. Dans ce livre passionnant l’auteur se livre à une mise en garde détaillée et argumentée des dérives de l’utilisations du « big data ». Dès l’introduction, il rappelle qu’il n’y pas de connaissance dans les datas, c’est nous qui les faisons parler. Lorsqu’on oublie ceci, cela peut conduire à des désastres comme celui de la crise de 2008 : « our naive trust in models, and our failure to realize how fragile they were to our choice of assumptions, yielded disastrous results ». Dans le monde nouveau de l’abondance des data, le rapport « signal/bruit » diminue, nous avons des déluges de données mais celles qui sont utiles sont plus dilluées – c’est précisément le thème de l’approche « smart data ». Une grande partie du livre est consacrée au modèle Bayésien, à la fois en tant que technique de prévision – cela reste une approche simple et robuste utilisée partout dans le monde, en particulier chez Google – et en tant que modèle de pensée : distinguer en permanence notre conception du monde avant (priori) et après l’observation (postériori) – « when we fail to think like Bayesian, false positives are a problem not just for mammograms but for all science ». Les « bonnes entreprises » ne passent trop de temps sur les modèles, elles font beaucoup d’expériences pour améliorer, modifier ou abandonner ces modèles, dans une approche évolutioniste. Cette approche de boucle d’apprentissage permanent va être le fil rouge de ce billet: « Today’s forecast is the first forecast of the rest of your life ». Nate Silver reconnait bien sûr le dilemme de la prévision dans une monde complexe et incertain “finding patterns in random noise», mais souligne que la prévision et la complexité ne sont pas forcément antagonistes : « given that forecasters in most domains are prone to overconfidence, it is admirable that weather forecasters are hard on themselves and their forecasting peers. But the improvements they have made refute the ideas that progress is hopeless in the face of complexity”.
Ce court billet est organisé selon le plan suivant. La première partie va enfoncer une porte ouverte, celle de l’intérêt et de l’efficacité de la prévision à court-terme. Il n’y a pas besoin de s’étendre, puisqu’une partie du succès des Google, Amazon ou Facebook repose sur leur capacité à prévoir ce qui va nous plaire. La seconde partie va de façon duale, nous rappeler que, comme Nassim Taleb l’a magistralement expliqué, le monde dans lequel nous vivons ne se prête plus à la prédiction. La complexité et l’incertitude nous demandent de « gouverner autrement » et de remplacer les « plans stratégiques » par des « scénarios stratégiques » … voire des « jeux stratégiques ». La troisième partie va tenter d’explorer une synthèse entre ces deux approches contradictoires, pour explorer l’usage de modèles et de prévisions dans un monde incertain. Je vais prendre trois exemples pour illustrer comment il est possible de tisser l’analyse et l’humilité, la prévision et la prudence, le volontarisme et le lâcher-prise dans une même stratégie. Le lecteur attentif aura remarqué la persistance du thème « grecs et chinois » dans les billets du moment.
2. Le futur proche se projette dans le monde numérique
Nous vivons dans un monde qui, au travers des applications numériques de nos smartphones, s’appuie de plus en plus sur la prévision à court-terme. Nous recevons des notifications pour nous prévenir des bouchons, d’une averse, d’une chose que nous allions oublier, d’une opportunité à saisir. Plus près de nous, notre cerveau est une machine à prévoir le futur immédiat. Qu’il s’agisse de voir, de se déplacer, de jouer avec une balle ou de communiquer, nos circuits cérébraux sont en calculs permanents pour prévoir ce qui va se passer : comment rattraper une proie ou un objet, quelles syllabes ou quels mots vont venir chez un interlocuteur ou une page qu’on lit, comment naviguer dans une foule dense pour attraper son métro, etc. Les premières expériences de Deep Learning appliquées aux vidéos montrent la capacité naturelle à prévoir un futur proche à partir du passé (je vous recommande cet interview de Yan Le Cun). Le futur proche se prête bien à la prévision car il contient peu de boucles complexes de rétro-ajustement et les modèles simples d’interpolation – dont bien sûr les régressions linéaires – donnent de bons résultats. Le monde du « Web Squared », grâce à son abondance de senseurs et de données, permet d’enrichir encore plus ces projections à court terme. Nos objets numériques projettent une petite partie de leurs futurs sur nos vies, depuis tous les assistants de sécurité actives de nos voitures jusqu’à la maintenance prédictive de nos machines-outils.
La capacité à prévoir à court-terme est un différentiateur fort dans le monde de l’entreprise. C’est une évidence pour les acteurs du monde numérique, mais c’est vrai de tous les acteurs qui opèrent des capacités, depuis le transport jusqu’aux usines de production. Ceci explique l’engouement spectaculaire pour les techniques d’intelligence artificielle et d’apprentissage signalé en introduction. Comme il s’agit d’une compétition, c’est le niveau de performance relatif qui compte, pas la valeur absolue de la prévision. Il « suffit » de mieux prévoir l’appétence d’un client pour un produit que ses compétiteurs pour en tirer un « supplément de valeur ». Lorsque la prévision est de qualité suffisante, elle permet d’améliorer l’expérience client, en éliminant des choix inutiles. De fait, la prévision court-terme est une composante essentielle de la boite-à-outils de composition des interfaces utilisateurs. Microsoft, Apple, Google utilisent des centaines de « learners » dans les produits et services qu’ils nous proposent, dont le but est de fluidifier notre navigation tout en corrigeant nos erreurs. Dans le monde de l’entreprise, le « buzzword » du moment est la prévision « next best action ». Ici aussi, les plateformes qui proposent des algorithmes d’IA pour optimiser la meilleure réponse à un événement client se multiplient. Il convient de noter qu’il n’est pas forcément facile de prévoir la meilleure prochaine action, mais qu’il est beaucoup plus efficace de prévoir le « cadre », c’est-à-dire l’ensemble des quelques actions parmi lesquelles il faudra choisir. C’est tout le principe de l’approche de Google qui cherche à vous aider à répondre plus vite aux emails en prédisant 3 réponses « probables ».
Dans un grand nombre de cas d’utilisation dans nos entreprises, les données collectées pour faire des prévisions ne qualifient pas de « big data », mais le défi pour en tirer de la connaissance n’en est pas moins excitant. Dans une conversation passionnante avec Olivier Duchesnes de DAVinci Labs, je lui ai demandé de me parler de son infrastructure Hadoop pour traiter les « big data » de ses clients. DAVinci dispose en effet de telles capacités sur le cloud … mais la plupart des projets utilisent des données qui tiennent sur un ordinateur de bureau. On retrouve ici encore l’approche « smart data » qui distingue une phase de collectes dans un océan de données, pour constituer une base pertinente d’information qui est accessible à l’ensemble des méthodes modernes de data science, y compris celle qualifiée d’ « intelligence artificielle » par les nécessités du marketing moderne. Je vous recommande fortement de lire le livre précédemment cité « The Master Algorithm » pour comprendre les différentes approches qui sont disponibles aujourd’hui.
Un cas particulier de la prévision sur des petits volumes de données est celui des séries temporelles. Selon les experts auditionnés par l’ADT, la prévision à partir de peu de données est une des frontières « difficile » de l’intelligence artificielle – par opposition aux succès spectaculaire du Deep Learning lorsque des milliards de jeux données sont présents. Ceci n’est pas une surprise : moins il y a de données, plus le modèle, le contexte et le « common sense knowlege » jouent un rôle important . Le livre de Pedro Domingo est très éclairant sur les difficultés propres et les approches à aborder dans le cas des « small data ». Le risque d’overfitting est d’autant plus grand qu’on s’éloigne du domaine simple de la projection “linéaire” du futur très proche. C’est par exemple le cas lorsqu’on cherche à analyser des données de biométrie (qui, vue de loin, ont un caractère très chaotique avec des variations multi-échelle qui ne sont pas sans rappeler les cours de marché, et qui sont les signatures de la « complexité du vivant »). Je cite Pedro Domingo : « Scientists everywhere use linear regression because that’s what they know, but more often than not the phenomena they study are nonlinear, and a multilayer perceptron can model them. Linear models are blind to phase transitions; neural networks soak them up like a sponge.” L’approche retenue dans l’application de self-tracking Knomee est de construire un algorithme par génération de code (exploration et apprentissage par renforcement), dans un espace contraint (modèle de biorythmes). Le modèle défini un espace d’algorithmes qui ont les bonnes propriétés systémiques (on retrouve un principe de GTES: utiliser des courbes en S comme générateurs au lieu de fonctions linéaires). Les méthodes classiques d’analyse statistiques servent à orienter la partie exploration aléatoire/générative vers les motifs les plus significatifs. Pour éviter l’overfitting, une première approche selon le « Master Algorithm » est d’appliquer un rasoir d’Occam : « For example, we can … machine-learning ». Cependant, il n’est pas possible d’obtenir des performances robustes, même en ayant éliminé l’overfitting: les biorythmes sont difficiles à prévoir (contrairement à la météo, la valeur précédente est un pauvre prédicteur, et il n’est pas facile de faire mieux que la moyenne mobile sur une courte durée). Pour obtenir une prévision « améliorée », il faut inclure le protocole d’évaluation de la robustesse de la prévision – sur lequel nous allons revenir dans la prochaine section - dans l’évaluation du « fitness » pour le renforcement. De cette façon l’algorithme ne passe pas seulement son temps à améliorer de façon incrémentale sa précision avec chaque nouvelle donnée, mais également à évaluer sa propre robustesse en s’observant « en train de prévoir ». La forte complexité algorithmique est compensée par le fait de travailler sur des petites séries temporelles. En revanche l’intérêt de cette approche en boucle d’apprentissage permanent est de pouvoir travailler sur un individu unique (nous sommes tous différents) et sur une période de temps courte (et donc de suivre les évolutions au cours des mois).
3. Gouverner n'est plus prévoir
Il y a beaucoup de choses qu’il n’est pas possible de prévoir, mais nous sommes néanmoins tentés de le faire. Il y a tout d’abord les phénomènes purement aléatoires, le « random noise » que l’on retrouve souvent, en particulier dans le monde de l’IoT et des senseurs connectés. Une des premières choses qu’on devrait vérifier avec une plateforme de prévision ou avec une application qui collecte des données à des fins de prévision est sa capacité à détecter un bruit aléatoire avec la réponse « désolé ! je n’ai rien à dire ». Un deuxième type de données qui ne se prêtent pas à la prévision sont celles issues de systèmes fortement complexes et non-linéaires, pour lesquels des boucles d’amplification produisent des « effets papillons ». Il peut s’agir de la modélisation à long terme d’un système météorologique, mais également de l’adoption d’un service au travers un déploiement viral – tels que les réseaux sociaux – ou encore de la variation des prix sur un marché (pour citer Nate Silver « The central claim of the theory is that the movement of the stock market is unpredictable to any meaningful extent ». On aura reconnu ici un des thèmes centraux de Nassim Taleb que j’ai plusieurs fois développé dans ce blog. Plus profondément, l’émergence de comportements collectifs intelligents (ce que Nate Silver appelle le « herding ») est une signature de la complexité des systèmes qui conduit aux « power laws » (l’extremistan de Taleb).
Il reste néanmoins de nombreux domaines qui se prêtent bien à la prévision, mais il faut un peu de prudence et surtout un peu de connaissances en statistiques. Le monde des prévisions est rempli de « faux positifs », d’algorithmes qui semblent bien expliquer le passé mais sont incapables de fournir une performance robuste. Dans un monde d’abondance de données et de performances spectaculaires des algorithmes d’intelligence artificielle sur certains types de problèmes, il est fréquent de rencontrer des attentes irréalistes, et des mauvais réflexes consistant à augmenter la quantité de données ou de traitement pour améliorer les performances. Je vous recommande chalheureusement la lecture de « Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are» de Seth Stephens-Davidowitz. Outre le fait que ce livre est particulièrement divertissant et nous apprends beaucoup de choses sur qui nous sommes, il contient une très bonne introduction au “curse of dimensionality” et autres pièges de la modélisation de données. On retrouve des propos assez semblables à ceux du livre de Nate Silver. Ce fléau de dimensionalité (une des formes d’overfitting) survient lorsqu’il y a trop de variables explicatives disponible par rapport à ce qu’on cherche à prévoir ou expliquer : « The curse of dimensionality is a major issue with Big Data, since newer datasets frequently give us exponentially more variables than traditional data sources—every search term, every category of tweet, etc. » Tous ces bais sont d’autant plus fréquent qu’on dispose de beaucoup de données et de beaucoup de puissance de calcul. On considère souvent que « data is the new code », mais en fait les algorithmes sont générés en fonction des données et des protocoles d’apprentissage et de validation. Comme cela a été dit plus tôt dans le cas des courtes series temporelles, la forme la plus importante de connaissance est le protocole que l’on applique pour tester la validité de la prévision.
Lorsque la complexité rend la prévision trop difficile ou trop peu robuste, cela ne signifie pas que l’analyse des données ou la formulation de modèle est inutile, mais l’utilisation est forcément différente. Dans un monde complexe, ce qu’il faut apprendre, ce n’est pas ce qui va se passer mais comment réagir à ce qui pourrait se passer. C’est le centre des recommandations de Nassim Taleb dans « The Black Swan » et encore plus dans « Antifragile ». C’est le principe des « war games » et des « serious games », comme cela a été développé dans un précédent billet. C’est aussi la proposition de valeur de COSMO TECH qui utilise des méthodes sophistiquées pour modéliser des systèmes complexes avec des agents qui encapsulent des facettes du comportement. La simulation n’est pas un outil de prévision, c’est un outil pour développer une meilleure compréhension du système. Cette pratique du « jeu sérieux » peut être confiée à des humains, qui vont développer des nouvelles compétences « systémiques », ou elle peut être automatisée dans une approche de théorie des jeux évolutionnaire. C’est tout le principe de l’approche GTES (Game-Theoretical Evolutionary Simulation) que j’ai présentée dans plusieurs billets.
Gouverner n’est donc plus simplement prévoir, même si la prévision reste un outil de choix. Gouverner c’est aussi comprendre et distinguer ce qui n’est pas prévisible de ce qui pourrait l’être, c’est comprendre que toute prévision doit être constamment validée dans une boucle d’apprentissage et que le succès dans le passé n’est pas indicateur de la robustesse d’une méthode de prévision dans le futur. Il est tentant de faire un parallèle avec le « dual loop learning » de Chrys Argyris : la première boucle est celle du « machine learning » à partir des données, la seconde boucle est une remise en cause et ré-évaluation permanente à partir de deux questions : celle prévision est-elle robuste ? la situation est-elle en train de changer ? Exactement comme pour le pilotage agile, l’approche itérative à cycle court est la meilleure façon de s’adapter constamment à un monde qui change. Je peux également citer Cathy O’Neil dans son livre dont je parlerai en conclusion : « Equally important, statistical systems require feedback—something to tell them when they’re off track. »
4. Jouer avec les modèles
Je vais maintenant revenir sur la question posée en introduction : comment utiliser données, modèles et prévision “on the edge of the chaos”, dans cette zone limite entre le monde (grec) des systèmes linéaires qui se prêtent bien à la prévision et celui (chinois) des systèmes chaotiques qui relèvent des conseils de Nassim Taleb. Le problème est intéressant car « ignorer Taleb » c’est prendre le risque des « crises de 2008 » et « ignorer Google » c’est prendre le risque d’être moins efficace que ses concurrents pour satisfaire ses clients. Je vais utiliser trois exemples qui correspondent à trois cas de figure différents d’interaction entre les parties « chaudes » et « froides » des modèles :
- La « fusion» correspond au cas de figure ou la nature chaotique est intrinsèque à l’ensemble du système et où il serait vain de vouloir faire des prévisions. Il est néanmoins possible d’utiliser des données, des méthodes et des algorithmes pour créer des simulations qui servent à l’éducation et la compréhension systémique (cf. COSMO TECH ou GTES). Dans ce cas, le terme de « jouer avec les modèles » prend tout son sens.
- La « combinaison » correspond au cas où il existe des sous-problèmes qui se prêtent bien à la modélisation et la prévision, mais qui sont couplés avec le système global. Il n’est pas possible de faire des prévisions globales, mais il est possible d’appliquer des modèles et des analyses prédictives sur certains aspects.
- La « séparation » correspond au cas où il existe, au sein d’un système complexe difficile à prévoir, des sous-systèmes qui sont structurants et réductibles. Dans ce troisième cas, il est possible de faire des prévisions, même si elles ne sont que partielles.
J’ai travaillé pendant une dizaine d’année, de 2001 à 2012, sur l’utilisation de la théorie des jeux pour modéliser les évolutions de part de marché dans la téléphonie mobile, en particulier lors de ruptures telles que l’arrivée de la 3G ou l’arrivée d’un quatrième opérateur. J’ai déjà évoqué ces travaux dans plusieurs billets de ce blog, lors d’exposés – en particulier celui de 2010 à l’INRIA, et dans plusieurs articles, dont celui de CSDM 2012. Je mentionne ce travail ici parce que c’est un exemple parfait de modélisation incertaine du premier type : la simulation n’est pas une prévision, mais l’ensemble des simulations forment un jeu qui permet de mieux comprendre la situation. Ce travail s’appuie sur un modèle simple de fonctionnement financier des opérateurs téléphonique (tel qu’on le voyait en 2005), dû à Philippe Montagner (président de Bouygues Telecom à cette époque) et intégré sous forme de compétition entre acteurs sur le même marché. L’approche GTES consiste à faire des milliers de jeux, chaque jeu étant la recherche d’un équilibre de Nash dans des conditions de marché données (nous ne connaissons pas le futur, donc l’approche Monte-Carlo permet d’explorer l’incertitude). Nous avons également participé à des « serious games » organisés par McKinsey sur le même principe : chaque équipe représente un opérateur et un simulateur informatique représente le marché. L’intérêt de l’approche GTES est de pouvoir démultiplier l’espace qui est exploré. Cela fait presque 10 ans que les premières simulations de l’arrivée de Free sur le marché ont été faite, et avec le recul, on peut apprécier l’intérêt de cette approche par rapport aux méthodes économiques plus classiques. Les trajectoires et les caractérisations produites par le modèle donnaient une bonne indication de ce qui allait se passer.
La dimension analytique de l’approche « Lean Startup » est un bon exemple du deuxième cas de figure : il n’est pas possible de prévoir le succès d’un nouveau service dans le monde numérique, mais les pratiques d’innovation accounting et de growth hacking apportent de la rigueur à une partie de ce processus d’innovation. Ce qui est fascinant dans l’approche d’Eric Ries, c’est la décomposition du processus de création de valeur de l’innovation en des étapes « aléatoires/imprévisibles » (ce qui revient au même) telles que l’idéation, l’appropriation et l’adoption, avec des étapes qui se modélisent, se mesurent et s’analysent : la capture, l’usage, la recommandation. Le Lean Startup consiste à faire vite et peu cher pour les étapes incertaines, pour se retrouver en condition de créer à coup sûr de la connaissance (positive ou négative) sur ce qui est utile au client. La grande rupture du Lean Startup a été de déplacer l’attention de l’idéation (volatile, multiple, non-différentiante dans la majorité des cas) vers la satisfaction validée du client (ce qui crée la valeur). Dans son nouveau livre « The Startup Way », Eric Ries insiste sur le fait que nous sommes dans un monde imprévisible : « a startup should be understood as a human institution designed to create a new product or service under conditions of extreme uncertainty ». Mais cette imprévisibilité ne signifie pas que la mesure et l’utilisation des données ne sont pas au cœur du processus : « a modern company attempts to maximize the possibility and scale of future impact. Project teams report and measure leading indicators using innovation accounting ». De la même façon, la phase ultérieure de « Growth Hacking » consiste à piloter un phénomène éminemment complexe et difficile à prévoir (l’adoption dans les comportements récurrents et la recommandation) en utilisant des modèles et des mesures.
Je vais terminer par un exemple plus simple et plus pragmatique, celui de la modélisation des coûts du système d’information. Je travaille sur ce sujet depuis 1998, lorsqu’il m’a été demandé de construire un modèle des coûts informatiques de Bouygues Telecom. Ces vingt ans sont une suite d’échecs et de progrès, liés à l’incorporation progressive des facteurs humains, complexité et incertitude, tout en faisant l'expérience de la citation de Georges Box: "Tous les modèles sont faux mais certains sont utiles". Nous sommes ici dans le troisième cas de figure : certains aspects sont très difficiles à prévoir (la création de valeur ou l’arrivée de nouveaux besoins liés à l’évolution du métier) et d’autres sont au contraire très faciles à modéliser (les cycles de vies, les couts de possession, le vieillissement et l’accumulation). Dans un monde complexe et incertain, l’exercice du plan stratégique a perdu en intérêt, pourtant un certain nombre d’actions clés pour construire « le potentiel de situation » du système d’information doivent s’inscrire dans un plan à long terme. Dans cet exercice stratégique, il faut tenir compte de ce qui est incertain – par exemple le flux entrant des opportunités et contraintes réglementaires – et ce qui est modélisable mais plein de surprises, comme l’usage et la stabilisation de la qualité de service. Voici ce que je retiens des nombreuses années d’utilisation de tels modèles hybrides :
- Un bon modèle hybride incertain utilise des « grandeurs » (KPI / métriques) connues et accessibles, qui sont comparables et pour lesquels le benchmarking s’applique. Plus le monde est incertain, plus les grandeurs manipulées doivent être intuitives.
- Le modèle doit être suffisamment simple pour fonctionner en « glass box », c’est-à-dire que les résultats ne suffisent pas, il faut pouvoir d’approprier le « raisonnement » du système d’aide à la décision. C’est une conséquence essentielle de la complexité et de l’incertitude.
- Ce type de modèle est utilisé en mode « scénarios / jeux », mais ce qui compte c’est la partie stable des simulations, sur laquelle les décisions long terme sont faites.
- Ces modèles hybrides permettent de comprendre les arbitrages fondamentaux court-terme versus long-terme qui sont nécessaire pour développer le SI de façon durable, sans accumuler les dettes techniques ou figer le « potentiel de situation ».
5. Conclusion
Dans son livre “Weapons of Math Destruction – XXX” Cathy O’Neil propose un “serment d’Hippocrate” pour les data scientists que je reproduis ici parce qu’il résume bien les thèmes que nous avons abordés :
- I will remember that I didn’t make the world, and it doesn’t satisfy my equations.
- Though I will use models boldly to estimate value, I will not be overly impressed by mathematics.
- I will never sacrifice reality for elegance without explaining why I have done so.
- Nor will I give the people who use my model false comfort about its accuracy. Instead, I will make explicit its assumptions and oversights
- I understand that my work may have enormous effects on society and the economy, many of them beyond my comprehension.
Cedric Villani a fort justement recommandé la lecture de ce livre dans une de ses interviews au sujet de sa mission sur l’Intelligence artificielle. Cathy O’Neil fait un remarquable travail d’analyse sur deux points essentiels : la capacité des systèmes « intelligents » à absorber les biais des données collectées pour leur apprentissage et l’importance de comprendre le système produit par l’algorithme et l’environnement. Autrement dit, ces « systèmes intelligents » produisent eux-mêmes des effets sur l’environnement auquel ils sont appliqués. La combinaison d’un système intelligent et d’un environnement non moins intelligent constitue un systèmes complexe dont il peut être difficile de prévoir les conséquences.
Pour conclure, voici un résumé des trois points qui me semblent essentiels :
- Il n’y a pas d’intelligence sans prévision. La prévision fait partie intégrante de notre capacité de raisonnement et de prise de décision, elle est également un des critères les plus utilisés pour évaluer l’ « intelligence » d’un système ou d’une personne. Les assistants personnels de demain, des robots domestiques aux remplaçants de Siri, seront doté à la fois d’un sens commun et d’une capacité réflexive à prévoir.
- L’humilité est nécessaire pour atteindre un degré supérieur d’apprentissage – elle est indispensable pour progresser dans un monde incertain. L’humilité permet d’éviter de tomber dans le piège toujours présent de la « narrative fallacy ». Savoir évaluer l’incertitude et connaître ses bais est une exigence difficile du monde VUCA du 21e siècle.
- La cybernétique de l’apprentissage en double boucle – qui représente la nécessaire réflexion (hansei) sur son propre apprentissage - est la marque de l'adaptation à un environnement complexe et incertain. La fréquence et l’ampleur de cette mise en cause permanente dépend de la complexité et l’incertitude de l’environnement. Apprendre de son passé exige une remise en cause régulière – c’est tout l’art de l’oubli – d’autant plus grande que le futur est incertain.