dimanche, mai 24, 2020

Modèles simplistes pour systèmes complexes

 


1. Introduction


Le billet de ce jour sera plus court que les autres, je souhaite partager ce que j’ai appris à travers un petit exercice de modélisation de l’épidémie COVID, sans vraiment parler de COVID. Je ne vais pas parler de ce que ce modèle dit, pour des raisons qui devraient devenir évidentes d’ici la fin de l’article. Je vais plutôt partager des retours réflexifs d’expérience sur l’utilité et les dangers d’une telle démarche, parce qu’il y a une grande constance dans les expériences que je pratique depuis 15 ans. Je construit des modèles simplistes pour des systèmes complexes depuis un certain temps, qu’il s’agisse des coûts du SIdes parts de marchés dans les télécommunication, des enchères de licences mobile, des smart grids  ou encore des réseaux d’affiliation (la structure des réunions dans des entreprises). Je cite ici des exemples qui ont conduit à des publications, il y en beaucoup d’autres qui ont échoué, pour des raisons intéressantes, comme par exemple la modélisation de la compétition entre réseaux sociaux. J’ai développé plusieurs outils, tels que la simulation par jeux et apprentissage (GTES), et le lecteur trouvera plus de détail dans mon article « Game-Theoretical and Evolutionary Simulation : A Toolbox for Complex Entreprise Problems » (CSDM 2012).

Dans le cas de la simulation de l’épidémie du COVID, j’ai réalisé une simulation SEIR très naïve, avec des étapes à durées fixes. J’utilise la même logique que la simulation présentée par Pasteur dans « Estimating the burden of SARS-CoV-2 in France », mais sur-simplifiée, car construite comme un exercice de pensée, pour voir à quoi ressemble le développement de l’épidémie sur une population différenciée par classes d’âge et types de « distanciation sociale culturelle ».  Choisir des durées fixes pour les différentes étapes (incubation, phase asymptomatique, phase symptomatique, hospitalisation) permet un exercice de modélisation simple sous Excel. Toujours dans le même esprit de simplification, j’ai représenté trois groupes de population seulement, les moins de 60 ans, les 60-80 et les plus de 80 ans, en différentiant non seulement les effets de la maladie (à partir des études publiées) mais également la sociologie des contacts. La mise au point, à partir des données collectées sur Wikipédia, a duré quelques semaines. Mon objectif principal était d’étudier les différences entre la France, l’Italie et l’Allemagne, et de voir comment on pouvait interpréter des chiffres de nombres de cas avec des politiques différentes de test. Même s’il s’agit d’un modèle très simple qui se mesure en heures de travail, j’ai retrouvé avec intérêt les mêmes plaisirs et difficultés que pour les approches plus conséquentes évoquées plus haut.

Le billet est organisé comme suit. La section suivante parle de ce que j’ai appris à titre personnel. C’est le plus important car la modélisation simpliste est avant tout un exercice d’apprentissage individuel, pour se débarrasser de ses idées fausses. Une modélisation simple a une valeur faible pour valider des hypothèses, mais une valeur réelle pour en invalider et pour faire prendre conscience d’une erreur de raisonnement. Utiliser un modèle simple pour étudier un système complexe est un exercice d’humilité : non seulement il y a tout ce qu’on ne sait pas qui empêche de bien comprendre le fonctionnement du système, mais surtout, pour paraphraser Mark Twain, il y a ce qu’on pense savoir et se trouve simplement être faux.  La troisième section s’intéresse à l’utilisation du modèle comme outil de communication. Une fois la longue étape de mise au point terminée, parce que le créateur du modèle a appris souvent beaucoup de choses la tentation est grande de partager le résultat. Mais le modèle reste simpliste et fragile, c’est donc le plus souvent un mauvais outil de communication.  Une partie importante de la valeur tirée de la modélisation est une connaissance acquise de façon dynamique, et elle ne se transmet pas facilement.


2. Leçons personnelles


Un modèle simpliste, que l’on qualifie souvent de « modèle jouet », est en premier lieu un outil de mise au point de modèle. Construire un modèle d’une situation ou d’un système, c’est en premier lieu formuler des hypothèses. Ceci est vrai pour un modèle dans le sens scientifique (les hypothèses sont formalisées par des équations) ou pour un modèle mental (le modèle est une somme de croyances et de valeurs). Un modèle simpliste est en quelque sorte le MVP d’un modèle plus complexe, c’est un assemblage cohérent de quelques hypothèses dont le modélisateur se demande si elles sont pertinentes. Le modèle simpliste est minimal pour aller vite …. et viable pour pouvoir être soumis à la simulation et l’expérimentation. Exactement comme pour le Lean Startup, le modèle simpliste permet de faire rapidement le tri entre les bonnes et les mauvaises hypothèses de modélisation. Autrement dit, la modélisation simpliste est un outil de débogage de ses modèles mentaux. On comprend dès lors que cette pratique soit adaptée aux systèmes complexes, puisque la complexité est précisément ce qui génère la différence entre le comportement réel et le comportement attendu d’un système. En revanche, le modélisateur fait implicitement une hypothèse d’échelle : celle qu’une modélisation simpliste et incomplète peut simuler certains aspects du comportement du systèmes. C’est souvent vrai (systèmes complexes hiérarchiques ou multi-échelles) et c’est également souvent faux (il faut l’ensemble des éléments et des relations du système pour faire émerger le comportement global).


Une approche simpliste d’un système complexe est un outil d’invalidation, pas de validation. Par construction, il n’y a pas assez de connaissance dans le modèle simple pour que son comportement, même s’il reproduit le passé et offre des capacités prédictives correctes, soit une preuve d’une forme de validité. En revanche, il permet de réévaluer ses certitudes. Par exemple, le fait de différencier les populations par âge et d’introduire des fréquences de contacts différentiées permet, en fait, de reproduire les différences de propagation et de mortalité observées en Italie, France et en Allemagne. Cette modélisation ne permet pas d’affirmer que la seule sociologie des contacts explique les différences entre les données observées, mais elle permet d’avoir une forte réserve face aux multiples affirmations que nous avons entendues du type « Il suffit de comparer l’Allemagne et la France pour voir que leur système hospitalier est meilleur ». Peut-être … mais peut-être pas. Pour donner un autre exemple, le modèle SEIR que j’utilise, tout comme le modèle de Pasteur préalablement cité, permet de déduire un taux d’efficacité du confinement. Si on le compare avec les données de mobilité collectées par Google, on obtient le même ordre de grandeur. Ceci n’est pas la preuve que le modèle est juste, mais cela permet de continuer à travailler sur l’hypothèse de la modélisation du confinement par réduction des contacts (qui reste une hypothèse simpliste).

 

Un modèle simpliste n’est pas un outil de prévision, même si l’on utilise l’évaluation de la capacité prédictive comme une des mesures qualitatives de crédibilité du modèle simpliste. On retrouve ici la même asymétrie : si les prévisions fonctionnent, on ne sait pas si le modèle est juste, mais on peut continuer à travailler ses hypothèses ; si les prévisions ne fonctionnent pas, il faut analyser les chiffres et partir à la recherche d’une hypothèse à incriminer. Il faut être extrêmement méfiant face aux prévisions d’un modèle simple :

  • Le modèle exécutable reproduit le modèle mental du modélisateur, avec ses croyances et ses biais. A la fin, l’observation permet d’apprendre des choses sur le modélisateur, bien plus que sur le système étudié.
  • Les outils modernes de modélisation, et la puissance des outils (un problème que je n’avais pas dans de cas avec mon modèle COVID, mais que j’ai dès que j’applique des approches de simulations par jeux et apprentissage) font que les risques d’overfitting sont multiples.

Le risque d’overfitting est d’autant plus grand que le modèle est riche. C’est pour cela que la pratique des modèles simplistes est intéressante : l’erreur de raisonnement est plus facile à débusquer. Dans l’approche GTES, une partie importante de la mise au point est automatisée. Le fait de laisser la machine « secouer le modèle » par randomisation puis recherche d’équilibre de Nash par une approche évolutionnaire, est une remarquable méthode pour débusquer les erreurs de modélisation. Les « erreurs de débutants » (comme par exemple voir des lois exponentielles là où se trouvent des courbes en S) sont sanctionnées de façon impitoyable.

 

Une caractéristique commune de nombreux systèmes complexes est la combinaison de la croissance exponentielle (dans un premier temps, cf. le point précédent) et des délais. C’est particulièrement frappant pour une épidémie telle que le COVID, et nos modèles mentaux sont très mal équipés pour gérer ces deux caractéristiques. C’est bien connu pour la croissance exponentielle (par exemple, la célèbre histoire de l’échiquier) mais c’est non moins vrai pour les délais (l’exemple non moins célèbre du mitigeur de douche : si la distance, donc le délai, entre le mitigeur et la tête de douche est trop longue, nous gérons mal la boucle de feedback et nous sur-réagissons en oscillant entre chaud et froid). A cause du temps nécessaire pour le développement de la maladie, et en particulier la phase d’incubation, le délai entre une action et son effet sur les cas détectés est long (de l’ordre de deux semaines) et le délai est encore plus long pour l’effet sur les décès (un chiffre mieux maitrisé que celui des nouveaux cas). C’est pour cela que les épidémiologistes et les médecins en général demandent des temps longs pour l’observation, mais ce n’est si facile à accepter dans nos modèles mentaux tourné vers l’action. On retrouve ici une asymétrie : s’il faut être patient pour juger les effets des actions, il faut au contraire savoir anticiper et prendre des décisions rapides, avant de pouvoir constater. Les pays qui ont pris des décisions rapides, sur la foi des déclarations des autres pays, au lieu d’attendre de constater les premiers symptômes sur leur territoire, ont des biens meilleurs résultats. La simulation d’un modèle SEIR donne une idée de ce qui se serait passé en France si nous avions commencé le confinement une semaine plus tôt. Je ne vais pas donner le résultat (ce serait contraire à ce que j’énonce), ce qui est intéressant c’est que cette simulation est tellement surprenante qu’on (je en l’occurrence) pense tout de suite à une erreur, de programmation ou de modélisation. Ce qui signifie bien que malgré « toute ma culture en termes de systèmes complexes », mon intuition reste fausse. L’intérêt du modèle simpliste, c’est de pouvoir faire une simulation, pas à pas, de la propagation de l’épidémie, selon plusieurs scénarios. Ce n’est pas le résultat qui compte, c’est l’éducation (je vais y revenir dans la section suivante).

 

On retrouve dans ces expérimentations tout ce que la littérature nous apprend sur l’étude des systèmes complexes. En premier lieu, il faut agir avec humilité, à cause de ce que nous ne savons pas, mais surtout à cause de ce que nous croyons savoir et qui n’est simplement pas exact. Par ailleurs, il faut agir rapidement, avec des actions fréquentes et mesurées, en observant le système avec régularité … et une fréquence adaptée aux délais qui sont à l’œuvre dans le système. On retrouve ici ce qui fait la force des méthodes agiles dans les situations complexes et incertaines : agir par petites étapes au sein d’une boucle d’observation fréquente de l’environnement. Ce n’est pas un hasard si de nombreux journaux ont constaté que les gouvernements dirigés par des femmes semblaient avoir, en règle générale, des meilleurs résultats que ceux dirigés par des hommes. Ces gouvernements ont réagi plus vite, avec une série de mesures (plusieurs mesures moyennes plutôt qu’une grande annonce), à partir d’informations externes. On retrouve ce besoin d’humilité et d’actions prudentes mais décisives dans de très nombreux cas de systèmes complexes, comme la gestion des espèces protégées ou la gestion des forêts. Je manque de temps pour rentrer dans le détail, mais l’histoire de la protection de la nature est pleine d’actions trop drastiques et qui ignorent les complexes réseaux de causalité, prises par des hommes trop surs d’eux. Je vous renvoie à plusieurs billets écrits dans mes blogs, comme celui-ci.

 


 3.     Leçons collectives

 

 

Créer un modèle simpliste pour un système complexe est une expérience de pensée. La simplicité du modèle – on peut certaines fois parler d’élégance – permet de communiquer et de partager avec d’autres. L’expérience montre qu’il est très difficile de partager des résultats. Même si tous les modèles sont faux et que certains sont utiles, pour reprendre la phrase de Georges Box, les modèles simplistes sont particulièrement faux. Ce qui justifie la simplicité, c’est précisément le contexte de l’expérience de pensée, qui est par nature individuel.  Ces modèles sont également très « individuels » dans le sens ou créer un modèle simpliste c’est poser un grand nombre d’hypothèses simplificatrices, en fonction de ce qui vous intéresse. Le modèle COVID que j’utilise est grossier dans sa dimension temporelle (durées fixes) et relativement fin dans sa dimension de sociologie des contacts (différentiés par classe d’âge). La seule justification de ce choix est lié aux questions que je me posais il y a un mois, à ma représentation du monde.  Il serait injuste de dire qu’un modèle simpliste ne doit jamais être partagé, mais ce qu’il faut partager ce sont les intentions (et les questions), plus que les résultats de simulation. La première raison qui doit nous pousser à être suspicieux lorsque des résultats de simulation sont présentés comme des évidences scientifiques – ce qui a été une pratique quotidienne des médias depuis deux mois, et qui conduit à des revirements spectaculaires, par exemple sur le pourcentage de la population qui aurait été en contact avec le virus – est que les modèles sont – tous, en fait – simplistes. La seconde est que la principale création de valeur d’un modèle n’est pas un résultat statique, mais un ensemble de trajectoires dynamiques, dont la personne qui expérimente le modèle va extraire des connaissances, mais qui sont très difficiles à résumer en quelques lignes ou quelques diagrammes. C’est malheureusement une caractéristique des systèmes complexes, de ne pas se laisser réduire à une abstraction, une forme plus simple qui puisse être résumée en quelques mots.


Il existe une façon de circonvenir cette difficulté, c’est de transformer le modèle en jeu. On retrouve ici les conseils de Nassim Taleb sur l’utilisation des war games pour se préparer à des situations difficiles, non pas parce que le jeu permettrait de simuler ce qui va se passer, mais parce que l’expérience de la simulation développe la capacité à apprécier des situations complexes. Il y a une dizaine d’années, j’ai transformé une des simulations des canaux de distribution et politiques de commissionnement des opérateurs mobiles téléphoniques en jeu de rôle (l’approche GTES rend un tel jeu réactif, puisqu’il permet de simuler une réaction « presque intelligente » des autres acteurs). Ce jeu a été joué en comité de direction commerciale, non pas pour optimiser une décision, mais pour apprécier l’assemblage des réactions des concurrents comme des différents canaux à chaque décision. Traiter le modèle simpliste comme un jeu permet à la fois de prendre du recul sur les « résultats », et de jouer à plusieurs pour construire un apprentissage collectif. Ce qui compte, c’est que l’ensemble des joueurs puissent observer la simulation à l’œuvre, puisque l’apprentissage ne se fait pas sur le résultat mais sur la façon dont les règles simples du modèle peuvent engendrer une réalité complexe, ce qui est une façon élégante de dire « voir à quel point des petites erreurs peuvent avoir des grandes conséquences fâcheuses ». Comme me l’enseignait mon professeur Hervé Le Lous, il y a plus de 30 ans, dans ses cours d’analyse des décisions du Collège des Ingénieurs, seules les erreurs sanctionnées par une perte (l’amour-propre du joueur ou une perte financière) participent durablement à notre éducation (on ne corrige pas les modèles mentaux sans effort).

 

Il existe cependant une situation fréquente, où ce qui est appris grâce au modèle est communicable, car cela devient « évident à postériori ». Dans ce cas, on peut dire que la modélisation fait émerger un principe, puis sa propre post-rationalisation (une explication simple, qui ne fait pas recours à la simulation, et qui peut se partager). Mon expérience en 15 ans de modélisation est que cette situation est assez fréquente. La pratique de la simulation produit à la fois une connaissance « expérimentale », molle et floue, difficile à partager, et quelques idées simples (auxquelles on aurait pu accéder de façon plus directe, mais c’est plus facile à dire ensuite, une fois en face de « l’évidence »). Prenons le cas de l’efficacité de la politique « test & isolate ». Le nombre important de tests réalisés en Allemagne (Mars – Avril, par rapport à la France), pourrait faire penser qu’il s’agit d’un des facteurs d’explication des différences. La simulation montre qu’il s’agit en fait d’un tout petit facteur pendant la phase croissante de l’épidémie, qui ne devient efficace (comparativement à son absence) que lorsque l’épidémie se stabilise et surtout décroit. En fait, cette observation est facile à comprendre : le nombre de test en Allemagne est élevé par rapport à la France, mais faible par rapport à la population totale. Dans la phase de croissance exponentielle, la population en incubation est beaucoup plus grande que la population qui est suffisamment avancée pour faire réagir les tests, de même qu’il y a plus d’asymptomatiques que de symptomatiques – c’est la conséquence de la loi exponentielle du début de l’épidémie, en termes de modèles SEIR, on peut dire que E >> I). Isoler les sujets dont le test est positif a peu d’effet par rapport au nombre beaucoup plus important de contagieux non testés. Cela change dans la phase où nous sommes aujourd’hui, celle de la décroissance de la maladie. Plusieurs modèles SEIR sur internet ont reporté les mêmes résultats, et en fait il n’y a pas besoin de modèle pour le comprendre … si ce n’est que la simulation permet de « toucher du doigt » les tailles relatives des différentes populations infectées, contagieux, identifiés malades. Dans ce cas de figure, mon expérience est qu’on peut utiliser les résultats de simulation pour « illustrer » le principe qu’on cherche à partager : l’expérience – même si elle pourrait être jugée discutable par un observateur extérieur – est représentée par un schéma ou une courbe, qui produit le déclic dans la compréhension de l’auditeur, qui reconstruit son nouveau modèle mental avec ses propres outils logiques.

 

4.     Conclusion

 

Pour conclure, on peut dire que la modélisation simpliste, et la simulation qui lui est associée, permettent de déconstruire et reconstruire nos modèles mentaux. Une modélisation simpliste n’est pas un élément de prévision, et encore moins un élément de preuve de la compréhension du système qu’on étudie. Je vois ici un parallèle avec le rôle des « data scientists » dans l’analyse des données avec des approches d’apprentissage automatique : leur contribution fondamentale n’est pas de produire un « algorithme qui marche » (l’expérience montre qu’il y a des multiples façons et talents pour y arriver, qui relèvent plus de l’art que de la science ) mais bien d’expliquer « ce que marcher » signifie et d’invalider des approches qui conduiraient à des résultats peu fiables ou erronés. Le rôle de la science est bien plus d’éliminer les mauvaises idées que de produire des bonnes. De la même façon, les modèles simplistes servent à éliminer les mauvaises intuitions que nous développons facilement face à un système complexe. Nous avons du mal à percevoir une croissance exponentielle et des difficultés à comprendre une boucle de feedback avec un délai, lorsque les deux se combinent c’est encore plus difficile.  Le modèle simpliste est un outil de mise au point de notre représentation du monde, dans un mode agile. C’est un outil jetable : le résultat importe peu, c’est l’expérience acquise pendant la mise au point qui importe. C’est pour cela que je ne peux pas facilement transmettre ce que j’ai appris grâce à mon modèle simpliste SEIR, et que je ne veux pas partager les résultats des simulations. Je vous renvoie également à cet excellent article " Wrong but Useful — What Covid-19 Epidemiologic Models Can and Cannot Tell Us" qui traite également des modèles SEIR. Pour ceux qui sont curieux et se demandent à quoi ressemble un modèle « trivial et faux », ils pourront le trouver sur GitHub.