1. Introduction
2. Leçons personnelles
Un modèle simpliste, que l’on qualifie souvent de « modèle jouet », est en premier lieu un outil de mise au point de modèle. Construire un modèle d’une situation ou d’un système, c’est en premier lieu formuler des hypothèses. Ceci est vrai pour un modèle dans le sens scientifique (les hypothèses sont formalisées par des équations) ou pour un modèle mental (le modèle est une somme de croyances et de valeurs). Un modèle simpliste est en quelque sorte le MVP d’un modèle plus complexe, c’est un assemblage cohérent de quelques hypothèses dont le modélisateur se demande si elles sont pertinentes. Le modèle simpliste est minimal pour aller vite …. et viable pour pouvoir être soumis à la simulation et l’expérimentation. Exactement comme pour le Lean Startup, le modèle simpliste permet de faire rapidement le tri entre les bonnes et les mauvaises hypothèses de modélisation. Autrement dit, la modélisation simpliste est un outil de débogage de ses modèles mentaux. On comprend dès lors que cette pratique soit adaptée aux systèmes complexes, puisque la complexité est précisément ce qui génère la différence entre le comportement réel et le comportement attendu d’un système. En revanche, le modélisateur fait implicitement une hypothèse d’échelle : celle qu’une modélisation simpliste et incomplète peut simuler certains aspects du comportement du systèmes. C’est souvent vrai (systèmes complexes hiérarchiques ou multi-échelles) et c’est également souvent faux (il faut l’ensemble des éléments et des relations du système pour faire émerger le comportement global).
Une approche simpliste d’un système complexe est un outil d’invalidation, pas de validation. Par construction, il n’y a pas assez de connaissance dans le modèle simple pour que son comportement, même s’il reproduit le passé et offre des capacités prédictives correctes, soit une preuve d’une forme de validité. En revanche, il permet de réévaluer ses certitudes. Par exemple, le fait de différencier les populations par âge et d’introduire des fréquences de contacts différentiées permet, en fait, de reproduire les différences de propagation et de mortalité observées en Italie, France et en Allemagne. Cette modélisation ne permet pas d’affirmer que la seule sociologie des contacts explique les différences entre les données observées, mais elle permet d’avoir une forte réserve face aux multiples affirmations que nous avons entendues du type « Il suffit de comparer l’Allemagne et la France pour voir que leur système hospitalier est meilleur ». Peut-être … mais peut-être pas. Pour donner un autre exemple, le modèle SEIR que j’utilise, tout comme le modèle de Pasteur préalablement cité, permet de déduire un taux d’efficacité du confinement. Si on le compare avec les données de mobilité collectées par Google, on obtient le même ordre de grandeur. Ceci n’est pas la preuve que le modèle est juste, mais cela permet de continuer à travailler sur l’hypothèse de la modélisation du confinement par réduction des contacts (qui reste une hypothèse simpliste).
Un modèle simpliste n’est pas un outil de prévision, même si l’on utilise l’évaluation de la capacité prédictive comme une des mesures qualitatives de crédibilité du modèle simpliste. On retrouve ici la même asymétrie : si les prévisions fonctionnent, on ne sait pas si le modèle est juste, mais on peut continuer à travailler ses hypothèses ; si les prévisions ne fonctionnent pas, il faut analyser les chiffres et partir à la recherche d’une hypothèse à incriminer. Il faut être extrêmement méfiant face aux prévisions d’un modèle simple :
- Le modèle exécutable reproduit le modèle mental du modélisateur, avec ses croyances et ses biais. A la fin, l’observation permet d’apprendre des choses sur le modélisateur, bien plus que sur le système étudié.
- Les outils modernes de modélisation, et la puissance des outils (un problème que je n’avais pas dans de cas avec mon modèle COVID, mais que j’ai dès que j’applique des approches de simulations par jeux et apprentissage) font que les risques d’overfitting sont multiples.
Le risque d’overfitting est d’autant plus grand que le modèle est riche. C’est pour cela que la pratique des modèles simplistes est intéressante : l’erreur de raisonnement est plus facile à débusquer. Dans l’approche GTES, une partie importante de la mise au point est automatisée. Le fait de laisser la machine « secouer le modèle » par randomisation puis recherche d’équilibre de Nash par une approche évolutionnaire, est une remarquable méthode pour débusquer les erreurs de modélisation. Les « erreurs de débutants » (comme par exemple voir des lois exponentielles là où se trouvent des courbes en S) sont sanctionnées de façon impitoyable.
Une caractéristique commune de nombreux systèmes complexes est la combinaison de la croissance exponentielle (dans un premier temps, cf. le point précédent) et des délais. C’est particulièrement frappant pour une épidémie telle que le COVID, et nos modèles mentaux sont très mal équipés pour gérer ces deux caractéristiques. C’est bien connu pour la croissance exponentielle (par exemple, la célèbre histoire de l’échiquier) mais c’est non moins vrai pour les délais (l’exemple non moins célèbre du mitigeur de douche : si la distance, donc le délai, entre le mitigeur et la tête de douche est trop longue, nous gérons mal la boucle de feedback et nous sur-réagissons en oscillant entre chaud et froid). A cause du temps nécessaire pour le développement de la maladie, et en particulier la phase d’incubation, le délai entre une action et son effet sur les cas détectés est long (de l’ordre de deux semaines) et le délai est encore plus long pour l’effet sur les décès (un chiffre mieux maitrisé que celui des nouveaux cas). C’est pour cela que les épidémiologistes et les médecins en général demandent des temps longs pour l’observation, mais ce n’est si facile à accepter dans nos modèles mentaux tourné vers l’action. On retrouve ici une asymétrie : s’il faut être patient pour juger les effets des actions, il faut au contraire savoir anticiper et prendre des décisions rapides, avant de pouvoir constater. Les pays qui ont pris des décisions rapides, sur la foi des déclarations des autres pays, au lieu d’attendre de constater les premiers symptômes sur leur territoire, ont des biens meilleurs résultats. La simulation d’un modèle SEIR donne une idée de ce qui se serait passé en France si nous avions commencé le confinement une semaine plus tôt. Je ne vais pas donner le résultat (ce serait contraire à ce que j’énonce), ce qui est intéressant c’est que cette simulation est tellement surprenante qu’on (je en l’occurrence) pense tout de suite à une erreur, de programmation ou de modélisation. Ce qui signifie bien que malgré « toute ma culture en termes de systèmes complexes », mon intuition reste fausse. L’intérêt du modèle simpliste, c’est de pouvoir faire une simulation, pas à pas, de la propagation de l’épidémie, selon plusieurs scénarios. Ce n’est pas le résultat qui compte, c’est l’éducation (je vais y revenir dans la section suivante).
On retrouve dans ces expérimentations tout ce que la littérature nous apprend sur l’étude des systèmes complexes. En premier lieu, il faut agir avec humilité, à cause de ce que nous ne savons pas, mais surtout à cause de ce que nous croyons savoir et qui n’est simplement pas exact. Par ailleurs, il faut agir rapidement, avec des actions fréquentes et mesurées, en observant le système avec régularité … et une fréquence adaptée aux délais qui sont à l’œuvre dans le système. On retrouve ici ce qui fait la force des méthodes agiles dans les situations complexes et incertaines : agir par petites étapes au sein d’une boucle d’observation fréquente de l’environnement. Ce n’est pas un hasard si de nombreux journaux ont constaté que les gouvernements dirigés par des femmes semblaient avoir, en règle générale, des meilleurs résultats que ceux dirigés par des hommes. Ces gouvernements ont réagi plus vite, avec une série de mesures (plusieurs mesures moyennes plutôt qu’une grande annonce), à partir d’informations externes. On retrouve ce besoin d’humilité et d’actions prudentes mais décisives dans de très nombreux cas de systèmes complexes, comme la gestion des espèces protégées ou la gestion des forêts. Je manque de temps pour rentrer dans le détail, mais l’histoire de la protection de la nature est pleine d’actions trop drastiques et qui ignorent les complexes réseaux de causalité, prises par des hommes trop surs d’eux. Je vous renvoie à plusieurs billets écrits dans mes blogs, comme celui-ci.
3. Leçons collectives
Créer un modèle simpliste pour un système complexe est une expérience de pensée. La simplicité du modèle – on peut certaines fois parler d’élégance – permet de communiquer et de partager avec d’autres. L’expérience montre qu’il est très difficile de partager des résultats. Même si tous les modèles sont faux et que certains sont utiles, pour reprendre la phrase de Georges Box, les modèles simplistes sont particulièrement faux. Ce qui justifie la simplicité, c’est précisément le contexte de l’expérience de pensée, qui est par nature individuel. Ces modèles sont également très « individuels » dans le sens ou créer un modèle simpliste c’est poser un grand nombre d’hypothèses simplificatrices, en fonction de ce qui vous intéresse. Le modèle COVID que j’utilise est grossier dans sa dimension temporelle (durées fixes) et relativement fin dans sa dimension de sociologie des contacts (différentiés par classe d’âge). La seule justification de ce choix est lié aux questions que je me posais il y a un mois, à ma représentation du monde. Il serait injuste de dire qu’un modèle simpliste ne doit jamais être partagé, mais ce qu’il faut partager ce sont les intentions (et les questions), plus que les résultats de simulation. La première raison qui doit nous pousser à être suspicieux lorsque des résultats de simulation sont présentés comme des évidences scientifiques – ce qui a été une pratique quotidienne des médias depuis deux mois, et qui conduit à des revirements spectaculaires, par exemple sur le pourcentage de la population qui aurait été en contact avec le virus – est que les modèles sont – tous, en fait – simplistes. La seconde est que la principale création de valeur d’un modèle n’est pas un résultat statique, mais un ensemble de trajectoires dynamiques, dont la personne qui expérimente le modèle va extraire des connaissances, mais qui sont très difficiles à résumer en quelques lignes ou quelques diagrammes. C’est malheureusement une caractéristique des systèmes complexes, de ne pas se laisser réduire à une abstraction, une forme plus simple qui puisse être résumée en quelques mots.
Il existe cependant une situation fréquente, où ce qui est appris grâce au modèle est communicable, car cela devient « évident à postériori ». Dans ce cas, on peut dire que la modélisation fait émerger un principe, puis sa propre post-rationalisation (une explication simple, qui ne fait pas recours à la simulation, et qui peut se partager). Mon expérience en 15 ans de modélisation est que cette situation est assez fréquente. La pratique de la simulation produit à la fois une connaissance « expérimentale », molle et floue, difficile à partager, et quelques idées simples (auxquelles on aurait pu accéder de façon plus directe, mais c’est plus facile à dire ensuite, une fois en face de « l’évidence »). Prenons le cas de l’efficacité de la politique « test & isolate ». Le nombre important de tests réalisés en Allemagne (Mars – Avril, par rapport à la France), pourrait faire penser qu’il s’agit d’un des facteurs d’explication des différences. La simulation montre qu’il s’agit en fait d’un tout petit facteur pendant la phase croissante de l’épidémie, qui ne devient efficace (comparativement à son absence) que lorsque l’épidémie se stabilise et surtout décroit. En fait, cette observation est facile à comprendre : le nombre de test en Allemagne est élevé par rapport à la France, mais faible par rapport à la population totale. Dans la phase de croissance exponentielle, la population en incubation est beaucoup plus grande que la population qui est suffisamment avancée pour faire réagir les tests, de même qu’il y a plus d’asymptomatiques que de symptomatiques – c’est la conséquence de la loi exponentielle du début de l’épidémie, en termes de modèles SEIR, on peut dire que E >> I). Isoler les sujets dont le test est positif a peu d’effet par rapport au nombre beaucoup plus important de contagieux non testés. Cela change dans la phase où nous sommes aujourd’hui, celle de la décroissance de la maladie. Plusieurs modèles SEIR sur internet ont reporté les mêmes résultats, et en fait il n’y a pas besoin de modèle pour le comprendre … si ce n’est que la simulation permet de « toucher du doigt » les tailles relatives des différentes populations infectées, contagieux, identifiés malades. Dans ce cas de figure, mon expérience est qu’on peut utiliser les résultats de simulation pour « illustrer » le principe qu’on cherche à partager : l’expérience – même si elle pourrait être jugée discutable par un observateur extérieur – est représentée par un schéma ou une courbe, qui produit le déclic dans la compréhension de l’auditeur, qui reconstruit son nouveau modèle mental avec ses propres outils logiques.
4. Conclusion
Pour conclure, on peut dire que la modélisation simpliste, et la simulation qui lui est associée, permettent de déconstruire et reconstruire nos modèles mentaux. Une modélisation simpliste n’est pas un élément de prévision, et encore moins un élément de preuve de la compréhension du système qu’on étudie. Je vois ici un parallèle avec le rôle des « data scientists » dans l’analyse des données avec des approches d’apprentissage automatique : leur contribution fondamentale n’est pas de produire un « algorithme qui marche » (l’expérience montre qu’il y a des multiples façons et talents pour y arriver, qui relèvent plus de l’art que de la science ) mais bien d’expliquer « ce que marcher » signifie et d’invalider des approches qui conduiraient à des résultats peu fiables ou erronés. Le rôle de la science est bien plus d’éliminer les mauvaises idées que de produire des bonnes. De la même façon, les modèles simplistes servent à éliminer les mauvaises intuitions que nous développons facilement face à un système complexe. Nous avons du mal à percevoir une croissance exponentielle et des difficultés à comprendre une boucle de feedback avec un délai, lorsque les deux se combinent c’est encore plus difficile. Le modèle simpliste est un outil de mise au point de notre représentation du monde, dans un mode agile. C’est un outil jetable : le résultat importe peu, c’est l’expérience acquise pendant la mise au point qui importe. C’est pour cela que je ne peux pas facilement transmettre ce que j’ai appris grâce à mon modèle simpliste SEIR, et que je ne veux pas partager les résultats des simulations. Je vous renvoie également à cet excellent article " Wrong but Useful — What Covid-19 Epidemiologic Models Can and Cannot Tell Us" qui traite également des modèles SEIR. Pour ceux qui sont curieux et se demandent à quoi ressemble un modèle « trivial et faux », ils pourront le trouver sur GitHub.
Bonjour Yves,
RépondreSupprimerMerci pour ce partage dont j'apprécie la philosophie dans laquelle les enseignements sont issus d'un (long) travail méthodique, de la compréhension de ses erreurs et de la remise en question de ses certitudes.
Aussi rares soient-elles, les pépites qui sont découvertes constituent un socle solide pour aller de l'avant...
Ce billet de Mickael Bardet (https://blog.insee.fr/mourir-de-la-grippe-ou-du-coronavirus-faire-parler-les-chiffres-de-deces-publies-par-linsee-avec-discernement/) sur "Le blog de l'Insee" donne un éclairage intéressant sur certains éléments à prendre en compte pour ajuster un modèle autour du COVID.
On y trouve un auteur qui se méfie des projections rapides et qui préfère lui aussi avancer avec beaucoup d'humilité...
Cordialement,
Dominique de Raigniac