Théorie des Jeux et Modélisation des Organisations
Nous allons aujourd’hui nous intéresser à une approche de la modélisation de systèmes complexes fondée sur la théorie des jeux, et sur la théorie de la rationalité limitée, qui postule que le comportement de chaque acteur est lié à l’optimisation d’objectifs propres (qui correspondent à sa perception). Nous allons proposer une méthode de simulation dont l’objectif est de faire émerger des propriétés d’un système complexe, incertain et partiellement inconnu.
Le point de départ est le suivant : supposons que nous ayons construit un modèle, qui nous semble valide dans sa structure, mais pour lequel ils soit difficile d’obtenir les paramètres (par exemple, les cœfficients des équations du modèle). Ce modèle représente un « jeu » dans le sens le plus général possible : il existe un certain nombre d’acteurs, et une notion de valeur produite par chaque acteur en fonction du contexte (marché) et des décisions des autres acteurs. Le modèle est en quelque sorte une mise en équation des « règles du jeu ». Ce qui est difficile dans une modélisation économique n’est pas de trouver des équations, mais bien d’ajuster les paramètres pour décrire une réalité le plus fidèlement possible. Nous allons distinguer trois types de « difficultés » :
- les coefficients représentent des sensibilités, des élasticités, qui demanderaient des études poussées. Par exemple, il est raisonnable de modéliser l’appétence du public à un produit donné avec une « courbe en S », il est par contre difficile, sauf à disposer d’études marketing, de connaître précisément les valeurs qui caractérisent cette courbe en S.
- les coefficients représentent la stratégie des acteurs (ou de l’acteur, si il est unique). Dans ce cas, nous souhaitons précisément conserver ces paramètres globaux de notre modèle. Nous ne connaissons pas forcément la stratégie des acteurs, mais l’intérêt de la simulation est précisément d’étudier les effets combinés des différentes stratégies, comme dans une approche de théorie des jeux.
- Les coefficients qui sont sous l’arbitrage de chaque acteur, mais qui sont dominés par les objectifs stratégiques. Autrement dit, il s’agit de paramètres que chaque acteur peut adapter en fonction de ses objectifs. Si nous laissions ces paramètres comme des éléments de stratégies, nous aurions un espace de combinaisons très grand et dont une partie n’aurait pas de sens.
Le premier groupe contient les paramètres qui sont indépendants des acteurs et qui peuvent représenter « le marché ». Le deuxième groupe contient les paramètres qui définissent les objectifs de chaque acteur dans le jeu/modèle, tandis que le troisième groupe contient les paramètres que chaque acteur tient à sa disposition pour atteindre ses objectifs. Pour reprendre un exemple trivial, le premier groupe peut décrire les appétences du marché à un certain type de produits, le second groupe les objectifs des acteurs (part de marché, bénéfice, etc.) et le troisième groupe les tactiques associées (prix de vente, promotion, etc.)
Nous proposons une approche que nous nommerons « Simulation par Jeux & Apprentissage », qui consiste à étudier les effets de combinaisons de stratégies dans un contexte incertain, et lorsque la fonction qui décrit le retour économique est elle-même complexe (ce qui représente donc une extension de la « théorie des jeux classiques » dans deux dimensions. Plus formellement, nous allons supposer que pour chaque combinaison de stratégie d’acteur, la fonction qui décrit le retour économique est une fonction paramétrique, dont une partie des paramètres décrit le marché et n’est connu que de façon approximative sous la forme d’intervalle, et l’autre partie est optimisable par chaque acteur. Nous retrouvons donc ici nos trois groupes de paramètres que nous allons traiter de la façon suivante :
- Les paramètres du premier groupes, dits paramètres économiques, seront géré par une simulation de type Monte-Carlo, c’est-à-dire en générant un très grand nombre de tuples de paramètres de façon aléatoire. Comme nous ne formulons aucune hypothèse sur la distribution des « vraies valeurs » des paramètres au sein des intervalles, nous utiliserons une distribution uniforme des valeurs aléatoires.
- Les paramètres qui décrivent les stratégies des acteurs sont identifiés comme paramètre stratégique et vont servir à déterminer une matrice d’interaction (à n dimension, pour n joueurs). Le but de la simulation sera de caractériser une, plusieurs, ou l’ensemble des cases de cette matrice.
- Les paramètres du troisième groupe sont les « paramètres tactiques » et nous allons déterminer leurs valeurs (ou leurs trajectoires) par optimisation/apprentissage. Si le problème d’optimisation est parfaitement défini pour chaque acteur, le problème global est plus complexe, et nous allons voir plusieurs façons de l’aborder.
Le déroulement de la simulation, pour un ensemble de stratégies fixé (c’est-à-dire pour une case de la matrice) peut être décrit comme suit (j'avais prévu une Figure mais je maîtrise mal cet outil :-(). Chaque tirage des valeurs des paramètres économiques correspond à une phase. Une simulation va comporter de quelques milliers à quelques millions (ou plus) de phases, selon la complexité de l’espace des paramètres économiques. La simulation d’une phase consiste à rechercher un équilibre de Nash dans l’optimisation des paramètres tactiques des acteurs. Il y aurait un livre entier à écrire sur la caractérisation des espaces de recherche et sur les stratégies d’optimisation. Pour l’instant, nous procédons par :
(a) optimisation locale pour chaque acteur pour ajuster ses paramètres,
(b) cycle d’optimisation acteur par acteur, jusqu’à l’obtention éventuelle d’un point fixe.
Compte tenu de cette approche très simple, nous pouvons caractériser certains équilibres (de Nash par construction) mais nous ne pouvons pas garantir que nous allons trouver de tels équilibres si ils existent. Notre approche expérimentale distingue 3 états :
- convergent,
- divergent (on peut caractériser une trajectoire divergente, le plus souvent qui correspond à une « guerre » économique)
- chaotique (par différence).
Une modélisation est « réussie » si les phases chaotiques sont « rares ». Les informations que nous cherchons à extraire (dominance d’un acteur, adéquation d’une stratégie à un objectif, etc.) sont obtenus des phases convergentes. Ce sujet méritera, bien sûr, des développements plus longs.
Nous allons maintenant illustrer cette approche sur deux exemples.
Le premier exemple que j’ai implémenté représente une simulation de trois acteurs dans un marché mature, tel que celui de la téléphonie mobile. Comme il s’agit d’un marché avec subvention du terminal, donc coût d’acquisition important (cela serait vrai pour de nombreux autres exemples), il existe un certains nombre de dimensions dans les actions de chaque acteur qui rend le jeu « intéressant » (quelle subvention, quelle fidélisation, etc.).
Le modèle économique est simple, il décrit le marché selon deux processus, celui de « churn » et celui d’acquisition. Les équations sont des équations « différentielles », en ce sens que les valeurs sont obtenues comme la somme d’une valeur par défaut et d’une différence. Les valeurs par défaut (churn et part de marché) sont celles qui ont été publiées en 2005. Les différences sont des fonctions linéaires des changements de prix, de subvention et de fidélisation. Les paramètres économiques sont précisément ces coefficients d’élasticité du comportement des consommateurs par rapport aux prix.
Le « jeu » se joue sur 3 ans. Les stratégies représentent simplement les objectifs, sous forme d’une trajectoire espérée, en terme de part de marché, d’ebitda ou de chiffre d’affaire. Par exemple, la stratégie d’un acteur peut être de garantir une croissance de 8% de son EBITDA par an. Certaines stratégies sont plus agressives que d’autres (par exemple, si chaque acteur souhaite augmenter sa part de marché), mais il est possible de représenter des stratégies plus « financières » (orientées résultat).
La tactique dans ce modèle représente les règles qui vont déterminer le prix de vente du « produit moyen », le montant de la subvention moyenne et le montant de ce qui est dépensé par client dans le programme de fidélisation. La même approche différentielle/linéaire est appliquée : nous partons des valeurs moyennes 2005 avec des coefficients pour introduire des variations linéaires en fonction des variations constatés sur les trois paramètres stratégiques (part de marché réelle vs. objectif, ebitda constaté vs. objectif et chiffre d’affaire vs. objectif). La tactique est donc décrite avec une matrice 3 x 3. L’apprentissage se fait par optimisation locale (hill-climbing) de chacun des 9 coefficient et semble donner de bons résultats : pour une phase et une situation donnée (les jeux des autres acteurs), l’algorithme d’apprentissage converge très rapidement.
Bien sûr, ce modèle souffre de nombreux défauts, le premier étant la linéarité des équations (ce qui serait facile à corriger avec des « courbes en S » appropriées). La seconde limitation (cohérente avec la première) est que la tactique est une matrice indépendante de la situation. Cela signifie que ce modèle n’est « valide » que lorsque les phases correspondent à des évolutions proches de la situation de 2005. Les premiers résultats sont néanmoins intéressants J J’y reviendrais dans un prochain message. Pour la petite histoire, il s’agit d’une reprise d’un travail effectué fin 2000 pour étudier les stratégies des « joueurs » UMTS, dans des scénarios à 3 et 4 joueurs. Un des intérêts de ce modèle est que je peux l’utiliser pour mettre au point la bibliothèque de simulation par jeux & apprentissage, ayant une bonne intuition de ce qui est une « phase vraisemblable » et ce qui ne l’est pas. Cela me sera utile pour le second sujet.
Ce second exemple est précisément l’étude des effets combinés des leviers stratégiques d’organisation d’une entreprise dont j’ai parlé dans les messages précédents. Dans cet exemple, nous n’avons qu’un seul acteur, mais un espace de stratégie organisé selon 5 axes et pour lequel nous souhaitons examiner les combinaisons, à la manière d’une matrice de théorie des jeux. Ici, le modèle économique représente les flux d’informations et de travails nécessaires pour effectuer des processus dans une entreprise. Plus précisément, voici quelques exemples de ce que nous avons appelés les paramètres économiques :
- Facteur de compétence: gains de productivité en fonction du niveau de compétence.
- Efficacité des canaux de communication.
- « Besoin de coordination » (quantité de temps pour le transfert, quantité de temps pour la synchronisation, …).
- Coût du travail (en % de la valeur produite).
- Quantités d’aléas générés lors de la simulation.
Ces paramètres sont définis par des intervalles (min, max) et nous utiliserons l’approche Monte-Carlo pour engendrer des phases correspondant à des situations multiples. Si l’on se réfère à ce qui a été dit dans les messages précédents, chaque phase (instanciation des paramètres économiques) va correspondre au contexte économique et industriel d’une entreprise.
Les stratégies représentent les choix d’organisation selon les cinq leviers que nous avons identifiés dans le message précédent :
- temps total passé en réunion,
- organisation plate ou profonde,
- degré de redondance ou, au contraire, organisation dimensionnée « au plus juste »,
- spécialisation des collaborateurs (vs. généralistes),
- type d’organisation matricielle.
L’objectif est de confronter les effets combinés des 5 axes stratégiques. En particulier, il s’agit de voir si il est possible de caractériser des « espaces de phases » propices à certaines combinaisons stratégiques.
Les paramètres tactiques représentent l’adaptation de l’entreprise en fonction de ses objectifs stratégiques. Plus précisément nous allons représenter les choix suivants :
- Management du temps : comment le temps est alloué dans l’entreprise par catégorie (communication, travail, préparation, etc.)
- Utilisation des canaux de communication en fonction des flux d’informations. Les canaux correspondent approximativement aux contacts directs (synchrones), asynchrones (mails) et aux réunions. Les différents flux correspondent au fonctionnement de l’entreprise et de ses processus (pilotage, synchronisation, transfert).
- Gestion des priorités : chaque processus participe à la création de valeur, la gestion des priorité représente à la fois la formule pour attribuer des priorités variables en fonction des différents critères (valeur, délai, difficulté) et la façon dont ces priorités influence les transferts d’information (flux).
- Gestion des aléas et délai : le modèle de fonctionnement inclut la génération d’aléas en terme de valeur et de délai. La façon dont ces aléas sont traités est également un paramètre tactique.
La suite de la description de ce modèle de fonctionnement des organisations sera fournie dans un message suivant. Il va de soi que pour que les indications relevées par simulation soient le moins du monde pertinentes, il faut d’abord se convaincre du bien-fondé du modèle. Pour cela il nous faudra revenir en détail sur la notion de processus et la façon dont ils sont représentés dans notre modèle.
Cette approche s’inspire de la théorie des jeux, mais représente une évolution radicale, puisque nous quittons la modélisation mathématique pour rentrer dans la modélisation informatique (cf. « A New Kind of Science » de Steve Wolfram). C’est à la fois beaucoup plus puissant et beaucoup moins convaincant. Les équations qui représentent les comportements des joueurs et leurs retours ne sont plus des matrices ou des processus markoviens, ce sont des automates programmables. C’est pour cela que nous avons besoin d’apprentissage.
A suivre, ce sujet est complexe et mérite de nombreux autres développements, ainsi que quelques exemples …
Aucun commentaire:
Enregistrer un commentaire