Ce message fait suite à celui de Février sur la simulation par "jeux et apprentissage".
1. Compétition sur un marché grand-public
Nous allons décrire un exemple de simulation par jeux et apprentissage appliqué à un marché grand-public. Rappelons les grandes lignes (cf. le précédent message) :
- Nous avons un marché, 3 acteurs qui proposent des produits avec un coût important d’acquisition par client, et une stratégie de fidélisation qui a également un coût par client acquis. Le marché est supposé mature : la plupart des « nouveaux » clients quittent un des joueurs pour en rejoindre un autre, même si il reste une légère croissance organique.
- Des équations simples décrivent la façon dont le marché réagit aux offres des acteurs et produisent des parts de marché, des consommations et des taux de churn. Les équations sont simples, les paramètres ne sont pas connus et sont donc évalués avec une approche « Monte-Carlo ».
- Chaque joueur réagit aux résultats mensuels du marché selon une « tactique » qui n’est autre qu’une matrice 3 x 3 qui explique comment ajuster les prix, les coûts d’acquisition et le montant de la fidélisation en fonction des scores courants de vente (part de marché), de revenus (chiffre d’affaire) et de résultat financier (ebitda). On rappelle que nous utilisons un modèle linéaire très simple (voir la discussion dans le message précédent).
Nous avons choisi un exemple à trois joueurs ; pour éviter que des conclusions soient hâtivement tirées de cette expérimentation, nous allons nous restreindre à des résultats qualitatifs, suivant le format habituel de la théorie des jeux, sous forme de matrices croisées de stratégies.
Plus précisément, nous mesurons les résultats d’un joueur en pourcentage par rapport aux objectifs de sa stratégie, et nous distinguons trois cas :
- gagnant : les objectifs sont globalement atteints,
- perdant : les objectifs ne sont pas atteints mais l’entreprise fonctionne,
- mort : l’entreprise perd trop d’argent.
De la même façon, nous catégorisons la façon dont la simulation et l’apprentissage fonctionne pour chaque phase de trois façons :
- stable : les stratégies d’apprentissage convergent vers un état stable,
- guerre : les stratégies d’apprentissages évoluent de façon claire vers une surenchère,
- chaos : les stratégies d’apprentissage divergent, la simulation de la phase n’est pas concluante.
L’objectif de cette expérience est double :
- étudier l’émergence de comportements collectifs des acteurs et évaluer leurs « territoires ».
- au niveau "méta", mesurer l’intérêt de l’approche « Simulation par jeux et apprentissage »
Il va de soi, mais cela mérite d’être répété, que l’intérêt de cette simulation est d’étudier l’émergence de comportement globaux (qu’ils soient positifs ou destructifs) sans communication entre les acteurs.
2. Expérimentation
Une expérimentation est définie par :
- Un scénario qui donne l’espace des paramètres qui doit être exploré par instanciation (approche Monte-Carlo). Plus nous avons l’intuition que notre modèle économique est précis, plus nous allons donner des bornes précises. A l’inverse, si le modèle est complètement incertain, nous allons donner des intervalles de variation très larges. Un des objectifs à long terme est de caractériser les effets de cette imprécision. Il va de soi qu’un espace large d’indétermination demande un temps de calcul plus important pour que l’exploration aléatoire de l’espace soit plus significative.
- Des stratégies pour chaque joueur. Nous avons défini 6 stratégies possibles pour les joueurs, dans un ordre croissant d’agressivité (de S1 à S6). Comme expliqué précédemment, la stratégie est définie par des objectifs en terme d’ebitda, de chiffre d’affaire et de part de marché d’acquisition. Par exemple, la stratégie S1 correspond à la préservation de l’ebitda, sous la contrainte que le chiffre d’affaire et la part de marché ne peuvent pas décroître de plus de 1% par an. A l’inverse, la stratégie S6 correspond à un objectif de croissance annuel de l’ebitda de 6% par an, avec un gain de 1% en part de marché.
Rappelons également, de façon sommaire, le déroulement de l’expérimentation (cf. le message précédent) :
- Les paramètres économiques sont choisis aléatoirement selon les bornes fixées dans le scénario (ce que nous appelons une phase).
- Une itération consiste à simuler le marché et la réaction des joueurs suivant leur tactique.
- Une étape consiste à faire exécuter plusieurs fois la même itération en ajustant les paramètres de la matrice tactique, pour optimiser les résultats d’un joueur.
La simulation d’une phase consiste à enchaîner un grand nombre d’étapes pour optimiser les stratégies de façon successive. Nous catégorisons le comportement de cet apprentissage suivant 3 types : convergent, divergent (guerre) ou chaotique.
Le résultat fourni à la fin de l’expérimentation est constitué de:
(a) par joueur, la répartition des cas gagnant / perdant / tués, et les valeurs (moyenne + déviation) associées, du point de vue de l’action (prix, acquisition et fidélisation) et du résultat (ebitda, chiffre d’affaire et part de marché)
(b) les résultats moyens pour les phases stables
(c) les résultats moyens, par joueur, pour les itérations gagnantes.
L’expérimentation que nous décrivons dans ce message ne concerne pas l’exploration de l’ensemble du cube 6 x 6 x 6 des stratégies, mais plutôt l’exploration de la « diagonale » (lorsque les joueurs ont la même stratégie) et le voisinage obtenu lorsqu’un des joueurs varie d’un ou deux degrés d’agressivité par rapport à l’ensemble.
3. Résultats et commentaires
Ces résultats sont provisoires, il faudra valider de façon indépendante l’implémentation et faire de nombreuses autres expériences avant de pouvoir extraire des informations véritablement pertinentes.
Néanmoins, on observe en premier lieu que la simulation fonctionne car le taux de convergence est important. Cela signifie que notre modèle correspond à un jeu assez stable, pour lequel :
- il existe des « bonnes » stratégies stables,
- un jeu naturel d’ajustement entre les acteurs conduit à évoluer vers ces stratégies
- La meilleure stratégie du plus petit joueur est d’être un peu plus agressif que les deux autres mais pas trop.
- Le pilotage financier (la définition d’objectifs fondés sur l’ebitda) conduit à un jeu stable. La recherche de la part de marché est une autre affaire … qui produit une plus forte mortalité.
- L’augmentation du profit collectif conduit à réduire les coûts d’acquisition, mais à augmenter l’effort de fidélisation.
- Lorsque la compétition augmente (des stratégies plus agressives pour chaque joueur), on observe une pression sur les prix, mais qui est stabilisée par l’impact sur l’ebitda, puisque le marché est fluide (cf. le point sur la stabilité du jeu lorsque la stratégie est dominée par l’ebitda).
- Le point précédent adoucit l'effet d'une vérité évidente: la guerre économique est favorable aux gros et aux joueurs dont la structure fixe/variable des coûts diminue le "poids mort".
- Dans ce contexte (les phases stables), la tactique optimale des joueurs conduit à un certain mimétisme : les évolutions des prix, à des niveaux différents, se ressemblent. La "meilleure" tactique produit à la fois de la "prudence" (peu d'agressivité sur la baisse des prix) et un "couplage" des comportements (et non pas une entente)
Pour finir, on peut noter que les résultats semblent stables par rapport au nombre de phase. On voit très vite se dessiner les grandes lignes (avec 30 phases par expérience), et l’augmentation du nombre de phases précise les résultats mais ne les remets pas en cause.
Ce message conclut notre disgression sur la simulation économique. Le prochain message parlera de notre modèle de fonctionnement d'une entreprise fondé sur les processus, qui va servit de socle à l'analyse des flux d'information.
Aucun commentaire:
Enregistrer un commentaire