Architecture Organisationnelle: Résultats de la « simulation jeux & apprentissage

Ce message fait suite à celui de Février sur la simulation par "jeux et apprentissage".

1. Compétition sur un marché grand-public

Nous allons décrire un exemple de simulation par jeux et apprentissage appliqué à un marché grand-public. Rappelons les grandes lignes (cf. le précédent message) :

Nous avons un marché, 3 acteurs qui proposent des produits avec un coût important d’acquisition par client, et une stratégie de fidélisation qui a également un coût par client acquis. Le marché est supposé mature : la plupart des « nouveaux » clients quittent un des joueurs pour en rejoindre un autre, même si il reste une légère croissance organique.
Des équations simples décrivent la façon dont le marché réagit aux offres des acteurs et produisent des parts de marché, des consommations et des taux de churn. Les équations sont simples, les paramètres ne sont pas connus et sont donc évalués avec une approche « Monte-Carlo ».
Chaque joueur réagit aux résultats mensuels du marché selon une « tactique » qui n’est autre qu’une matrice 3 x 3 qui explique comment ajuster les prix, les coûts d’acquisition et le montant de la fidélisation en fonction des scores courants de vente (part de marché), de revenus (chiffre d’affaire) et de résultat financier (ebitda). On rappelle que nous utilisons un modèle linéaire très simple (voir la discussion dans le message précédent).

Nous avons choisi un exemple à trois joueurs ; pour éviter que des conclusions soient hâtivement tirées de cette expérimentation, nous allons nous restreindre à des résultats qualitatifs, suivant le format habituel de la théorie des jeux, sous forme de matrices croisées de stratégies.

Plus précisément, nous mesurons les résultats d’un joueur en pourcentage par rapport aux objectifs de sa stratégie, et nous distinguons trois cas :

gagnant : les objectifs sont globalement atteints,
perdant : les objectifs ne sont pas atteints mais l’entreprise fonctionne,
mort : l’entreprise perd trop d’argent.

De la même façon, nous catégorisons la façon dont la simulation et l’apprentissage fonctionne pour chaque phase de trois façons :

stable : les stratégies d’apprentissage convergent vers un état stable,
guerre : les stratégies d’apprentissages évoluent de façon claire vers une surenchère,
chaos : les stratégies d’apprentissage divergent, la simulation de la phase n’est pas concluante.

L’objectif de cette expérience est double :

étudier l’émergence de comportements collectifs des acteurs et évaluer leurs « territoires ».
au niveau "méta", mesurer l’intérêt de l’approche « Simulation par jeux et apprentissage »

Il va de soi, mais cela mérite d’être répété, que l’intérêt de cette simulation est d’étudier l’émergence de comportement globaux (qu’ils soient positifs ou destructifs) sans communication entre les acteurs.

2. Expérimentation

Une expérimentation est définie par :

Un scénario qui donne l’espace des paramètres qui doit être exploré par instanciation (approche Monte-Carlo). Plus nous avons l’intuition que notre modèle économique est précis, plus nous allons donner des bornes précises. A l’inverse, si le modèle est complètement incertain, nous allons donner des intervalles de variation très larges. Un des objectifs à long terme est de caractériser les effets de cette imprécision. Il va de soi qu’un espace large d’indétermination demande un temps de calcul plus important pour que l’exploration aléatoire de l’espace soit plus significative.
Des stratégies pour chaque joueur. Nous avons défini 6 stratégies possibles pour les joueurs, dans un ordre croissant d’agressivité (de S1 à S6). Comme expliqué précédemment, la stratégie est définie par des objectifs en terme d’ebitda, de chiffre d’affaire et de part de marché d’acquisition. Par exemple, la stratégie S1 correspond à la préservation de l’ebitda, sous la contrainte que le chiffre d’affaire et la part de marché ne peuvent pas décroître de plus de 1% par an. A l’inverse, la stratégie S6 correspond à un objectif de croissance annuel de l’ebitda de 6% par an, avec un gain de 1% en part de marché.

Rappelons également, de façon sommaire, le déroulement de l’expérimentation (cf. le message précédent) :

Les paramètres économiques sont choisis aléatoirement selon les bornes fixées dans le scénario (ce que nous appelons une phase).
Une itération consiste à simuler le marché et la réaction des joueurs suivant leur tactique.
Une étape consiste à faire exécuter plusieurs fois la même itération en ajustant les paramètres de la matrice tactique, pour optimiser les résultats d’un joueur.

La simulation d’une phase consiste à enchaîner un grand nombre d’étapes pour optimiser les stratégies de façon successive. Nous catégorisons le comportement de cet apprentissage suivant 3 types : convergent, divergent (guerre) ou chaotique.

Le résultat fourni à la fin de l’expérimentation est constitué de:

(a) par joueur, la répartition des cas gagnant / perdant / tués, et les valeurs (moyenne + déviation) associées, du point de vue de l’action (prix, acquisition et fidélisation) et du résultat (ebitda, chiffre d’affaire et part de marché)
(b) les résultats moyens pour les phases stables
(c) les résultats moyens, par joueur, pour les itérations gagnantes.

L’expérimentation que nous décrivons dans ce message ne concerne pas l’exploration de l’ensemble du cube 6 x 6 x 6 des stratégies, mais plutôt l’exploration de la « diagonale » (lorsque les joueurs ont la même stratégie) et le voisinage obtenu lorsqu’un des joueurs varie d’un ou deux degrés d’agressivité par rapport à l’ensemble.

3. Résultats et commentaires

Ces résultats sont provisoires, il faudra valider de façon indépendante l’implémentation et faire de nombreuses autres expériences avant de pouvoir extraire des informations véritablement pertinentes.

Néanmoins, on observe en premier lieu que la simulation fonctionne car le taux de convergence est important. Cela signifie que notre modèle correspond à un jeu assez stable, pour lequel :

il existe des « bonnes » stratégies stables,
un jeu naturel d’ajustement entre les acteurs conduit à évoluer vers ces stratégies

Nous avons des taux de convergence de l’ordre de 75%, ce qui signifie que ce que nous venons d’affirmer est vrai dans 75% des phases produites par échantillonnage. Il reste approximativement 5% de phases qui correspondent à des situations de marchés très difficiles ou l’atteinte des objectifs conduit à une guerre qui produit la disparition d’un des joueurs. Notons que nous avions obtenu des résultats similaires en 2000 et conclu que les conditions d’attribution des licences UMTS à cette époque ne laissaient pas la place pour un jeu à 4 acteurs. Les 20% restants produisent des simulations divergentes (que nous nommons « chaotique »).

Il reste à valider que ces situations sont réellement instables et qu’il ne s’agit pas d’une faiblesse de notre implémentation (par exemple, une meilleure stratégie d’apprentissage collectif pourrait améliorer le taux de convergence). Quoi qu’il en soit, ce premier résultat est très encourageant.

Quelles sont les caractéristiques de ces phases convergentes, ou, autrement dit, que nous apprend cette simulation ? Il est trop tôt pour répondre, et ce blog est n’est pas le lieu pour le faire. On voit cependant émerger des propriétés connues ou suspectées de cet équilibre :

La meilleure stratégie du plus petit joueur est d’être un peu plus agressif que les deux autres mais pas trop.
Le pilotage financier (la définition d’objectifs fondés sur l’ebitda) conduit à un jeu stable. La recherche de la part de marché est une autre affaire … qui produit une plus forte mortalité.
L’augmentation du profit collectif conduit à réduire les coûts d’acquisition, mais à augmenter l’effort de fidélisation.
Lorsque la compétition augmente (des stratégies plus agressives pour chaque joueur), on observe une pression sur les prix, mais qui est stabilisée par l’impact sur l’ebitda, puisque le marché est fluide (cf. le point sur la stabilité du jeu lorsque la stratégie est dominée par l’ebitda).
Le point précédent adoucit l'effet d'une vérité évidente: la guerre économique est favorable aux gros et aux joueurs dont la structure fixe/variable des coûts diminue le "poids mort".
Dans ce contexte (les phases stables), la tactique optimale des joueurs conduit à un certain mimétisme : les évolutions des prix, à des niveaux différents, se ressemblent. La "meilleure" tactique produit à la fois de la "prudence" (peu d'agressivité sur la baisse des prix) et un "couplage" des comportements (et non pas une entente)

Pour finir, on peut noter que les résultats semblent stables par rapport au nombre de phase. On voit très vite se dessiner les grandes lignes (avec 30 phases par expérience), et l’augmentation du nombre de phases précise les résultats mais ne les remets pas en cause.

Ce message conclut notre disgression sur la simulation économique. Le prochain message parlera de notre modèle de fonctionnement d'une entreprise fondé sur les processus, qui va servit de socle à l'analyse des flux d'information.

Architecture Organisationnelle

dimanche, mars 05, 2006

Résultats de la « simulation jeux & apprentissage » dans un marché mature

Aucun commentaire:

Enregistrer un commentaire

Archives du blog

Mes Liens

Blogs Connexes

Mes livres