Fondements scientifiques du pricing prédictif

Les approches modernes d’optimisation des prix dans le e-commerce sont bâties sur des méthodes scientifiques « value-based » rigoureuses et éprouvées. Pour les pricers soucieux de mieux comprendre ces principes et pas totalement rétifs à quelques équations parcimonieusement sélectionnées ;-), cet article en résume les fondements scientifiques. En bonus, on revient sur des notions centrales en pricing, telles que l’imbrication de la décision d’achat et l’élasticité-prix.

Objectif : modéliser la demande

L’analyse prédictive en pricing a pour objectif d’anticiper la réaction des quantités vendues à des variations de prix, en tenant compte des prix de la concurrence et d’autres facteurs tels que le trafic observé et la saisonnalité. Il faut également intégrer les très importants effets croisés des prix d’articles substituables – la « cannibalisation ». Le graphique ci-dessous montre les quantités vendues en fonction des prix des produits dans une catégorie déterminée. Ces courbes sont appelées les fonctions de demande et sont estimées sur la base des données à l’aide de divers modèles statistiques dont les principes sont discutés dans ce billet.

Quantités vendues en fonction des prix dans une catégorie - Prezzu 3.9.0

Quantités vendues en fonction des prix dans une catégorie (Prezzu 3.9.0)

Modèle à choix discret général

Le modèle dit « à choix discret » a largement fait ses preuves en matière de pricing basé sur la valeur. Il est un composant essentiel de la modélisation de la demande.

Fondamentaux

Le modèle à choix discret considère la décision du consommateur comme un choix entre plusieurs propositions substituables, y compris le non-achat. La valeur relative de chacune de ces propositions, telle que perçue par les consommateurs, est quantifiée sur la base des historiques de vente. Pour chaque groupe d’articles substituables, un ensemble de prix optimaux est ensuite déterminé en conséquence.

Cette approche offre les avantages suivants :

  • Ce sont les valeurs relatives perçues, estimées individuellement pour chaque article à partir des historiques de vente, qui déterminent les prix optimaux.
  • Elle permet de tenir compte de la cannibalisation des articles entre eux. Dans la réalité du e-commerce, la variation du prix d’un article impacte non seulement les ventes de cet article, mais aussi celles des articles qui lui sont substituables. Ces influences croisées sont modélisées et pleinement prises en compte dans le modèle à choix discret.

Utilité de chaque proposition

La valeur perçue de chacun des articles offerts, également appelée utilité, est fonction du prix (qui fait décroître l’utilité) et d’autres variables observées telles qu’une mesure d’obsolescence de l’article proposé. Il est supposé que le choix du consommateur, y compris le cas échéant le non-achat, se porte sur la proposition qui procure l’utilité la plus élevée.

L’utilité de l’article j pour un consommateur quelconque i dans la période k est :

$$U_{jk}^{i} =  Cons+\alpha.P_{jk}+\alpha^{c}.Conc.P_{jk}^{c}+\tau.Traf_{k} + \sum_{p}\theta^{p}.Days^{p}_{jk}+\eta.Obso_{jk}$$

$$ + \phi.Year _{k} + \sum_{f}\theta^{f}.FV^{f}_{jk} + \mu_{k}+\beta_{j}+\xi_{jk}+\bar{\varepsilon}_{jk}^{i}$$

Dans cette équation, les données observées sont les suivantes :

  • P_{jk} est le prix de l’article j à la période k.
  • P_{jk}^{c} est le prix moyen de l’article j à la période k chez les concurrents.
  • Conc est une variable binaire qui prend la valeur 1 lorsque l’article j est proposé par la concurrence, 0 s’il s’agit d’une situation d’exclusivité.
  • Traf_{k} est une variable représentant le trafic à la période k. Il peut s’agir par exemple du nombre de vues de pages web pour la catégorie. Cette variable est généralement retardée : il s’agit donc du trafic en période  k-1, qui est facilement observable et exogène aux quantités vendues à la période k.
  • Days^{p}_{jk} est le nombre de jours de promotion de type p à la période k. Par exemple, si l’article j a été placé en tête d’affichage pendant 3 jours de la période k, cette variable prendra la valeur 3. Si la fréquence des données est quotidienne, cette variable prendra la valeur 0 ou 1.
  • Year _{k} est l’année de la période k, par exemple 2016.
  • Obso_{jk} est une mesure d’obsolescence, qui est simplement l’âge de l’article j à la période k. Cette mesure peut être directement fournie avec les données ou, si absente, calculée comme le nombre de périodes depuis la première période où apparait l’article j dans les ventes.
  •  FV^{f}_{jk} est la valeur de la variable libre quelconque f pour l’article j à la période k. Dans tout modèle prédictif, il est important de pouvoir utiliser librement des variables spécifiques au secteur. Il peut par exemple s’agir de données météo.

Les paramètres estimés sont les suivants :

  • Cons est une constante générale du modèle.
  • \alpha est le coefficient du prix. Il mesure l’influence du prix sur l’utilité et donc in fine sur les quantités vendues. Il est normalement négatif. C’est un paramètre central dans le modèle, à partir duquel sont calculées les élasticités-prix (voir ci-dessous).
  • \alpha^{c} est le coefficient du prix concurrent, normalement positif.
  • \tau est le coefficient de la variable de trafic.
  • \theta^{p} est le coefficient de la promotion de type quelconque p. Il mesure l’influence de ce type de promotion sur les utilités et donc les quantités vendues, toutes choses égales d’ailleurs.
  • \eta est le coefficient de la variable d’obsolescence. Il mesure l’influence de l’obsolescence sur les utilités et donc les quantités, toutes choses égales d’ailleurs. Il est généralement négatif.
  • \phi est le coefficient de l’année. Il mesure l’influence de l’année sur les utilités et donc les quantités vendues, toutes choses égales d’ailleurs.
  • \theta^{f} est le coefficient de la variable libre f.
  • \mu_{k} est un effet fixe portant sur la période k, non directement observable. Il permet de prendre en compte les variations de la demande liée spécifiquement à la période au sein d’une année considérée.
  • \beta_{j} est un effet fixe portant sur l’article j. Il reflète la valeur perçue relative de cet article, non observable et fixe dans le temps.

Pour les lecteurs les plus gourmands de détails techniques, précisons que cette spécification comprend les termes d’erreur suivants :

  • \xi_{jk} est l’effet individuel des caractéristiques de l’article j, variable dans le temps et non observable. Il peut s’agir de la qualité perçue de l’article j à la période k, suite par exemple à une campagne de publicité. Cette variable constitue le résidu de la régression de type logistique utilisée pour estimer les paramètres ci-dessus. Il représente les écarts d’utilité d’une période à l’autre non expliqués par ailleurs par le modèle, pour un article j.
  • \bar{\varepsilon}_{jk}^{i} est l’utilité résiduelle pour le consommateur i de l’article j sur à la période k. Il est important que le modèle accepte des variations dans les préférences personnelles des consommateurs – dans le cas contraire on ne pourrait expliquer pourquoi à une période donnée plusieurs articles substituables sont vendus et non pas un seul, préféré de tous les consommateurs.

Quantités nulles

La prise en compte des quantités vendues nulles pour un article déterminé pour une période déterminée est un enjeu important, et techniquement difficile à traiter car les modèles probabilistes excluent a priori une situation où un article offert à la vente n’est pas du tout vendu. Ces données ont un contenu informationnel fort pour le pricing : à un prix donné, tel article ne s’est pas vendu. Cette information critique devrait toujours être utilisée dans la modélisation de la demande.

Sous-catégories et imbrication

Le modèle peut scinder les catégories en sous-catégories. La décision du consommateur est alors imbriquée entre les sous-catégories et les articles au sein de chaque sous-catégorie. L’imbrication de la décision du consommateur s’est avérée une modélisation efficace dans de nombreuses situations réelles.

On suppose que les articles appartenant à une catégorie donnée peuvent être répartis dans S sous-catégories notées s=1,...,S. L’imbrication correspond à une décomposition du terme d’erreur \bar{\varepsilon}_{ijk} :

$$\bar{\varepsilon}_{ijk}=\sigma \varepsilon_{sk}^{i} +(1-\sigma)\varepsilon_{jk}^{i}$$

\varepsilon_{sk}^{i} et \varepsilon_{jk}^{i} sont indépendants (par rapport aux individus, aux articles et à la période k) et distribués selon une distribution des valeurs extrêmes (type I), caractéristique du modèle logistique. Ouf, nous venons d’atteindre le point le plus technique de ce billet !

Lorsque \sigma=1, les utilités individuelles sont parfaitement corrélées au sein d’une même sous-catégorie. En d’autres termes, les articles appartenant à la même sous-catégorie sont des substituts parfaits (conditionnellement aux caractéristiques des articles). Si par exemple le prix d’un article augmente, un consommateur qui initialement l’aurait choisi reportera son choix sur un autre article de la même sous-catégorie. De manière générale (\sigma compris entre 0 et 1), les individus sont plus susceptibles de substituer un article par un article de la même sous-catégorie. Lorsque \sigma=0, on retrouve le modèle “simple”, non-imbriqué : la répartition en sous-catégories n’a plus d’influence sur la décision d’achat.

Le modèle non-imbriqué implique que deux articles qui ont la même utilité moyenne (la même valeur perçue, et donc la même part de marché) ont la même élasticité de substitution. Le marché de l’automobile est un exemple parlant. Avec le modèle non-imbriqué, si deux véhicules ont les mêmes parts de marché, par exemple une Smart et un Citroën Berlingo, ils auront la même élasticité croisée par rapport à un troisième véhicule, mettons un Peugeot Partner. Or il est légitime de penser que les consommateurs auront plutôt tendance à opter pour le Berlingo si le prix du Partner augmente. Le modèle imbriqué s’affranchit de cette propriété indésirable puisque le Berlingo et le Partner seront affectés à la même sous-catégorie.

Instrumentation

Il est fréquent que les pricers ajustent les prix aux variations des quantités vendues observées. Cette causalité inversée des quantités vendues vers les prix tend à biaiser à la baisse l’influence de ces derniers sur ces premières. Or c’est cette influence qui est pertinente pour le pricing et qu’il faut isoler. Pour remédier à ce biais d’endogéneité (les prix sont dits « endogènes » aux quantités), une technique statistique efficace consiste à utiliser des instruments, c’est-à-dire des variables explicatives qui sont à la fois corrélées avec le prix et indépendantes des quantités. Ces variables peuvent être : le coût unitaire de l’article, qui est corrélé avec le prix mais peu corrélé avec les quantités vendues. Un autre instrument possible est le prix retardé d’une période, qui présente les mêmes propriétés. De cette manière, il sera possible d’isoler l’effet exogène pur des prix sur les quantités vendues.

Dans le cas d’un modèle imbriqué, les parts de marché des sous-catégories au sein de la catégorie, qui sont des variables explicatives, sont également influencées par les quantités et donc également sujettes à un biais d’endogeneité. Elles doivent de même être instrumentées.

Elasticité-prix

L’élasticité-prix est une notion centrale en pricing. Elle mesure l’effet d’une variation de prix sur la quantité vendue, défini comme le ratio de la variation de la quantité vendue (en pourcentage) sur la variation du prix (en pourcentage). Pour un article j quelconque l’élasticité-prix e_{j} est :

$$e_{j}= \frac{\partial q_{j}/q_{j}} {\partial p_{j}/p_{j}}$$

L’élasticité-prix est normalement négative : une hausse du prix entraine une baisse de la quantité vendue. La valeur -1  est considérée comme un seuil critique car e_{j}=-1  implique qu’une variation quelconque du prix entraine une réaction de la quantité vendue strictement égale (en pourcentage). En d’autres termes, le chiffre d’affaires q_{j} p_{j} ne varie pas. Une élasticité-prix inférieure à -1 correspond à une variation de la quantité vendue plus forte que celle des prix qui l’a provoquée. On parle alors de demande élastique. Une élasticité-prix comprise entre – 1 et 0 correspond à une demande faiblement élastique, encore appelée inélastique.

L’élasticité-prix est interprétée comme reflétant le pouvoir de marché d’un article. Une élasticité-prix faible en valeur absolue (comprise entre – 1 et 0) est un attribut désirable pour un vendeur. Elle correspond à une situation de pouvoir de marché fort : les ventes sont peu sensibles aux prix ; il est donc possible d’augmenter les marges unitaires sans impacter excessivement les quantités vendues. A l’inverse des élasticités-prix très négatives sont typiques d’un marché très concurrentiel sur les prix, avec un faible pouvoir de marché : tout écart de prix est sanctionné ou récompensé par une réaction forte des quantités vendues.

Par exemple, dans Prezzu le modèle simple non imbriqué admet l’expression suivante de l’élasticité-prix (l’expression dans le cas du modèle imbriqué est similaire mais tient compte de la valeur de \sigma) :

$$e_{j}=\alpha(1-s_{j})p_{j}$$

s_{j} est la part de marché du bien j dans la catégorie. L’élasticité-prix dépend donc de trois paramètres :

  • \alpha est l’effet marginal pur du prix, normalement négatif.
  • s_{j}, la part de marché de l’article j, qui influence négativement l’élasticité-prix. Cela reflète le fait que plus la part du marché d’un article est élevée, plus son pouvoir de marché est fort – et donc moins sensibles sont les ventes à une variation de prix.
  • p_{j}, le prix de j lui-même.

Elasticité-prix agrégée. Une autre notion d’élasticité est fréquemment utilisée : l’élasticité-prix agrégée par catégorie, qui intègre les effets croisées (la cannibalisation) des articles au sein d’une catégorie. Cet indicateur indique de combien la somme des quantités dans une catégorie varie quand tous les prix dans cette catégorie varient simultanément et identiquement. Il est souvent plus utile que les élasticités-prix individuelles par article pour interpréter la réaction aux prix nette des effets croisés.

Optimisation

Dans la plupart des modèles performants de demande, les prix optimaux maximisant l’objectif choisi (marge en volume ou chiffre d’affaires, au choix) n’admettent pas de solution analytique : il n’existe pas de formule permettant de les calculer à partir des coefficients des fonctions de demande et de l’état des variables explicatives. L’optimisation est donc basée sur des solveurs numériques de haute performance. De plus, l’optimisation peut — et en pratique doit — être contrainte par des bornes sur les prix, ainsi qu’une contrainte sur le taux de marge total par catégorie, ce qui rend quasi-obligatoire l’utilisation de solveurs numériques.

En raison de la structure du modèle à choix discret, c’est un ensemble de prix qui est déterminé conjointement pour chaque catégorie. Cet ensemble tient compte, comme souhaité, des effets croisés des prix individuels sur les quantités vendues des autres articles.

Modèle agrégé avec article représentatif par catégorie

Le modèle « agrégé » adopte une approche simplifiée par rapport au modèle à choix discret : il est estimé sur la base d’un article représentatif par catégorie. La quantité vendue de cet article virtuel est la somme des quantités des articles qui composent la catégorie ; son prix est le prix moyen des articles de la catégorie. Cette approche est pertinente lorsqu’on pense que les différents articles sont similaires du point de vue du consommateur.

Ce choix de modélisation simplifié est utile quand, pour une catégorie donnée, les observations sont insuffisantes pour estimer le modèle à choix discret général. Le modèle agrégé est plus simple et donc plus robuste à des données où peu de ventes se font pour chaque article dans la catégorie.

L’estimation suit les mêmes lignes que le modèle à choix discret. Toutefois, il est supposé que le consommateur a maintenant seulement le choix entre acheter cet article virtuel et ne rien acheter.

L’optimisation dans une catégorie utilisant le modèle agrégé se fait en deux étapes.

A la première étape, on calcule le prix optimal de l’article virtuel. Lorsque le critère choisi est le volume de marge, par exemple, le programme de maximisation s’écrit :

$$\underset{p}{\text{max}} \hspace{0.2cm} (p-c)q(p)$$

q(p) est la fonction de demande estimée. On note p^{*} la solution de ce programme.

La deuxième étape consiste à déterminer, à partir de ce prix moyen, les prix optimaux des articles qui composent la catégorie. On peut montrer que p_{i}^{*}-c_{i}= p^{*}-c ∀i lorsque la marge totale est maximisée. Ainsi, connaissant le coût unitaire  de chaque article, on peut calculer son prix optimal à partir de la règle optimale déduite de l’estimation du modèle agrégé sur un article représentatif. Tous les articles sont pricés.

Conclusion : conditions pour créer de la valeur avec les données

Merci de nous avoir suivis dans cette plongée dans les entrailles méthodologiques du pricing prédictif ! Ces techniques sont extrêmement efficaces, si les conditions suivantes sont réunies :

  • Le modèle « agrégé » ci-dessus est une illustration d’une approche générale efficace en pricing : il faut adapter, de préférence automatiquement, les algorithmes à la qualité des données. Les meilleurs outils le font.
  • Ne pas craindre ces approches. Elles sont complexes et génèrent un effet « boite noire ». Mais c’est le cas de toutes les techniques prédictives appliquées au marketing. En pricing, pour extraire de la valeur des données, quelques feuilles Excel ne suffisent plus. Il faut des algorithmes rigoureux et adaptatifs, déployés sur des logiciels spécialisés.
  • Pour les e-marchands et retailers les plus gros, la gouvernance du prix est essentielle pour un déploiement réussi : l’IT et les spécialistes BI pour automatiser l’extraction des données et la publication des prix doivent travailler main dans la main avec les pricers et les chefs de rayon. Ces derniers doivent rester en contrôle du prix final, y compris par des procédures de validation des recommandations de prix et la gestion de règles métier combinées avec le prédictif pur. Ce sera le sujet d’un de nos prochains billets.