Segmentation des clients avec K Means Clustering

Table des matières

Tous les clients ne sont pas créés égaux. – Moi (et bien d’autres personnes aussi)

Vous ne parleriez jamais à vos parents de la façon dont vous parlez à votre partenaire, ni à vos enfants de la façon dont vous parlez à votre responsable. Alors pourquoi votre équipe marketing utilise-t-elle un langage unique dans tous vos supports marketing?

Tirer parti de l’apprentissage automatique et de l’intelligence artificielle avec les quantités massives d’historique de consommation, de trafic Web et de critiques de produits peut avoir un impact mesurable sur les campagnes marketing. En exploitant la puissance des outils statistiques et analytiques, les clients peuvent être divisés en segments basés sur trois traits comportementaux simples, influençant le langage utilisé dans les campagnes de marketing multicanal et entraînant des taux de conversion et de CTR plus élevés.

Mieux vous connaissez votre client, mieux vous vous portez.

En tant que client, vous ne voulez pas être considéré comme un simple moyen de parvenir à une fin. Vous voulez faire partie d’une communauté. En tant que détaillant, c’est votre travail d’apprendre à connaître vos clients et de parler de ce que vous savez d’eux. Ne soyez pas passif, découvrez leurs points faibles, apprenez à connaître leurs habitudes d’achat et renforcez la confiance. Les revenus suivront.

Segmentation du marché et modèle RFM

En règle générale, il existe quatre façons de segmenter votre clientèle:

Démographique – âge, sexe, statut socioéconomique
Géographique – où sont-ils dans le monde?
Psychographique – recherche d’alliances, projet d’achat d’une maison
Comportemental – que fait votre client une fois arrivé sur votre site?

L’API BigQuery de Google vous permet d’effectuer des requêtes de type SQL sur vos données Google Analytics. Si vous disposez du suivi du commerce électronique via votre compte Google Analytics, vous avez accès aux données comportementales de votre client. L’étude en question a été réalisée sur les données du Google Merchandise Store d’août 2016 à août 2017. Plus de 740 000 personnes uniques ont visité le magasin de produits dérivés au cours de cette période, ce qui a entraîné 11 500 achats totalisant plus de 200 000 dollars.

Afin de compléter les données Web que nous avons sur Google Merchandise Store, nous allons concevoir quelques fonctionnalités afin de «marquer» chaque client sur la base du modèle RFM. Cette technique prend la récence (R) du dernier achat, la fréquence (F) ou le nombre de tous les achats moins un, et la valeur monétaire (M) définie par le montant moyen de la commande.

Ingénierie des fonctionnalités RFM

Pour segmenter vos données, vous devez commencer par trois colonnes: identifiants client uniques, dates de transaction et montant de la transaction. J’ai utilisé cette fonction pour traiter les données de Google Merch Store dans un format à partir duquel nous pouvons modéliser –

Une fois que nous avons exécuté notre trame de données via cette fonction, nous nous retrouvons avec les informations suivantes:

Il est important de noter que vous pouvez également avoir des visiteurs sur votre site qui n’effectuent pas d’achats, mais cette méthode de segmentation se concentre sur les clients qui ont déjà effectué une conversion. Une autre étude peut – et devrait – être menée sur les comportements de ceux qui n’achètent pas afin d’améliorer la puissance de conversion de votre site Web.

Apprentissage automatique non supervisé avec Kmeans

Maintenant que nos données sont prêtes à être regroupées, nous allons tester quelques niveaux de cluster et comparer la somme des erreurs quadratiques dans un tracé du coude pour identifier le meilleur niveau pour regrouper chaque fonctionnalité individuellement.

Il semble que la fréquence commence à monter au niveau de cinq clusters, la récence à quatre ou cinq et le revenu à quatre ou cinq. Selon votre modèle d’entreprise, vous pouvez avoir des raisons de choisir un nombre de clusters inférieur ou supérieur. Après quelques itérations, j’ai choisi cinq fréquences, quatre récences et cinq revenus.

À partir d’ici, nous aurons besoin de quelques fonctions d’assistance pour classer les clusters du pire au meilleur et attribuer chaque point de données au cluster correspondant.

Et voici les résultats:

Fréquence – la grande majorité des clients appartiennent aux catégories inférieures et il y a un énorme saut entre trois et quatre, avec un seul client ayant acheté plus de 15 fois
Récence – La plupart des clients sont assez inactifs (combien de tees Google avez-vous vraiment besoin?) La fenêtre de récence est d’autant plus grande que l’affectation du cluster est meilleure.

Revenus – La grande majorité des consommateurs ont acheté, en moyenne, entre 17 et 19 dollars de produits sur le Google Merchandise Store. Les cinq groupes de revenus sont assez bien espacés, avec pas plus de 23 dollars environ dépensés en moyenne.

Nous déterminerons le score global en additionnant le score de chaque cluster et en déterminant la stratification des segments à partir de là.

rfm_df[‘OverallScore’] = rfm_df[‘RecencyCluster’] + rfm_df[‘FrequencyCluster’] + rfm_df[‘RevenueCluster’]rfm_df.groupby(‘OverallScore’)[‘Recency’,’Frequency’,’logRevenue’].mean()

Selon votre modèle d’entreprise, vous pouvez déjà avoir certains seuils pour les segments. Ici, je les ai répartis en trois groupes. Inactif,
peu fréquents, les faibles dépenses sont de faible valeur, la valeur moyenne est supérieure au revenu moyen avec une récence moyenne – supérieure à la moyenne et une fréquence moyenne à supérieure à la moyenne, et les clients de grande valeur se situent dans les échelons supérieurs d’au moins deux fonctionnalités.

# Naming and defining segments
rfm_df[‘Segment’] = 0
rfm_df.loc[rfm_df[‘OverallScore’]>4,’Segment’] = 1 
rfm_df.loc[rfm_df[‘OverallScore’]>6,’Segment’] = 2

Et maintenant, pour visualiser chaque cluster pour voir comment nous avons bien fait:

Regardez ces clusters magnifiquement définis!

De cette intrigue, nous pouvons voir qu’il y a des clients qui n’ont pas dépensé beaucoup d’argent mais qui s’arrêtent fréquemment sur le site et qui ont récemment effectué des achats qui entrent également dans la catégorie de haute valeur. Les scores semblent être réduits par des achats très peu fréquents ou ont fait leur dernier achat loin dans le passé.

Segmentation des clients avec K Means Clustering