Technologie

4 piliers de l'analyse – Analyse de piratage – Moyenne

4 piliers de l'analyse - Analyse de piratage - Moyenne


L'acquisition, le traitement, le surfaçage et l'exploitation des données sont la clé d'une initiative d'analyse efficace

Le cycle de vie des projets d'analyse repose sur quatre piliers clés: acquisition, traitement, surfaçage et traitement des données. Chacun de ceux-ci contribue à une partie importante de la chaîne de valeur de l'analyse.

#Pillar 1: Acquisition

Le pilier de l’acquisition de données consiste en un large éventail de tâches, de connaissances des systèmes et de la technologie, qu’il est nécessaire de posséder pour acquérir efficacement les données requises. Ce qui est demandé à un professionnel de l’analyse est très dépendant du domaine.

Types de données

1*agQA7uvDZ0Tfa2gz56Alkw - 4 piliers de l'analyse - Analyse de piratage - Moyenne

En ce qui concerne l'acquisition de données, nous pouvons considérer quatre types principaux de données Clickstream, les API de bases de données et les journaux, chacun ayant ses propres défis et moyens de gérer les collectes de données.

Clécher le courant les données sont généralement obtenues par l'intégration à un outil tel que Google Analytics ou Adobe Analytics. Le rôle des données clickstream est de fournir une compréhension du comportement des utilisateurs sur le site ou les applications que nous exécutons. La version par défaut consiste à extraire les données brutes d'une telle source via Google Big Query (pour Analytics 360). Si cet outil n'est pas disponible, des outils Open Source tels que Snowplow ou Divolte peuvent aider à intégrer la collecte de données de flux de clics brutes sur une plateforme Big Data.

Ici, le rôle du praticien de l’analyse est de définir les métriques de collecte, les objectifs de configuration dans les outils d’analyse, d’aider à configurer une journalisation supplémentaire, d’analyser les chemins des utilisateurs, de gérer la configuration des expériences et de plonger en profondeur.

atabases est normalement la source d'informations pour les informations système internes qui doivent être conservées. Il contient généralement des informations transactionnelles, des relations entre différents objets, des informations de profil, etc. La méthode traditionnelle pour extraire des bases de données est la méthode SQL. Les ensembles de données sont généralement interrogés et extraits sous forme d'instantané ou d'une séquence d'événements en fonction de la forme des données.

Le rôle du praticien de l’analyse en matière d’acquisition de données dans ce domaine est de modéliser et de structurer les données devant être exportées à partir de ces bases de données. Le praticien doit fusionner et approfondir ses bases de données pour en extraire des données précieuses. Le résultat final consiste en des rapports, des tableaux de bord, des extraits pour la modélisation statistique, etc. Le praticien en analyse doit essayer d'extraire des données de ces systèmes. Il doit également collaborer avec l'équipe d'ingénierie pour s'assurer que les bons attributs de données sont capturés dans ces bases de données. , assurez-vous qu’il existe un processus qualité sur les différentes entrées de données, etc.

UNEPI les appels est le moyen habituel d’acquérir des données, lorsqu’il s’agit de systèmes externes ,. Cela peut être par exemple l’acquisition de données provenant de l’exploitation d’un magasin en ligne sur Amazon pour obtenir certaines statistiques relatives à vos dépenses publicitaires sur Facebook ou l’obtention d’informations auprès d’un fournisseur de données externe.

Le praticien de l’analyse qui tente d’acquérir ces types de données doit passer beaucoup de temps à analyser les différents points de terminaison de l’API, à prototyper les appels d’API, à mieux comprendre ces données externes et à les structurer dans un format utilisable à des fins d’utilisation internes.

Logs sont une autre source de données, généralement capturée dans les systèmes internes pour stocker et analyser les données d'événements. Habituellement traités comme des flux de données avec des termes tels que data firehose et stockés dans des plates-formes Big Data.

Le praticien de l’analyse qui tente d’acquérir des données Logs consacre généralement beaucoup de temps à l’optimisation de son code afin de traiter les flux de données et à la surveillance de l’ingestion de ces données. Il collabore avec l'équipe d'ingénierie pour capturer les informations essentielles au sein de ces flux de données ou pour rendre directement les attributs disponibles afin de rendre la collecte de données plus efficace.

Architecture pour la collecte de données

Acquisition de données Clickstream: Les praticiens de l’analyse qui essaient d’acquérir de nouvelles données de flux de clics définissent généralement de nouveaux événements ou attributs à collecter dans le système de gestion des balises. Les données sont ensuite envoyées par les utilisateurs visitant une page hébergée par un serveur Web externe vers un nuage externe, tel que Google Cloud ou Adobe, à des fins de collecte et de traitement de données. Les utilisateurs peuvent généralement accéder aux données brutes et traitées directement à partir de ces nuages ​​de manière transparente.

Acquisition de données de base de données: Les serveurs internes stockent des informations dans une base de données dans le cadre de leurs processus. Les équipes de développement doivent s’assurer que les informations appropriées sont stockées dans celles-ci. Afin d’intégrer les informations à des fins d’analyse, ces bases de données de production doivent souvent être répliquées et leur fonctionnement doit être exécuté sur celles-ci pour extraire le type d’information requis.

Acquisition de données API: Les appels aux serveurs externes doivent être effectués dans ce cas spécifique, un opérateur doit être généré, lequel appelle les différents points de terminaison de l'API et structure les données pour une ingestion. Les données sont ensuite placées soit dans une base de données, généralement un data-mart, soit dans un système de fichiers volumineux.

Acquisition des données des journaux: Les données de journaux sont collectées dans le cadre d'un processus permettant de placer des événements sur un bus d'événements à partir d'une API ou via un processus de collecte de journaux interne. Une fois sur un bus d'événements, ils peuvent être déplacés vers une plate-forme Big Data ou potentiellement une base de données via un connecteur de récepteur de données.

Connaissance de la technologie

Chacun de ces domaines de données nécessite un type de connaissances spécifique pour pouvoir s'exécuter pleinement sur un processus d'acquisition de données.

Clickstreams: Pour obtenir des données par flot de données, il est utile de disposer de connaissances en JavaScript, en particulier jQuery et les systèmes de gestion de balises, afin de pouvoir définir le type d’événements ou d’attributs devant être ingérés par les systèmes.

Bases de données: Pour extraire les données d'une base de données, une connaissance approfondie de SQL est nécessaire. Pour des opérations plus avancées, la connaissance d'outils ETL tels que Airflow pourrait être utile.

Apis: Des connaissances sur la manière d'interagir avec les API, notamment les API d'autorisation, SOAP et REST, ainsi que les connaissances en programmation sont nécessaires pour pouvoir interagir avec ce type de sources de données.

Journaux: L'interaction des données de journal a tendance à être un peu plus technique que les autres sources de données mentionnées précédemment. Les données de journal ont tendance à être exploitées à un niveau très élevé et sont parfois acquises et traitées en temps réel. Les infrastructures types d'exploitation des données de journal fonctionnent généralement avec Spark et Kafka et sont poussées vers un stockage à long terme ou un traitement hors ligne sur une plate-forme Hadoop.

#Pillar 2: Traitement

Le pilier de traitement des données est chargé de transformer les données brutes et de les raffiner en données informatives. Elle consiste en différentes sous-tâches devant être traitées sur les jeux de données, le nettoyage, la combinaison et la structuration des jeux de données, la gestion de l'agrégation et l'exécution de tout traitement analytique avancé supplémentaire au-dessus des données.

Nettoyage

Le nettoyage des données est une tâche que tout le monde travaillant dans le domaine de l'analyse doit accomplir. Il faut approfondir l'analyse des données et rechercher les lacunes ou anomalies potentielles, en essayant de structurer les données de manière à pouvoir résoudre la plupart des problèmes.

Au cœur du nettoyage des données, quelques types de nettoyage doivent être effectués:

  • Valeurs manquantes: La manière d'identifier les valeurs manquantes et de les imputer en cas de besoin, lorsqu'un ensemble complet de données est manquant, déterminent la manière dont elles doivent être traitées.
  • Normalisation du texte: Les champs de texte doivent être normalisés sur un ou plusieurs jeux de données, dans les champs de formulaire libres, les données doivent être formatées en mots identifiés communs…
  • Catégorisation: Certaines entrées doivent être comparées à certaines métadonnées.
  • Correspondance d'identifiant: Les identifiants différents selon la source d'informations doivent être mis en correspondance afin de permettre la fusion et la résolution d'une identité unique.
  • Déduplication: Certains événements ou données peuvent être dupliqués dans un jeu de données. L'identification de ces occurrences et leur suppression font partie du processus de nettoyage.
  • Miss Attribution: Dans certains cas, certaines lignes des données peuvent être manquées et attribuées à une source donnée. Celles-ci devraient être identifiées, potentiellement exclues de l'ensemble de données ou réattribuées si possible.

L'identification et le nettoyage de chacun de ces cas est un effort fastidieux qui doit être effectué dans une certaine mesure au sein de chaque source de données, en effectuant des audits de données, en cherchant à reproduire autant que possible la cause des données erronées et en collaborant avec les équipes d'ingénierie. résoudre le problème à long terme.

Fusion et dénormalisation

La fusion et la dénormalisation des ensembles de données constituent une autre étape du pilier informatique. On cherche à combiner différents ensembles de données et à créer des ensembles de données plus exploitables et facilement interrogeables.

Comprendre le concept de grain d'un ensemble de données, et les formes normales de données sont utiles dans le fonctionnement de cette partie. Une autre partie du processus de fusion et de dénormalisation consiste à configurer la dimension et les métriques. Le processus de fusion et de dénormalisation consiste à créer facilement un jeu de données pouvant être utilisé ultérieurement, qui contient les informations pertinentes nécessaires au traitement ultérieur.

Agrégation

Différents niveaux d'agrégation sont nécessaires pour différents objectifs. Il existe différents niveaux d'agrégation nécessaires pour différents objectifs:

  1. traitement temporaireCela consiste essentiellement en une sous-requête matérialisée pouvant être utilisée pour fournir des informations supplémentaires en aval de manière efficace.
  2. extraits de jeux de données complets, fournissant des indicateurs clés à des fins de rapport ou de découpage en dés. Parfois, en utilisant la fonction d'agrégation CUBE pour activer les exportations vers des bases de données OLAP.
  3. agrégations au niveau client, utilisés pour l'analyse et le traitement supplémentaire, ils permettent de générer un profil client qui peut ensuite être utilisé à des fins d'analyse ou de modélisation, par exemple pour modéliser le taux de désabonnement.

Traitement analytique avancé

Différentes analyses avancées et méthodes d’apprentissage automatique peuvent s’appliquer en plus des agrégats calculés, allant des méthodes de regroupement à la modélisation de la propension à l’aide de méthodes telles que random forrest ou autres. L’étape de l’analyse avancée a pour objectif de créer des données synthétiques pouvant avoir un pouvoir de prédiction et un objectif décisionnel.

#Pillar 3: Surfacing

Les données informatives doivent être mises en évidence de manière efficace pour avoir un sens. Différentes méthodes de surfaçage des données existent, allant de la mise à disposition des données dans un tableau de bord ou un rapport standard, d'une plate-forme d'analyse à un cube OLAP ou simplement de l'ouverture de données en tant que service.

Tableaux de bord et rapports standard

Les tableaux de bord et les rapports standard constituent généralement le premier moyen de partager les informations traitées. Il fait généralement partie de la partie de la mesure de la performance du rôle d'un professionnel de l'analyse. J'ai déjà expliqué comment la mesure traitée bénéficie d'une stratégie de surfaçage des données. Les tableaux de bord et les rapports standard en font partie intégrante.

Les tableaux de bord / rapports sont généralement le premier livrable du praticien de l’analyse; ils peuvent aider à obtenir des achats et peuvent aider les parties prenantes à avoir la certitude qu’un projet d’analyse est sur la bonne voie.

Ponts d'analyse

Les dossiers d’analyse et les rapports tendent à être un autre moyen de partager les informations recueillies au cours des différents processus analytiques. En fonction de la technicité des tâches et du public visé, le rapport a tendance à être partagé sous forme de fichier powerpoint, document Word ou cahier Jupyter.

Jeux de données OLAP

Les cubes OLAP permettent le traitement de données en tranches et en dés, il s'agit d'un outil particulièrement efficace pour les ensembles de données très dimensionnels. Des outils open source tels que druid permettent ce type de traitement. Du point de vue de la récupération des données, la mise en place d’agrégats facilement exploitables par les équipes métier ou produit permet de responsabiliser ces équipes tout en supprimant certains ensembles de questions et tâches normalement traitées par le professionnel de l’analyse.

Systeme d'intégration

Alors que les autres méthodes de surfaçage de données se concentraient sur le surfaçage de données et d'informations directement à l'homme, celui-ci est destiné à être directement destiné à des machines. Intégrer des agrégats et des prévisions dans les systèmes de production, que ce soit en proposant une API, en les stockant dans des tables de base de données, en exportant des fichiers exportés… est une autre façon pour un professionnel de l’analyse de surfacer des données, dans ce cas être utilisées directement dans des produits ou des processus.

#Pillar 4: Action

Nous pouvons parfois constater que les analyses sont divisées en 3 sous-domaines distincts: Analyses descriptive, prédictive et analytique. Cette séparation est à mon avis assez restrictive, l’analyse doit être utile prescriptif mais il peut utiliser des techniques statistiques ou de modélisation, descriptives ou prédictives par exemple. Fournir une propension au désabonnement, par exemple, sans entrer dans le contexte d'une règle de décision selon laquelle cette information est simplement

L’analyse sans action n’est qu’une recherche; on a beaucoup parlé de la nécessité de l’analyse pour fournir des informations exploitables. À mon avis, ce ne sont pas des informations exploitables qui devraient être le Saint Graal de l'analyse, mais bien la conversion de ces informations en actions efficaces. McKinsey Consulting a conseillé de se concentrer sur le dernier kilomètre de l’analyse et l’intégration de l’analyse dans le processus de prise de décision de l’organisation. Cela facilite le processus de conversion, mais les professionnels de l’analyse devraient toujours en être le porte-drapeau plutôt que de s’en remettre entièrement à un processus de conversion. perspective organisationnelle.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close