PC & Mobile

Premiers pas avec Data Lake – Basculez vos données – Moyen

Premiers pas avec Data Lake - Basculez vos données - Moyen


je choisi le lac de Bled pour la couverture, c’est l’un de mes lacs préférés. Mais nous allons parler d'un autre type de lacs -Data Lake. Vous avez probablement beaucoup entendu parler de cela, surtout si vous travaillez avec des données. Je crois qu’une définition de plus et un article sur Data Lake ne feront de mal à personne.

Il y a quelques citations populaires sur Data Lakes:

une donnée unique stocker pour tous les données brutes que quiconque dans une organisation pourrait avoir besoin d'analyser par Martin Fowler
Si vous considérez un magasin de données comme un réservoir d’eau en bouteille - nettoyé, emballé et structuré de manière à en faciliter la consommation - le data lake est un grand état naturel. Le contenu du flux de données du lac provient d’une source remplissant le lac, et divers utilisateurs du lac peuvent examiner, plonger ou prélever des échantillons. par James Dixon

Il est clair que cela est en quelque sorte lié à Analytics et nous aide à stocker des données et à y accéder facilement.

J'aime simplifier, et nous pouvons essayer de simplifier l'idée du lac de données. Examinons l’essentiel, comme la galerie de photos sur iPhone

Écran de ma présentation Data Lake

Nous faisons une photo et elle pourrait être enregistrée sur le stockage de fichiers en nuage (iCloud). De plus, il recueillera des métadonnées sur les images (fichiers). En conséquence, nous pouvons accéder aux données via l'interface conviviale et nous voyons des statistiques. Dans mon exemple, je peux voir un certain nombre de photos en feu.

Même à partir de ce simple exemple, nous pouvons voir l’avantage du Data Lake par rapport au Data Warehouse traditionnel. De plus, nous pouvons identifier les étapes clés:

  1. Ingestion - un composant clé d'un lac de données. Nous pouvons ingérer des données dans le lac de données en utilisant le traitement par lotsou diffusion .
  2. Espace de rangement- le composant principal du lac de données est le stockage. Nous devrions pouvoir accéder aux données de manière flexible et évolutive. De plus, nous devrions fournirtrès haute durabilitéà à bas prix. Le meilleur moyen de stocker des données consiste à utiliser AWS S3 ou des fonctionnalités de stockage similaires à celles d'AWS et de GCP.
  3. Catalogue et recherche- afin d’éviter le débordement des données, nous devrions créer une couche de métadonnées pour la classification des données et permettre aux utilisateurs de rechercher différents attributs. Souvent, nous pouvons créer une API afin de fournir une interface de recherche.
  4. Processus- cette couche est responsable de la transformation des données. Nous pouvons transformer des données en différentes structures ou formats. De plus, nous pourrions faire une analyse des données en utilisant la puissance de traitement. Nous pouvons utiliser Hadoop ou Spark pour le traitement. Ainsi que Hive / Presto / Athena et un autre outil d'analyse.
  5. Sécurité- nous devrions penser à la sécurité de la solution. Par exemple, le cryptage des données au repos et en transit, un mécanisme d’authentification et d’autorisation des utilisateurs. De plus, nous devrions auditer tous les événements autour du lac de données.

Dans la pratique, un lac de données se caractérise par trois attributs clés:

  • Tout collectionner- Un lac de données contient toutes les données, à la fois les sources brutes sur de longues périodes et toutes les données traitées.
  • Plongez n'importe où- Un lac de données permet aux utilisateurs de plusieurs unités commerciales d'affiner, d'explorer et d'enrichir des données selon leurs propres termes.
  • Accès flexible- Un lac de données permet de multiples modèles d'accès aux données sur une infrastructure partagée: moteurs de traitement par lots, interactifs, en ligne, de recherche, en mémoire et autres.

Entrepôt de données et lac de données

Les questions logiques sont

  • "Qu'en est-il de l'entrepôt de données"?
  • "Remplaçons-nous l'entrepôt de données ou l'étendons-nous?"
  • “Peut-être que nous ne pouvons utiliser que Data Warehouse”

Je dirais «oui» sur toutes ces questions. Par exemple, voici l'article de Amazon Subsidiary Woot - «L'histoire de notre lac de données: comment Woot.com a construit un lac de données sans serveur sur AWS». Ils ont remplacé DW par Data Lake en utilisant la pile de technologie AWS.

D'autre part, Snowflake affirme qu'il n'est pas nécessaire de créer le lac de données individuellement, car Snowflake fournit cette fonctionnalité en séparant l'informatique et le stockage. Et c'est vrai.

Enfin, nous pouvons compléter la solution Data Warehouse existante avec Data Lake. Par exemple, dans le cas de l'utilisation de Google Big Query, d'Amazon Redshift ou d'Azure SQL Data Warehouse.

Examinons la solution traditionnelle Data Warehouse:

Entrepôt de données traditionnel

La solution assez simple, lorsque nous collectons des données de Source par ETL / ELT et que nous les chargeons dans Data Warehouse. Ensuite, nous pouvons accéder aux données avec des outils de BI. Les inconvénients de cette approche sont les suivants:

  • prend du temps pour ETL / ELT
  • Stockage et calcul coûteux
  • Les utilisateurs professionnels voient les données agrégées et transformées, le manque d'accès aux données brutes

Cela dépend vraiment de vos cas d'utilisation. Si vous êtes d'accord avec le DW existant et les fonctionnalités existantes, vous n'avez pas besoin d'un Data Lake. Mais il est clair que nous disposons de plus de données que de plus de valeur que nous pouvons extraire. C’est pourquoi le lac de données est populaire. Regardons le pipeline de données lac:

Architecture du lac de données

En utilisant l’approche Data Lake, nous intégrons des données dans Data Lake par lots ou par flux, puis nous pouvons traiter et transformer ces données. Data Lake contient les données brutes qui permettent à différents utilisateurs de disposer de leur propre processus ETL pour formater les données comme ils en ont besoin.

L'objectif principal de Data Solution est de servir les utilisateurs professionnels. Nous devons toujours travailler en arrière des utilisateurs professionnels et répondre à leurs besoins en matière de données.

Comparons les points clés de Data Lake et Data Warehouse:

Data Lake vs Data Warehouse

D'après le tableau ci-dessus, il est clair que l'entrepôt de données ne fait pas concurrence à Data Lake. C'est en fait une technologie complémentaire.

Exemple concret de Data Lake

Il est clair que Data Lake joue un rôle dans l'organisation. De nombreux cas d'utilisation de Data Lake sont disponibles de nos jours. Dans la plupart des cas, nous souhaitons utiliser Data Lake lorsque Data Warehouse ne peut pas nous aider ou lorsque nous appliquons un contrat de niveau de service strict pour les flux de données en temps quasi réel.

L'un des cas récents consiste à obtenir des informations à partir des journaux d'accès aux données Clickstream. Le volume de données pourrait être TB de données par jour. De plus, ce type de données est semi-structuré comme dans l'exemple ci-dessous:

https 2018-07-02T22: 23: 00.186641Z app / my-loadbalancer / 50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57
"GET https://www.example.com:443/ HTTP / 1.1" "curl / 7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2
arn: aws: balance de charge élastique: us-east-2: 123456789012: targetgroup / my-cibles / 73e2d6bc24d8a067
"Root = 1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn: aws: acm: us-east-2: 123456789012: certificat / 12345678-1234-1234-1234-1234-1234-123456789012"
1 2018-07-02T22: 22: 48.364000Z "authentifier, transférer" "-" "-"

Par exemple, nous pourrions essayer d'utiliser un outil ETL traditionnel afin de charger environ 50 Go de données brutes dans Data Warehouse. C'est 6000 fichiers de log par jour. L'approche traditionnelle prenait environ 1 minute par fichier. Avec notre volume de données, cela prendra beaucoup de temps. De plus, le coût du stockage en entrepôt de données d'analyse est assez élevé. Dans notre cas, nous avons utilisé Redshift. En conséquence, nous avons mis au point une solution de lac de données:

Traitement clickstream

La solution est simple Nous misons sur Elastic Map Reduce et Spark pour produire un fichier Parquet. En plus de Data Lake, nous avons Redshift Spectrum qui fournit un accès SQL aux données. AWS Glue collecte des métadonnées sur les données et les partitions disponibles.

En conséquence, les utilisateurs professionnels sont en mesure de fournir des informations sur des cas d'utilisation professionnels: analyser le trafic de robots, dépister des URL endommagées et mesurer les performances du site Web.

À propos de vos données

Rock Your Data est une société de conseil et de technologie qui propose des solutions d’analyse en nuage sécurisées et évolutives aux grandes et moyennes entreprises du Canada.

Rock Your Data aide les organisations à apporter des améliorations distinctives, durables et substantielles à leurs performances en exploitant leurs données et leur technologie de pointe.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close