Qu'est-ce que Data Lake?
Un Data Lake est un référentiel de stockage qui peut stocker une grande quantité de données structurées, semi-structurées et non structurées. C'est un endroit pour stocker chaque type de données dans son format natif sans limite fixe de taille de compte ou de fichier. Il offre une grande quantité de données pour augmenter les performances analytiques et l'intégration native.
Data Lake est comme un grand conteneur qui ressemble beaucoup à de vrais lacs et rivières. Tout comme dans un lac, vous avez plusieurs affluents qui arrivent, un lac de données contient des données structurées, des données non structurées, de machine à machine, des journaux qui circulent en temps réel.
Le Data Lake démocratise les données et constitue un moyen économique de stocker toutes les données d'une organisation pour un traitement ultérieur. L'analyste de recherche peut se concentrer sur la recherche de modèles de signification dans les données et non sur les données elles-mêmes.
Contrairement à une maison Dataware hiérarchique où les données sont stockées dans des fichiers et des dossiers, Data lake a une architecture plate. Chaque élément de données d'un Data Lake reçoit un identifiant unique et est balisé avec un ensemble d'informations de métadonnées.
Dans ce didacticiel, vous apprendrez-
- Qu'est-ce que Data Lake?
- Pourquoi Data Lake?
- Architecture du lac de données
- Concepts clés du Data Lake
- Étapes de maturité de Data Lake
- Meilleures pratiques pour l'implémentation de Data Lake:
- Différence entre les lacs de données et l'entrepôt de données
- Avantages et risques liés à l'utilisation de Data Lake:
Pourquoi Data Lake?
L'objectif principal de la construction d'un lac de données est d'offrir une vue non raffinée des données aux data scientists.
Les raisons d'utiliser Data Lake sont:
- Avec l'apparition de moteurs de stockage comme Hadoop, le stockage d'informations disparates est devenu facile. Il n'est pas nécessaire de modéliser les données dans un schéma à l'échelle de l'entreprise avec un Data Lake.
- Avec l'augmentation du volume de données, de la qualité des données et des métadonnées, la qualité des analyses augmente également.
- Data Lake offre une agilité commerciale
- L'apprentissage automatique et l'intelligence artificielle peuvent être utilisés pour faire des prédictions rentables.
- Il offre un avantage concurrentiel à l'organisation chargée de la mise en œuvre.
- Il n'y a pas de structure de silo de données. Data Lake offre une vue à 360 degrés des clients et rend l'analyse plus robuste.
Architecture du lac de données
La figure montre l'architecture d'un Business Data Lake. Les niveaux inférieurs représentent des données principalement au repos tandis que les niveaux supérieurs affichent des données transactionnelles en temps réel. Ces données circulent dans le système avec peu ou pas de latence. Voici les niveaux importants de l'architecture Data Lake:
- Niveau d'ingestion : les niveaux sur le côté gauche représentent les sources de données. Les données peuvent être chargées dans le lac de données par lots ou en temps réel
- Niveau Insights: les niveaux sur la droite représentent le côté de la recherche où les informations du système sont utilisées. Les requêtes SQL, NoSQL ou même Excel peuvent être utilisées pour l'analyse des données.
- HDFS est une solution rentable pour les données structurées et non structurées. C'est une zone d'atterrissage pour toutes les données qui sont au repos dans le système.
- Le niveau de distillation prend les données du pneu de stockage et les convertit en données structurées pour une analyse plus facile.
- Le niveau de traitement exécute des algorithmes analytiques et des requêtes des utilisateurs avec différents lots interactifs en temps réel pour générer des données structurées pour une analyse plus facile.
- Le niveau des opérations unifiées régit la gestion et la surveillance du système. Il comprend l'audit et la gestion des compétences, la gestion des données, la gestion des flux de travail.
Concepts clés du Data Lake
Voici les concepts clés de Data Lake qu'il faut comprendre pour comprendre complètement l'architecture de Data Lake
Ingestion de données
L'ingestion de données permet aux connecteurs d'obtenir des données à partir de différentes sources de données et de les charger dans le lac de données.
L'ingestion de données prend en charge:
- Tous les types de données structurées, semi-structurées et non structurées.
- Plusieurs ingestions telles que le chargement par lots, en temps réel et unique.
- De nombreux types de sources de données comme les bases de données, les serveurs Web, les e-mails, l'IoT et le FTP.
Stockage de données
Le stockage des données doit être évolutif, offrir un stockage rentable et permettre un accès rapide à l'exploration des données. Il doit prendre en charge divers formats de données.
Gouvernance des données
La gouvernance des données est un processus de gestion de la disponibilité, de la convivialité, de la sécurité et de l'intégrité des données utilisées dans une organisation.
Sécurité
La sécurité doit être mise en œuvre dans chaque couche du lac de données. Cela commence par le stockage, la découverte et la consommation. Le besoin fondamental est d'arrêter l'accès pour les utilisateurs non autorisés. Il doit prendre en charge différents outils pour accéder aux données avec une interface graphique et des tableaux de bord faciles à naviguer.
L'authentification, la comptabilité, l'autorisation et la protection des données sont des caractéristiques importantes de la sécurité des lacs de données.
Qualité des données:
La qualité des données est une composante essentielle de l'architecture Data Lake. Les données sont utilisées pour déterminer la valeur commerciale. Extraire des informations à partir de données de mauvaise qualité conduira à des informations de mauvaise qualité.
Découverte des données
La découverte de données est une autre étape importante avant de pouvoir commencer à préparer des données ou à analyser. Dans cette étape, la technique de marquage est utilisée pour exprimer la compréhension des données, en organisant et en interprétant les données ingérées dans le lac de données.
Audit des données
Deux tâches principales d'audit des données sont le suivi des modifications apportées à l'ensemble de données clé.
- Suivi des modifications apportées aux éléments importants de l'ensemble de données
- Capture comment / quand / et qui modifie ces éléments.
L'audit des données permet d'évaluer les risques et la conformité.
Lignage de données
Ce composant traite des origines des données. Il traite principalement de l'endroit où il se déplace au fil du temps et de ce qui lui arrive. Il facilite les corrections d'erreurs dans un processus d'analyse de données de l'origine à la destination.
Exploration de données
C'est la première étape de l'analyse des données. Il est essentiel d'identifier le bon jeu de données avant de commencer l'exploration de données.
Tous les composants donnés doivent travailler ensemble pour jouer un rôle important dans la construction de Data Lake évoluent facilement et explorent l'environnement.
Étapes de maturité de Data Lake
La définition des étapes de maturité des lacs de données diffère d'un manuel à l'autre. Bien que le nœud reste le même. Après la maturité, la définition de l'étape est d'un point de vue profane.
Étape 1: gérer et ingérer des données à grande échelle
Cette première étape de la maturité des données consiste à améliorer la capacité à transformer et analyser les données. Ici, les propriétaires d'entreprise doivent trouver les outils en fonction de leurs compétences pour obtenir plus de données et créer des applications analytiques.
Étape 2: Construire le muscle analytique
Il s'agit d'une deuxième étape qui consiste à améliorer la capacité de transformation et d'analyse des données. Dans cette étape, les entreprises utilisent l'outil le plus adapté à leurs compétences. Ils commencent à acquérir plus de données et à créer des applications. Ici, les capacités de l'entrepôt de données d'entreprise et du lac de données sont utilisées ensemble.
Étape 3: EDW et Data Lake travaillent à l'unisson
Cette étape consiste à mettre les données et les analyses entre les mains du plus grand nombre de personnes possible. À ce stade, le lac de données et l'entrepôt de données d'entreprise commencent à fonctionner en union. Les deux jouent leur rôle dans l'analyse
Étape 4: Capacité d'entreprise dans le lac
Dans cette étape de maturité du lac de données, des fonctionnalités d'entreprise sont ajoutées au lac de données. Adoption de la gouvernance de l'information, des capacités de gestion du cycle de vie de l'information et de la gestion des métadonnées. Cependant, très peu d'organisations peuvent atteindre ce niveau de maturité, mais ce décompte augmentera à l'avenir.
Meilleures pratiques pour l'implémentation de Data Lake:
- Les composants architecturaux, leur interaction et les produits identifiés doivent prendre en charge les types de données natifs
- La conception de Data Lake doit être guidée par ce qui est disponible plutôt que par ce qui est requis. Le schéma et l'exigence de données ne sont pas définis tant qu'ils ne sont pas interrogés
- La conception doit être guidée par des composants jetables intégrés à l'API de service.
- La découverte, l'ingestion, le stockage, l'administration, la qualité, la transformation et la visualisation des données doivent être gérés indépendamment.
- L'architecture Data Lake doit être adaptée à un secteur spécifique. Il devrait garantir que les capacités nécessaires pour ce domaine font partie intégrante de la conception
- Une intégration plus rapide des sources de données nouvellement découvertes est importante
- Data Lake permet une gestion personnalisée pour extraire une valeur maximale
- Le Data Lake doit prendre en charge les techniques et méthodes de gestion des données d'entreprise existantes
Les défis de la création d'un lac de données:
- Dans Data Lake, le volume de données est plus élevé, le processus doit donc reposer davantage sur l'administration programmatique
- Il est difficile de traiter des données rares, incomplètes et volatiles
- Une plus grande portée de l'ensemble de données et de la source nécessite une gouvernance et une prise en charge des données plus importantes
Différence entre les lacs de données et l'entrepôt de données
Paramètres | Lacs de données | Entrepôt de données |
---|---|---|
Données | Les lacs de données stockent tout. | Data Warehouse se concentre uniquement sur les processus métier. |
Traitement | Les données sont principalement non traitées | Données hautement traitées. |
Type de données | Il peut être non structuré, semi-structuré et structuré. | Il est principalement sous forme et structure tabulaires. |
Tâche | Partager la gestion des données | Optimisé pour la récupération de données |
Agilité | Très agile, configurez et reconfigurez au besoin. | Comparé à Data Lake, il est moins agile et sa configuration est fixe. |
Utilisateurs | Data Lake est principalement utilisé par Data Scientist | Les professionnels utilisent largement l'entrepôt de données |
Espace de rangement | Conception de lacs de données pour un stockage à faible coût. | Un stockage coûteux qui donne des temps de réponse rapides est utilisé |
Sécurité | Offre un moindre contrôle. | Permet un meilleur contrôle des données. |
Remplacement d'EDW | Le lac de données peut être une source pour EDW | Complémentaire à EDW (pas de remplacement) |
Schéma | Schéma à la lecture (pas de schémas prédéfinis) | Schéma à l'écriture (schémas prédéfinis) |
Traitement de l'information | Aide à l'ingestion rapide de nouvelles données. | L'introduction d'un nouveau contenu prend du temps. |
Granularité des données | Données à un faible niveau de détail ou de granularité. | Données au niveau de détail récapitulatif ou agrégé. |
Outils | Peut utiliser des outils open source comme Hadoop / Map Reduce | Principalement des outils commerciaux. |
Avantages et risques liés à l'utilisation de Data Lake:
Voici quelques avantages majeurs liés à l'utilisation d'un Data Lake:
- Aide pleinement à l'ionisation du produit et à l'analyse avancée
- Offre une évolutivité et une flexibilité rentables
- Offre de la valeur à partir de types de données illimités
- Réduit le coût de possession à long terme
- Permet un stockage économique des fichiers
- Adaptable rapidement aux changements
- Le principal avantage du data lake est la centralisation des différentes sources de contenu
- Les utilisateurs, de divers services, peuvent être dispersés dans le monde entier peuvent avoir un accès flexible aux données
Risque lié à l'utilisation de Data Lake:
- Après un certain temps, Data Lake peut perdre de sa pertinence et de son élan
- Il y a un plus grand risque impliqué lors de la conception de Data Lake
- Les données non structurées peuvent conduire à un chao non gouverné, des données inutilisables, des outils disparates et complexes, une collaboration à l'échelle de l'entreprise, unifiée, cohérente et commune
- Cela augmente également les coûts de stockage et de calcul
- Il n'y a aucun moyen d'obtenir des informations d'autres personnes qui ont travaillé avec les données, car il n'y a pas de compte rendu de la lignée des conclusions des analystes précédents
- Le plus grand risque des lacs de données est la sécurité et le contrôle d'accès. Parfois, les données peuvent être placées dans un lac sans aucune surveillance, car certaines des données peuvent avoir des besoins en matière de confidentialité et de réglementation.
Résumé:
- Un Data Lake est un référentiel de stockage qui peut stocker une grande quantité de données structurées, semi-structurées et non structurées.
- L'objectif principal de la construction d'un lac de données est d'offrir une vue non raffinée des données aux data scientists.
- Le niveau Opérations unifiées, le niveau Traitement, le niveau Distillation et HDFS sont des couches importantes de l'architecture Data Lake
- L'ingestion de données, le stockage des données, la qualité des données, l'audit des données, l'exploration des données, la découverte de données sont des composants importants de l'architecture Data Lake
- La conception de Data Lake doit être guidée par ce qui est disponible plutôt que par ce qui est requis.
- Data Lake réduit le coût de possession à long terme et permet un stockage économique des fichiers
- Le plus grand risque des lacs de données est la sécurité et le contrôle d'accès. Parfois, les données peuvent être placées dans un lac sans aucune surveillance, car certaines des données peuvent avoir des besoins en matière de confidentialité et de réglementation.