Architecture, concepts et composants de l'entrepôt de données

Table des matières:

Anonim

Concepts d'entrepôt de données

Le concept de base d'un entrepôt de données est de faciliter une version unique de la vérité pour une entreprise pour la prise de décision et les prévisions. Un entrepôt de données est un système d'information qui contient des données historiques et commutatives provenant de sources uniques ou multiples. Les concepts d'entrepôt de données simplifient le processus de reporting et d'analyse des organisations.

Caractéristiques de l'entrepôt de données

Les concepts d'entrepôt de données présentent les caractéristiques suivantes:

  • Orienté sujet
  • Intégré
  • Variante temporelle
  • Non volatile

Orienté sujet

Un entrepôt de données est orienté sujet car il offre des informations sur un thème au lieu des opérations en cours des entreprises. Ces sujets peuvent être les ventes, le marketing, les distributions, etc.

Un entrepôt de données ne se concentre jamais sur les opérations en cours. Au lieu de cela, il a mis l'accent sur la modélisation et l'analyse des données pour la prise de décision . Il fournit également une vue simple et concise sur le sujet spécifique en excluant les données qui ne sont pas utiles pour soutenir le processus de décision.

Intégré

Dans l'entrepôt de données, l'intégration signifie l'établissement d'une unité de mesure commune pour toutes les données similaires provenant d'une base de données différente. Les données doivent également être stockées dans l'entrepôt de données de manière commune et universellement acceptable.

Un entrepôt de données est développé en intégrant des données provenant de sources variées comme un mainframe, des bases de données relationnelles, des fichiers plats, etc. De plus, il doit conserver des conventions de dénomination, un format et un codage cohérents.

Cette intégration permet une analyse efficace des données. La cohérence des conventions de dénomination, des mesures d'attributs, de la structure de codage, etc. doit être garantie. Prenons l'exemple suivant:

Dans l'exemple ci-dessus, il existe trois applications différentes intitulées A, B et C. Les informations stockées dans ces applications sont le sexe, la date et l'équilibre. Cependant, les données de chaque application sont stockées de manière différente.

  • Dans l'application A, le champ de genre stocke des valeurs logiques telles que M ou F
  • Dans l'application B, le champ de genre est une valeur numérique,
  • Dans l'application Application C, champ de genre stocké sous la forme d'une valeur de caractère.
  • Il en va de même pour la date et le solde

Cependant, après le processus de transformation et de nettoyage, toutes ces données sont stockées dans un format commun dans l'entrepôt de données.

Variante temporelle

L'horizon temporel de l'entrepôt de données est assez étendu par rapport aux systèmes opérationnels. Les données collectées dans un entrepôt de données sont reconnues avec une période particulière et offrent des informations du point de vue historique. Il contient un élément de temps, explicitement ou implicitement.

L'un de ces endroits où la variance temporelle d'affichage des données Datawarehouse se trouve dans la structure de la clé d'enregistrement. Chaque clé primaire contenue avec le DW doit avoir implicitement ou explicitement un élément de temps. Comme le jour, le mois de la semaine, etc.

Un autre aspect de la variance de temps est qu'une fois que les données sont insérées dans l'entrepôt, elles ne peuvent pas être mises à jour ou modifiées.

Non volatile

L'entrepôt de données est également non volatile, ce qui signifie que les données précédentes ne sont pas effacées lorsque de nouvelles données y sont entrées.

Les données sont en lecture seule et périodiquement actualisées. Cela aide également à analyser les données historiques et à comprendre ce qui s'est passé et quand. Il ne nécessite pas de processus de transaction, de récupération et de mécanismes de contrôle de la concurrence.

Les activités telles que la suppression, la mise à jour et l'insertion qui sont effectuées dans un environnement d'application opérationnel sont omises dans l'environnement de l'entrepôt de données. Seuls deux types d'opérations de données effectuées dans l'entrepôt de données sont

  1. Chargement des données
  2. Accès aux données

Voici quelques différences majeures entre Application et Data Warehouse

Application opérationnelle Entrepôt de données
Les programmes complexes doivent être codés pour garantir que les processus de mise à niveau des données maintiennent une haute intégrité du produit final. Ce type de problème ne se produit pas car la mise à jour des données n'est pas effectuée.
Les données sont placées sous une forme normalisée pour assurer une redondance minimale. Les données ne sont pas stockées sous une forme normalisée.
Technologie nécessaire pour prendre en charge les problèmes de transactions, de récupération de données, de restauration et de résolution, car son blocage est assez complexe. Il offre une relative simplicité technologique.

Architecture de l'entrepôt de données

L'architecture de l'entrepôt de données est complexe car il s'agit d'un système d'information qui contient des données historiques et commutatives provenant de plusieurs sources. Il existe 3 approches pour créer des couches d'entrepôt de données: un niveau, deux niveaux et trois niveaux. Cette architecture à 3 niveaux de Data Warehouse est expliquée ci-dessous.

Architecture à un seul niveau

L'objectif d'une seule couche est de minimiser la quantité de données stockées. Cet objectif est de supprimer la redondance des données. Cette architecture n'est pas fréquemment utilisée dans la pratique.

Architecture à deux niveaux

L'architecture à deux couches est l'une des couches de l'entrepôt de données qui sépare les sources physiquement disponibles et l'entrepôt de données. Cette architecture n'est pas extensible et ne prend pas en charge un grand nombre d'utilisateurs finaux. Il a également des problèmes de connectivité en raison des limitations du réseau.

Architecture d'entrepôt de données à trois niveaux

Il s'agit de l'architecture la plus utilisée de l'entrepôt de données.

Il se compose des niveaux supérieur, intermédiaire et inférieur.

  1. Niveau inférieur: la base de données des serveurs Datawarehouse en tant que niveau inférieur. Il s'agit généralement d'un système de base de données relationnelle. Les données sont nettoyées, transformées et chargées dans cette couche à l'aide d'outils back-end.
  2. Niveau intermédiaire: le niveau intermédiaire de l'entrepôt de données est un serveur OLAP qui est implémenté à l'aide du modèle ROLAP ou MOLAP. Pour un utilisateur, ce niveau d'application présente une vue abstraite de la base de données. Cette couche sert également de médiateur entre l'utilisateur final et la base de données.
  3. Niveau supérieur : le niveau supérieur est une couche client frontale. Le niveau supérieur comprend les outils et l'API que vous connectez et extrayez les données de l'entrepôt de données. Il peut s'agir d'outils de requête, d'outils de reporting, d'outils de requête gérés, d'outils d'analyse et d'outils d'exploration de données.

Composants de l'entrepôt de données

Nous allons en apprendre davantage sur les composants de Datawarehouse et l'architecture de l'entrepôt de données avec diagramme comme indiqué ci-dessous:

Architecture de l'entrepôt de données

L'entrepôt de données est basé sur un serveur SGBDR qui est un référentiel d'informations central entouré de certains composants clés d'entreposage de données pour rendre l'ensemble de l'environnement fonctionnel, gérable et accessible.

Il existe principalement cinq composants de l'entrepôt de données:

Base de données de l'entrepôt de données

La base de données centrale est le fondement de l'environnement d'entreposage de données. Cette base de données est implémentée sur la technologie SGBDR. Cependant, ce type de mise en œuvre est limité par le fait que le système SGBDR traditionnel est optimisé pour le traitement transactionnel de bases de données et non pour l'entreposage de données. Par exemple, les requêtes ad hoc, les jointures multi-tables, les agrégats sont gourmands en ressources et ralentissent les performances.

Par conséquent, des approches alternatives à la base de données sont utilisées comme indiqué ci-dessous.

  • Dans un entrepôt de données, les bases de données relationnelles sont déployées en parallèle pour permettre l'évolutivité. Les bases de données relationnelles parallèles autorisent également la mémoire partagée ou le modèle sans partage sur diverses configurations multiprocesseurs ou processeurs massivement parallèles.
  • De nouvelles structures d'index sont utilisées pour contourner l'analyse de table relationnelle et améliorer la vitesse.
  • Utilisation de bases de données multidimensionnelles (MDDB) pour surmonter toutes les limitations qui sont placées en raison des modèles d'entrepôt de données relationnelles. Exemple: Essbase d'Oracle.

Outils d'approvisionnement, d'acquisition, de nettoyage et de transformation (ETL)

Les outils d'approvisionnement, de transformation et de migration des données sont utilisés pour effectuer toutes les conversions, les résumés et toutes les modifications nécessaires pour transformer les données en un format unifié dans l'entrepôt de données. Ils sont également appelés outils d'extraction, de transformation et de chargement (ETL).

Leur fonctionnalité comprend:

  • Anonymiser les données conformément aux dispositions réglementaires.
  • Élimination des données indésirables dans les bases de données opérationnelles du chargement dans l'entrepôt de données.
  • Recherchez et remplacez les noms communs et les définitions des données provenant de différentes sources.
  • Calcul des résumés et des données dérivées
  • En cas de données manquantes, remplissez-les avec les valeurs par défaut.
  • Données répétées dédupliquées provenant de plusieurs sources de données.

Ces outils d'extraction, de transformation et de chargement peuvent générer des tâches cron, des tâches d'arrière-plan, des programmes Cobol, des scripts shell, etc. qui mettent régulièrement à jour les données dans l'entrepôt de données. Ces outils sont également utiles pour maintenir les métadonnées.

Ces outils ETL doivent faire face aux défis de l'hétérogénéité des bases de données et des données.

Métadonnées

Le nom Meta Data suggère des concepts d'entreposage de données technologiques de haut niveau. Cependant, c'est assez simple. Les métadonnées sont des données sur les données qui définissent l'entrepôt de données. Il est utilisé pour la construction, la maintenance et la gestion de l'entrepôt de données.

Dans l'architecture de l'entrepôt de données, les métadonnées jouent un rôle important car elles spécifient la source, l'utilisation, les valeurs et les fonctionnalités des données de l'entrepôt de données. Il définit également comment les données peuvent être modifiées et traitées. Il est étroitement lié à l'entrepôt de données.

Par exemple, une ligne dans la base de données des ventes peut contenir:

4030 KJ732 299.90

Ce sont des données sans signification jusqu'à ce que nous consultions le Meta qui nous dit que c'était

  • Numéro Sku: 4030
  • ID de l'agent de vente: KJ732
  • Montant total des ventes de 299,90 $

Par conséquent, les métadonnées sont des ingrédients essentiels dans la transformation des données en connaissances.

Les métadonnées aident à répondre aux questions suivantes

  • Quelles tables, attributs et clés contient l'entrepôt de données?
  • D'où viennent les données?
  • Combien de fois les données sont-elles rechargées?
  • Quelles transformations ont été appliquées au nettoyage?

Les métadonnées peuvent être classées dans les catégories suivantes:

  1. Métadonnées techniques : ce type de métadonnées contient des informations sur l'entrepôt utilisées par les concepteurs et les administrateurs de l'entrepôt de données.
  2. Métadonnées commerciales: ce type de métadonnées contient des détails qui permettent aux utilisateurs finaux de comprendre facilement les informations stockées dans l'entrepôt de données.

Outils de requête

L'un des principaux objets de l'entreposage de données est de fournir des informations aux entreprises pour qu'elles prennent des décisions stratégiques. Les outils de requête permettent aux utilisateurs d'interagir avec le système d'entrepôt de données.

Ces outils se répartissent en quatre catégories différentes:

  1. Outils de requête et de rapport
  2. Outils de développement d'applications
  3. Outils d'exploration de données
  4. Outils OLAP

1. Outils de requête et de rapport:

Les outils de requête et de rapport peuvent être subdivisés en

  • Outils de reporting
  • Outils de requête gérés

Outils de reporting:

Les outils de reporting peuvent être divisés en outils de reporting de production et en rédacteur de rapport de bureau.

  1. Rédacteurs de rapports: ce type d'outil de rapport sont des outils conçus pour les utilisateurs finaux pour leur analyse.
  2. Rapports de production: ce type d'outils permet aux organisations de générer des rapports opérationnels réguliers. Il prend également en charge les travaux par lots à volume élevé comme l'impression et le calcul. Certains outils de reporting populaires sont Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Outils de requête gérés:

Ce type d'outils d'accès aide les utilisateurs finaux à résoudre les problèmes dans la base de données et la structure SQL et base de données en insérant une méta-couche entre les utilisateurs et la base de données.

2. Outils de développement d'applications:

Parfois, les outils graphiques et analytiques intégrés ne répondent pas aux besoins analytiques d'une organisation. Dans de tels cas, des rapports personnalisés sont développés à l'aide d'outils de développement d'applications.

3. Outils d'exploration de données:

L'exploration de données est un processus de découverte de nouvelles corrélations, modèles et tendances significatifs en exploitant de grandes quantités de données. Des outils d'exploration de données sont utilisés pour rendre ce processus automatique.

4. Outils OLAP:

Ces outils sont basés sur les concepts d'une base de données multidimensionnelle. Il permet aux utilisateurs d'analyser les données à l'aide de vues multidimensionnelles élaborées et complexes.

Architecture de bus de l'entrepôt de données

Data Warehouse Bus détermine le flux de données dans votre entrepôt. Le flux de données dans un entrepôt de données peut être classé en flux entrant, flux ascendant, flux descendant, flux sortant et méta-flux.

Lors de la conception d'un bus de données, il faut tenir compte des dimensions partagées, des faits à travers les magasins de données.

Datamarts

Un magasin de données est une couche d'accès qui est utilisée pour transmettre des données aux utilisateurs. Il est présenté comme une option pour un entrepôt de données de grande taille car sa construction prend moins de temps et d'argent. Cependant, il n'y a pas de définition standard d'un data mart qui diffère d'une personne à l'autre.

En un mot, Data Mart est une filiale d'un entrepôt de données. Le magasin de données est utilisé pour la partition des données qui est créée pour le groupe spécifique d'utilisateurs.

Les magasins de données peuvent être créés dans la même base de données que l'entrepôt de données ou dans une base de données physiquement distincte.

Meilleures pratiques d'architecture d'entrepôt de données

Pour concevoir une architecture d'entrepôt de données, vous devez suivre les meilleures pratiques ci-dessous:

  • Utilisez des modèles d'entrepôt de données qui sont optimisés pour la récupération d'informations qui peuvent être le mode dimensionnel, l'approche dénormalisée ou hybride.
  • Choisissez l'approche de conception appropriée comme approche descendante et ascendante dans l'entrepôt de données
  • Besoin de garantir que les données sont traitées rapidement et avec précision. Dans le même temps, vous devez adopter une approche qui consolide les données en une seule version de la vérité.
  • Concevez soigneusement le processus d'acquisition et de nettoyage des données pour l'entrepôt de données.
  • Concevoir une architecture MetaData qui permet le partage de métadonnées entre les composants de Data Warehouse
  • Envisagez de mettre en œuvre un modèle ODS lorsque le besoin de recherche d'informations est proche du bas de la pyramide d'abstraction des données ou lorsque plusieurs sources opérationnelles doivent être consultées.
  • Il faut s'assurer que le modèle de données est intégré et pas seulement consolidé. Dans ce cas, vous devez envisager le modèle de données 3NF. Il est également idéal pour acquérir des outils ETL et de nettoyage de données

Résumé:

  • L'entrepôt de données est un système d'information qui contient des données historiques et commutatives provenant de sources uniques ou multiples. Ces sources peuvent être un entrepôt de données traditionnel, un entrepôt de données cloud ou un entrepôt de données virtuel.
  • Un entrepôt de données est orienté sujet car il offre des informations sur le sujet au lieu des opérations en cours de l'organisation.
  • Dans Data Warehouse, l'intégration signifie l'établissement d'une unité de mesure commune pour toutes les données similaires issues des différentes bases de données
  • L'entrepôt de données est également non volatile, ce qui signifie que les données précédentes ne sont pas effacées lorsque de nouvelles données y sont entrées.
  • Un Datawarehouse est une variante temporelle car les données d'un DW ont une durée de conservation élevée.
  • Il existe principalement 5 composants de l'architecture de l'entrepôt de données: 1) Base de données 2) Outils ETL 3) Méta-données 4) Outils de requête 5) DataMarts
  • Il s’agit de quatre grandes catégories d’outils de requête: 1. Requêtes et rapports, outils 2. Outils de développement d’applications, 3. Outils d'exploration de données 4. Outils OLAP
  • Les outils de sourcing, de transformation et de migration des données sont utilisés pour effectuer toutes les conversions et résumés.
  • Dans l'architecture de l'entrepôt de données, les métadonnées jouent un rôle important car elles spécifient la source, l'utilisation, les valeurs et les fonctionnalités des données de l'entrepôt de données.