Schéma en étoile et en flocon de neige dans l'entrepôt de données avec des exemples

Table des matières:

Anonim

Qu'est-ce que le schéma multidimensionnel?

Le schéma multidimensionnel est spécialement conçu pour modéliser les systèmes d'entrepôt de données. Les schémas sont conçus pour répondre aux besoins uniques des très grandes bases de données conçues à des fins analytiques (OLAP).

Types de schéma d'entrepôt de données:

Voici 3 principaux types de schémas multidimensionnels, chacun ayant ses avantages uniques.

  • Schéma en étoile
  • Schéma de flocon de neige
  • Schéma de la galaxie

Dans ce tutoriel, vous en apprendrez plus sur-

  • Qu'est-ce qu'un schéma en étoile?
  • Qu'est-ce qu'un schéma de flocon de neige?
  • Star Schema Vs Snowflake Schema: différences clés
  • Qu'est-ce qu'un schéma Galaxy?
  • Qu'est-ce que le schéma Star Cluster?

Qu'est-ce qu'un schéma en étoile?

Schéma en étoile dans l'entrepôt de données, dans lequel le centre de l'étoile peut avoir une table de faits et plusieurs tables de dimension associées. Il est connu sous le nom de schéma en étoile car sa structure ressemble à une étoile. Le modèle de données Star Schema est le type le plus simple de schéma Data Warehouse. Il est également connu sous le nom de schéma de jointure en étoile et est optimisé pour l'interrogation de grands ensembles de données.

Dans l'exemple de schéma en étoile suivant, la table de faits est au centre et contient les clés de chaque table de dimension comme Dealer_ID, Model ID, Date_ID, Product_ID, Branch_ID et d'autres attributs tels que Unités vendues et revenu.

Exemple de diagramme de schéma en étoile

Caractéristiques du schéma en étoile:

  • Chaque dimension d'un schéma en étoile est représentée avec la seule table à une dimension.
  • La table de dimension doit contenir l'ensemble des attributs.
  • La table de dimension est jointe à la table de faits à l'aide d'une clé étrangère
  • Les tables de dimensions ne sont pas jointes les unes aux autres
  • La table de faits contiendrait la clé et la mesure
  • Le schéma Star est facile à comprendre et permet une utilisation optimale du disque.
  • Les tables de dimension ne sont pas normalisées. Par exemple, dans la figure ci-dessus, Country_ID n'a pas de table de recherche de pays comme le ferait une conception OLTP.
  • Le schéma est largement pris en charge par BI Tools

Qu'est-ce qu'un schéma de flocon de neige?

Le schéma de flocon de neige dans l'entrepôt de données est un arrangement logique de tables dans une base de données multidimensionnelle de sorte que le diagramme ER ressemble à une forme de flocon de neige. Un schéma de flocon de neige est une extension d'un schéma en étoile et ajoute des dimensions supplémentaires. Les tables de dimension sont normalisées, ce qui divise les données en tables supplémentaires.

Dans l'exemple de schéma de flocon de neige suivant, Country est ensuite normalisé dans une table individuelle.

Exemple de schéma de flocon de neige

Caractéristiques du schéma de flocon de neige:

  • Le principal avantage du schéma de flocon de neige est qu'il utilise un espace disque plus petit.
  • Une dimension plus facile à implémenter est ajoutée au schéma
  • En raison de plusieurs tables, les performances des requêtes sont réduites
  • Le principal défi auquel vous serez confronté lors de l'utilisation du schéma de flocon de neige est que vous devez effectuer plus d'efforts de maintenance en raison du plus grand nombre de tables de recherche.

Star Schema Vs Snowflake Schema: différences clés

Voici une différence clé entre le schéma en étoile et le schéma en flocon de neige:

Schéma en étoile Schéma de flocon de neige
Les hiérarchies des dimensions sont stockées dans la table dimensionnelle. Les hiérarchies sont divisées en tableaux séparés.
Il contient une table de faits entourée de tables de dimension. Une table de faits entourée d'une table de dimension, elle-même entourée d'une table de dimension
Dans un schéma en étoile, une seule jointure crée la relation entre la table de faits et les tables de dimension. Un schéma de flocon de neige nécessite de nombreuses jointures pour récupérer les données.
Conception de base de données simple. Conception de base de données très complexe.
La structure et la requête des données dénormalisées s'exécutent également plus rapidement. Structure de données normalisée.
Haut niveau de redondance des données Redondance des données de très bas niveau
La table à dimension unique contient des données agrégées. Données divisées en différentes tables de dimensions.
Le traitement du cube est plus rapide. Le traitement du cube peut être lent en raison de la jointure complexe.
Offre des requêtes plus performantes à l'aide de l'optimisation des requêtes de jointure en étoile. Les tableaux peuvent être connectés avec plusieurs dimensions. Le schéma Snowflake est représenté par une table de faits centralisée qui n'est probablement pas liée à plusieurs dimensions.

Qu'est-ce qu'un schéma Galaxy?

Un schéma Galaxy contient deux tables de faits qui partagent des tables de dimension entre elles. Il est également appelé schéma de constellation des faits. Le schéma est considéré comme une collection d'étoiles d'où le nom Galaxy Schema.

Exemple de schéma Galaxy

Comme vous pouvez le voir dans l'exemple ci-dessus, il existe deux tableaux de faits

  1. Revenu
  2. Produit.

Dans les partages de schéma Galaxy, les dimensions sont appelées Dimensions conformes.

Caractéristiques du schéma Galaxy:

  • Les dimensions de ce schéma sont séparées en dimensions distinctes basées sur les différents niveaux de hiérarchie.
  • Par exemple, si la géographie a quatre niveaux de hiérarchie comme la région, le pays, l'état et la ville, le schéma Galaxy doit avoir quatre dimensions.
  • De plus, il est possible de construire ce type de schéma en divisant le schéma à une étoile en plusieurs schémas en étoile.
  • Les dimensions sont grandes dans ce schéma qui est nécessaire pour construire en fonction des niveaux de hiérarchie.
  • Ce schéma est utile pour agréger des tables de faits pour une meilleure compréhension.

Qu'est-ce que le schéma Star Cluster?

Le schéma Snowflake contient des hiérarchies entièrement développées. Cependant, cela peut ajouter de la complexité au schéma et nécessite des jointures supplémentaires. D'autre part, le schéma en étoile contient des hiérarchies entièrement réduites, ce qui peut conduire à la redondance. Ainsi, la meilleure solution peut être un équilibre entre ces deux schémas qui est la conception de Schéma Star Cluster.

Exemple de schéma de cluster en étoile

Les dimensions qui se chevauchent peuvent être trouvées sous forme de fourches dans les hiérarchies. Un fork se produit lorsqu'une entité agit en tant que parent dans deux hiérarchies dimensionnelles différentes. Les entités de fork sont ensuite identifiées comme classification avec des relations un-à-plusieurs.

Résumé:

  • Le schéma multidimensionnel est spécialement conçu pour modéliser les systèmes d'entrepôt de données
  • Le schéma en étoile est le type le plus simple de schéma Data Warehouse. Il est connu sous le nom de schéma en étoile car sa structure ressemble à une étoile.
  • Un schéma de flocon de neige est une extension d'un schéma en étoile et ajoute des dimensions supplémentaires. On l'appelle flocon de neige car son diagramme ressemble à un flocon de neige.
  • Dans un schéma en étoile, une seule jointure définit la relation entre la table de faits et les tables de dimension.
  • Le schéma en étoile contient une table de faits entourée de tables de dimension.
  • Le schéma Snowflake est entouré d'une table de dimension qui est à son tour entourée d'une table de dimension
  • Un schéma de flocon de neige nécessite de nombreuses jointures pour récupérer les données.
  • Un schéma Galaxy contient deux tables de faits qui partagent des tables de dimension. Il est également appelé schéma de constellation des faits.
  • Le schéma de cluster en étoile contient les attributs du schéma en étoile et en flocon de neige.