Top 25 des questions d'entrevue de test ETL & Réponses

Vous trouverez ci-dessous des questions fréquemment posées lors d'entretiens pour les novices ainsi que pour les testeurs et développeurs ETL expérimentés.

1) Qu'est-ce que l'ETL?

Dans l'architecture d'entreposage de données, ETL est un composant important, qui gère les données de tout processus métier. ETL signifie Extraire, Transformer et Charger . Extract effectue le processus de lecture des données à partir d'une base de données. Transform convertit les données dans un format qui pourrait être approprié pour le reporting et l'analyse. Pendant que, load effectue le processus d'écriture des données dans la base de données cible.

2) Expliquez ce que comprennent les opérations de test ETL?

Les tests ETL comprennent

Vérifiez si les données se transforment correctement en fonction des besoins de l'entreprise
Vérifiez que les données projetées sont chargées dans l'entrepôt de données sans troncature ni perte de données
Assurez-vous que l'application ETL signale des données non valides et les remplace par les valeurs par défaut
Assurez-vous que les données se chargent à la période prévue pour améliorer l'évolutivité et les performances

3) Mentionnez quels sont les types d'applications d'entrepôt de données et quelle est la différence entre l'exploration de données et l'entreposage de données?

Les types d'applications d'entrepôt de données sont

Traitement des informations
Traitement analytique
Exploration de données

L'exploration de données peut être définie comme le processus d'extraction d'informations prédictives cachées à partir de grandes bases de données et d'interpréter les données, tandis que l'entreposage de données peut utiliser une mine de données pour un traitement analytique des données plus rapidement. L'entreposage de données est le processus d'agrégation de données provenant de plusieurs sources dans un référentiel commun

4) Quels sont les différents outils utilisés dans ETL?

Flux de décision Cognos
Oracle Warehouse Builder
Objets métier XI
Entrepôt commercial SAS
Serveur SAS Enterprise ETL

5) Qu'est-ce qu'un fait? Quels sont les types de faits?

C'est un composant central d'un modèle multidimensionnel qui contient les mesures à analyser. Les faits sont liés aux dimensions.

Les types de faits sont

Faits additifs
Faits semi-additifs
Faits non additifs

6) Expliquez ce que sont les cubes et les cubes OLAP?

Les cubes sont des unités de traitement de données composées de tables de faits et de dimensions provenant de l'entrepôt de données. Il fournit une analyse multidimensionnelle.

OLAP signifie Online Analytics Processing, et le cube OLAP stocke des données volumineuses sous une forme multidimensionnelle à des fins de reporting. Il se compose de faits appelés mesures catégorisées par dimensions.

7) Expliquez ce qu'est le niveau de traçage et quels sont les types?

Le niveau de suivi est la quantité de données stockées dans les fichiers journaux. Le niveau de suivi peut être classé en deux Normal et Verbose. Le niveau normal explique le niveau de traçage de manière détaillée tandis que le niveau détaillé explique les niveaux de traçage à chaque ligne.

8) Expliquez ce qu'est le Grain of Fact?

Le fait de grain peut être défini comme le niveau auquel les informations de fait sont stockées. Il est également connu sous le nom de granularité des faits

9) Expliquez ce qu'est un schéma factuel et qu'est-ce que les mesures?

Une table de faits sans mesures est appelée table de faits sans faits. Il peut afficher le nombre d'événements survenus. Par exemple, il est utilisé pour enregistrer un événement tel que le nombre d'employés dans une entreprise.

Les données numériques basées sur les colonnes d'une table de faits sont appelées mesures

10) Expliquez ce qu'est la transformation?

Une transformation est un objet de référentiel qui génère, modifie ou transmet des données. Les transformations sont de deux types Active et Passive

11) Expliquez l'utilisation de la transformation de recherche?

La transformation de recherche est utile pour

Obtenir une valeur associée à partir d'une table à l'aide d'une valeur de colonne
Mettre à jour la table des dimensions à évolution lente
Vérifiez si des enregistrements existent déjà dans la table

12) Expliquez ce qu'est le partitionnement, le partitionnement par hachage et le partitionnement circulaire?

Pour améliorer les performances, les transactions sont subdivisées, c'est ce qu'on appelle le partitionnement. Le partitionnement permet à Informatica Server de créer plusieurs connexions à diverses sources

Les types de partitions sont

Partitionnement à la ronde:

Par informatica, les données sont réparties uniformément entre toutes les partitions
Dans chaque partition où le nombre de lignes à traiter est approximativement le même, ce partitionnement est applicable

Partitionnement de hachage:

Dans le but de partitionner les clés pour regrouper les données entre les partitions, le serveur Informatica applique une fonction de hachage
Il est utilisé pour garantir que les processus des groupes de lignes avec la même clé de partitionnement dans la même partition doivent être assurés

13) Mentionner quel est l'avantage d'utiliser l'adaptateur de destination DataReader?

L'avantage de l'utilisation de l'adaptateur de destination DataReader est qu'il remplit un jeu d'enregistrements ADO (composé d'enregistrements et de colonnes) en mémoire et expose les données de la tâche DataFlow en implémentant l'interface DataReader, afin qu'une autre application puisse consommer les données.

14) À l'aide de SSIS (SQL Server Integration Service), quelles sont les manières possibles de mettre à jour la table?

Pour mettre à jour la table à l'aide de SSIS, les méthodes possibles sont:

Utilisez une commande SQL
Utiliser une table de préparation
Utiliser le cache
Utiliser la tâche de script
Utiliser le nom complet de la base de données pour la mise à jour si MSSQL est utilisé

15) Si vous avez une source non OLEDB (Object Linking and Embedding Database) pour la recherche, que feriez-vous?

Dans le cas où vous avez une source non-OLEBD pour la recherche, vous devez utiliser le cache pour charger les données et les utiliser comme source

16) Dans quel cas utilisez-vous le cache dynamique et le cache statique dans les transformations connectées et non connectées?

Le cache dynamique est utilisé lorsque vous devez mettre à jour la table principale et les dimensions à changement lent (SCD) de type 1
Pour les fichiers plats, le cache statique est utilisé

17) Expliquez quelles sont les différences entre la recherche non connectée et connectée?

Recherche connectée	Recherche non connectée
La recherche connectée participe au mappage	- Il est utilisé lorsque la fonction de recherche est utilisée au lieu d'une transformation d'expression lors du mappage
Plusieurs valeurs peuvent être renvoyées	- Renvoie un seul port de sortie
Il peut être connecté à d'autres transformations et renvoie une valeur	Une autre transformation ne peut pas être connectée
Le cache statique ou dynamique peut être utilisé pour la recherche connectée	Non connecté en tant que cache statique uniquement
La recherche connectée prend en charge les valeurs par défaut définies par l'utilisateur	La recherche non connectée ne prend pas en charge les valeurs par défaut définies par l'utilisateur
Dans Connected Lookup, plusieurs colonnes peuvent être renvoyées à partir de la même ligne ou être insérées dans le cache de recherche dynamique	La recherche non connectée désigne un port de retour et renvoie une colonne de chaque ligne

18) Expliquez ce qu'est la vue de source de données?

Une vue de source de données permet de définir le schéma relationnel qui sera utilisé dans les bases de données des services d'analyse. Plutôt que directement à partir d'objets de source de données, les dimensions et les cubes sont créés à partir des vues de source de données.

19) Expliquez quelle est la différence entre les outils OLAP et les outils ETL?

La différence entre les outils ETL et OLAP est que

L'outil ETL est destiné à l'extraction des données des systèmes hérités et au chargement dans une base de données spécifiée avec un processus de nettoyage des données.

Exemple: étape des données, Informatica, etc.

Alors que OLAP est destiné à des fins de rapport dans les données OLAP disponibles dans un modèle multidirectionnel.

Exemple: Business Objects, Cognos, etc.

20) Comment extraire des données SAP à l'aide d'Informatica?

Avec l'option Power Connect, vous extrayez les données SAP à l'aide d'Informatica
Installer et configurer l'outil PowerConnect
Importez la source dans l'analyseur de source. Entre Informatica et SAP Powerconnect agissent comme une passerelle. L'étape suivante consiste à générer le code ABAP pour le mappage, alors seule informatica peut extraire des données de SAP
Pour connecter et importer des sources à partir de systèmes externes, Power Connect est utilisé

21) Mentionner quelle est la différence entre Power Mart et Power Center?

Centre d'alimentation	Power Mart
Supposons de traiter un volume énorme de données	Supposons de traiter un faible volume de données
Il prend en charge les sources ERP telles que SAP, people soft, etc.	Il ne prend pas en charge les sources ERP
Il prend en charge le référentiel local et global	Il prend en charge le référentiel local
Il convertit le référentiel local en référentiel global	Il n'a pas de spécification pour convertir le référentiel local en référentiel global

22) Expliquez ce qu'est l'aire de rassemblement et quel est le but d'une aire de rassemblement?

Le transfert des données est une zone dans laquelle vous stockez les données temporairement sur le serveur de l'entrepôt de données. La préparation des données comprend les étapes suivantes

Extraction des données sources et transformation des données (restructuration)
Transformation des données (nettoyage des données, transformation de la valeur)
Attributions de clés de substitution

23) Qu'est-ce que le schéma de bus?

Pour que les différents processus métier identifient les dimensions communes, le schéma BUS est utilisé. Il est livré avec des dimensions conformes avec une définition standardisée de l'information

24) Expliquez ce qu'est la purge des données?

La purge des données est un processus de suppression de données de l'entrepôt de données. Il supprime les données indésirables comme les lignes avec des valeurs nulles ou des espaces supplémentaires.

25) Expliquez ce que sont les objets de schéma?

Les objets de schéma sont la structure logique qui fait directement référence aux données des bases de données. Les objets de schéma comprennent des tables, des vues, des synonymes de séquence, des index, des clusters, des packages de fonctions et des liens de base de données

26) Expliquez ces termes Session, Worklet, Mapplet et Workflow?

Mapplet: il organise ou crée des ensembles de transformation
Worklet: il représente un ensemble spécifique de tâches données
Workflow: c'est un ensemble d'instructions qui indiquent au serveur comment exécuter des tâches
Session: il s'agit d'un ensemble de paramètres qui indique au serveur comment déplacer les données des sources vers la cible

Téléchargement PDF gratuit: Questions et réponses pour l'entrevue de test ETL