Vous trouverez ci-dessous des questions fréquemment posées lors d'entretiens pour les novices ainsi que pour les testeurs et développeurs ETL expérimentés.
1) Qu'est-ce que l'ETL?
Dans l'architecture d'entreposage de données, ETL est un composant important, qui gère les données de tout processus métier. ETL signifie Extraire, Transformer et Charger . Extract effectue le processus de lecture des données à partir d'une base de données. Transform convertit les données dans un format qui pourrait être approprié pour le reporting et l'analyse. Pendant que, load effectue le processus d'écriture des données dans la base de données cible.
2) Expliquez ce que comprennent les opérations de test ETL?
Les tests ETL comprennent
- Vérifiez si les données se transforment correctement en fonction des besoins de l'entreprise
- Vérifiez que les données projetées sont chargées dans l'entrepôt de données sans troncature ni perte de données
- Assurez-vous que l'application ETL signale des données non valides et les remplace par les valeurs par défaut
- Assurez-vous que les données se chargent à la période prévue pour améliorer l'évolutivité et les performances
3) Mentionnez quels sont les types d'applications d'entrepôt de données et quelle est la différence entre l'exploration de données et l'entreposage de données?
Les types d'applications d'entrepôt de données sont
- Traitement des informations
- Traitement analytique
- Exploration de données
L'exploration de données peut être définie comme le processus d'extraction d'informations prédictives cachées à partir de grandes bases de données et d'interpréter les données, tandis que l'entreposage de données peut utiliser une mine de données pour un traitement analytique des données plus rapidement. L'entreposage de données est le processus d'agrégation de données provenant de plusieurs sources dans un référentiel commun
4) Quels sont les différents outils utilisés dans ETL?
- Flux de décision Cognos
- Oracle Warehouse Builder
- Objets métier XI
- Entrepôt commercial SAS
- Serveur SAS Enterprise ETL
5) Qu'est-ce qu'un fait? Quels sont les types de faits?
C'est un composant central d'un modèle multidimensionnel qui contient les mesures à analyser. Les faits sont liés aux dimensions.
Les types de faits sont
- Faits additifs
- Faits semi-additifs
- Faits non additifs
6) Expliquez ce que sont les cubes et les cubes OLAP?
Les cubes sont des unités de traitement de données composées de tables de faits et de dimensions provenant de l'entrepôt de données. Il fournit une analyse multidimensionnelle.
OLAP signifie Online Analytics Processing, et le cube OLAP stocke des données volumineuses sous une forme multidimensionnelle à des fins de reporting. Il se compose de faits appelés mesures catégorisées par dimensions.
7) Expliquez ce qu'est le niveau de traçage et quels sont les types?
Le niveau de suivi est la quantité de données stockées dans les fichiers journaux. Le niveau de suivi peut être classé en deux Normal et Verbose. Le niveau normal explique le niveau de traçage de manière détaillée tandis que le niveau détaillé explique les niveaux de traçage à chaque ligne.
8) Expliquez ce qu'est le Grain of Fact?
Le fait de grain peut être défini comme le niveau auquel les informations de fait sont stockées. Il est également connu sous le nom de granularité des faits
9) Expliquez ce qu'est un schéma factuel et qu'est-ce que les mesures?
Une table de faits sans mesures est appelée table de faits sans faits. Il peut afficher le nombre d'événements survenus. Par exemple, il est utilisé pour enregistrer un événement tel que le nombre d'employés dans une entreprise.
Les données numériques basées sur les colonnes d'une table de faits sont appelées mesures
10) Expliquez ce qu'est la transformation?
Une transformation est un objet de référentiel qui génère, modifie ou transmet des données. Les transformations sont de deux types Active et Passive
11) Expliquez l'utilisation de la transformation de recherche?
La transformation de recherche est utile pour
- Obtenir une valeur associée à partir d'une table à l'aide d'une valeur de colonne
- Mettre à jour la table des dimensions à évolution lente
- Vérifiez si des enregistrements existent déjà dans la table
12) Expliquez ce qu'est le partitionnement, le partitionnement par hachage et le partitionnement circulaire?
Pour améliorer les performances, les transactions sont subdivisées, c'est ce qu'on appelle le partitionnement. Le partitionnement permet à Informatica Server de créer plusieurs connexions à diverses sources
Les types de partitions sont
Partitionnement à la ronde:
- Par informatica, les données sont réparties uniformément entre toutes les partitions
- Dans chaque partition où le nombre de lignes à traiter est approximativement le même, ce partitionnement est applicable
Partitionnement de hachage:
- Dans le but de partitionner les clés pour regrouper les données entre les partitions, le serveur Informatica applique une fonction de hachage
- Il est utilisé pour garantir que les processus des groupes de lignes avec la même clé de partitionnement dans la même partition doivent être assurés
13) Mentionner quel est l'avantage d'utiliser l'adaptateur de destination DataReader?
L'avantage de l'utilisation de l'adaptateur de destination DataReader est qu'il remplit un jeu d'enregistrements ADO (composé d'enregistrements et de colonnes) en mémoire et expose les données de la tâche DataFlow en implémentant l'interface DataReader, afin qu'une autre application puisse consommer les données.
14) À l'aide de SSIS (SQL Server Integration Service), quelles sont les manières possibles de mettre à jour la table?
Pour mettre à jour la table à l'aide de SSIS, les méthodes possibles sont:
- Utilisez une commande SQL
- Utiliser une table de préparation
- Utiliser le cache
- Utiliser la tâche de script
- Utiliser le nom complet de la base de données pour la mise à jour si MSSQL est utilisé
15) Si vous avez une source non OLEDB (Object Linking and Embedding Database) pour la recherche, que feriez-vous?
Dans le cas où vous avez une source non-OLEBD pour la recherche, vous devez utiliser le cache pour charger les données et les utiliser comme source
16) Dans quel cas utilisez-vous le cache dynamique et le cache statique dans les transformations connectées et non connectées?
- Le cache dynamique est utilisé lorsque vous devez mettre à jour la table principale et les dimensions à changement lent (SCD) de type 1
- Pour les fichiers plats, le cache statique est utilisé
17) Expliquez quelles sont les différences entre la recherche non connectée et connectée?
Recherche connectée |
Recherche non connectée |
|
- Il est utilisé lorsque la fonction de recherche est utilisée au lieu d'une transformation d'expression lors du mappage |
|
- Renvoie un seul port de sortie |
|
|
|
|
|
|
|
|
18) Expliquez ce qu'est la vue de source de données?
Une vue de source de données permet de définir le schéma relationnel qui sera utilisé dans les bases de données des services d'analyse. Plutôt que directement à partir d'objets de source de données, les dimensions et les cubes sont créés à partir des vues de source de données.
19) Expliquez quelle est la différence entre les outils OLAP et les outils ETL?
La différence entre les outils ETL et OLAP est que
L'outil ETL est destiné à l'extraction des données des systèmes hérités et au chargement dans une base de données spécifiée avec un processus de nettoyage des données.
Exemple: étape des données, Informatica, etc.
Alors que OLAP est destiné à des fins de rapport dans les données OLAP disponibles dans un modèle multidirectionnel.
Exemple: Business Objects, Cognos, etc.
20) Comment extraire des données SAP à l'aide d'Informatica?
- Avec l'option Power Connect, vous extrayez les données SAP à l'aide d'Informatica
- Installer et configurer l'outil PowerConnect
- Importez la source dans l'analyseur de source. Entre Informatica et SAP Powerconnect agissent comme une passerelle. L'étape suivante consiste à générer le code ABAP pour le mappage, alors seule informatica peut extraire des données de SAP
- Pour connecter et importer des sources à partir de systèmes externes, Power Connect est utilisé
21) Mentionner quelle est la différence entre Power Mart et Power Center?
Centre d'alimentation |
Power Mart |
|
|
|
|
|
|
|
|
22) Expliquez ce qu'est l'aire de rassemblement et quel est le but d'une aire de rassemblement?
Le transfert des données est une zone dans laquelle vous stockez les données temporairement sur le serveur de l'entrepôt de données. La préparation des données comprend les étapes suivantes
- Extraction des données sources et transformation des données (restructuration)
- Transformation des données (nettoyage des données, transformation de la valeur)
- Attributions de clés de substitution
23) Qu'est-ce que le schéma de bus?
Pour que les différents processus métier identifient les dimensions communes, le schéma BUS est utilisé. Il est livré avec des dimensions conformes avec une définition standardisée de l'information
24) Expliquez ce qu'est la purge des données?
La purge des données est un processus de suppression de données de l'entrepôt de données. Il supprime les données indésirables comme les lignes avec des valeurs nulles ou des espaces supplémentaires.
25) Expliquez ce que sont les objets de schéma?
Les objets de schéma sont la structure logique qui fait directement référence aux données des bases de données. Les objets de schéma comprennent des tables, des vues, des synonymes de séquence, des index, des clusters, des packages de fonctions et des liens de base de données
26) Expliquez ces termes Session, Worklet, Mapplet et Workflow?
- Mapplet: il organise ou crée des ensembles de transformation
- Worklet: il représente un ensemble spécifique de tâches données
- Workflow: c'est un ensemble d'instructions qui indiquent au serveur comment exécuter des tâches
- Session: il s'agit d'un ensemble de paramètres qui indique au serveur comment déplacer les données des sources vers la cible
Téléchargement PDF gratuit: Questions et réponses pour l'entrevue de test ETL