Voici les questions fréquemment posées pour les entretiens d'ingénieur de données pour les nouveaux arrivants ainsi que pour les candidats expérimentés pour obtenir le bon emploi.
1) Expliquez l'ingénierie des données.
L'ingénierie des données est un terme utilisé dans le Big Data. Il se concentre sur l'application de la collecte de données et de la recherche. Les données générées à partir de diverses sources ne sont que des données brutes. L'ingénierie des données permet de convertir ces données brutes en informations utiles.
2) Qu'est-ce que la modélisation des données?
La modélisation des données est la méthode de documentation de la conception de logiciels complexes sous forme de diagramme afin que tout le monde puisse facilement la comprendre. Il s'agit d'une représentation conceptuelle d'objets de données associés entre divers objets de données et les règles.
3) Répertorier différents types de schémas de conception dans la modélisation des données
Il existe principalement deux types de schémas dans la modélisation de données: 1) le schéma en étoile et 2) le schéma Snowflake.
4) Distinguer les données structurées et non structurées
Voici une différence entre les données structurées et non structurées:
Paramètre | Données structurées | Données non structurées |
Espace de rangement | SGBD | Structures de fichiers non gérées |
Standard | ADO.net, ODBC et SQL | STMP, XML, CSV et SMS |
Outil d'intégration | ELT (Extraire, Transformer, Charger) | Saisie manuelle des données ou traitement par lots comprenant des codes |
mise à l'échelle | La mise à l'échelle du schéma est difficile | La mise à l'échelle est très simple. |
5) Expliquer tous les composants d'une application Hadoop
Voici les composants de l'application Hadoop:
- Hadoop Common: il s'agit d'un ensemble commun d'utilitaires et de bibliothèques utilisés par Hadoop.
- HDFS: Cette application Hadoop concerne le système de fichiers dans lequel les données Hadoop sont stockées. C'est un système de fichiers distribué ayant une bande passante élevée.
- Hadoop MapReduce: Il est basé sur l'algorithme de fourniture de traitement de données à grande échelle.
- Hadoop YARN: il est utilisé pour la gestion des ressources au sein du cluster Hadoop. Il peut également être utilisé pour la planification des tâches pour les utilisateurs.
6) Qu'est-ce que NameNode?
C'est la pièce maîtresse de HDFS. Il stocke les données HDFS et suit divers fichiers à travers les clusters. Ici, les données réelles ne sont pas stockées. Les données sont stockées dans DataNodes.
7) Définir le streaming Hadoop
C'est un utilitaire qui permet la création de la carte et réduit les travaux et les soumet à un cluster spécifique.
8) Quelle est la forme complète de HDFS?
HDFS signifie Hadoop Distributed File System.
9) Définir Block and Block Scanner dans HDFS
Les blocs sont la plus petite unité d'un fichier de données. Hadoop divise automatiquement les gros fichiers en petits morceaux.
Block Scanner vérifie la liste des blocs qui sont présentés sur un DataNode.
10) Quelles sont les étapes qui se produisent lorsque Block Scanner détecte un bloc de données corrompu?
Voici les étapes qui se produisent lorsque Block Scanner trouve un bloc de données corrompu:
1) Tout d'abord, lorsque Block Scanner trouve un bloc de données corrompu, DataNode rapporte à NameNode
2) NameNode lance le processus de création d'une nouvelle réplique à l'aide d'une réplique du bloc corrompu.
3) Le nombre de répliques des répliques correctes tente de correspondre au facteur de réplication. Si la correspondance trouvée, le bloc de données corrompu ne sera pas supprimé.
11) Nommez deux messages que NameNode obtient de DataNode?
NameNode obtient deux messages de DataNode. Ce sont 1) rapport de bloc et 2) battement de cœur.
12) Liste de divers fichiers de configuration XML dans Hadoop?
Il existe cinq fichiers de configuration XML dans Hadoop:
- Site Mapred
- Site principal
- Site HDFS
- Site de fil
13) Quels sont les quatre V du Big Data?
Les quatre V du Big Data sont:
- Rapidité
- Variété
- Le volume
- Véracité
14) Expliquez les fonctionnalités de Hadoop
Les caractéristiques importantes de Hadoop sont:
- C'est un framework open-source qui est disponible en freeware.
- Hadoop est compatible avec les nombreux types de matériel et facile d'accès au nouveau matériel dans un nœud spécifique.
- Hadoop prend en charge un traitement distribué plus rapidement des données.
- Il stocke les données dans le cluster, qui est indépendant du reste des opérations.
- Hadoop permet de créer 3 répliques pour chaque bloc avec différents nœuds.
15) Expliquez les principales méthodes de Reducer
- setup (): Il est utilisé pour configurer des paramètres tels que la taille des données d'entrée et le cache distribué.
- cleanup (): Cette méthode est utilisée pour nettoyer les fichiers temporaires.
- réduire (): c'est un cœur du réducteur qui est appelé une fois par touche avec la tâche réduite associée
16) Quelle est l'abréviation de COSHH?
L'abréviation de COSHH est Calendrier basé sur la classification et l'optimisation pour les systèmes Hadoop hétérogènes.
17) Expliquer le schéma en étoile
Le schéma en étoile ou le schéma de jointure en étoile est le type le plus simple de schéma de l'entrepôt de données. Il est connu sous le nom de schéma en étoile car sa structure est comme une étoile. Dans le schéma en étoile, le centre de l'étoile peut avoir une table de faits et plusieurs tables de dimensions associées. Ce schéma est utilisé pour interroger de grands ensembles de données.
18) Comment déployer une solution Big Data?
Suivez les étapes suivantes pour déployer une solution Big Data.
1) Intégrez des données à l'aide de sources de données telles que SGBDR, SAP, MySQL, Salesforce
2) Stockez les données extraites dans une base de données NoSQL ou HDFS.
3) Déployez une solution Big Data à l'aide de cadres de traitement tels que Pig, Spark et MapReduce.
19) Expliquez FSCK
La vérification du système de fichiers ou FSCK est une commande utilisée par HDFS. La commande FSCK est utilisée pour vérifier les incohérences et les problèmes dans le fichier.
20) Expliquer le schéma de flocon de neige
Un schéma de flocon de neige est une extension d'un schéma en étoile et ajoute des dimensions supplémentaires. C'est ce qu'on appelle un flocon de neige car son diagramme ressemble à un flocon de neige. Les tables de dimension sont normalisées, ce qui divise les données en tables supplémentaires.
21) Distinguer le schéma en étoile et en flocon de neige
Star | Schéma SnowFlake |
Les hiérarchies de dimensions sont stockées dans une table dimensionnelle. | Chaque hiérarchie est stockée dans des tables séparées. |
Les chances de redondance des données sont élevées | Les chances de redondance des données sont faibles. |
Il a une conception DB très simple | Il a une conception de base de données complexe |
Fournit un moyen plus rapide pour le traitement des cubes | Le traitement du cube est lent en raison de la jointure complexe. |
22) Expliquer le système de fichiers distribué Hadoop
Hadoop fonctionne avec des systèmes de fichiers distribués évolutifs tels que S3, HFTP FS, FS et HDFS. Le système de fichiers distribués Hadoop est créé sur le système de fichiers Google. Ce système de fichiers est conçu de manière à pouvoir s'exécuter facilement sur un grand cluster du système informatique.
23) Expliquer les principales responsabilités d'un ingénieur de données
Les ingénieurs de données ont de nombreuses responsabilités. Ils gèrent le système source de données. Les ingénieurs de données simplifient la structure de données complexe et empêchent la redondance des données. Plusieurs fois, ils fournissent également l'ELT et la transformation des données.
24) Quelle est la forme complète de YARN?
La forme complète de YARN est encore un autre négociateur de ressources.
25) Liste des différents modes dans Hadoop
Les modes dans Hadoop sont 1) Mode autonome 2) Mode pseudo-distribué 3) Mode entièrement distribué.
26) Comment assurer la sécurité dans Hadoop?
Effectuez les étapes suivantes pour assurer la sécurité dans Hadoop:
1) La première étape consiste à sécuriser le canal d'authentification du client auprès du serveur. Fournir horodaté au client.
2) Dans la deuxième étape, le client utilise l'horodatage reçu pour demander à TGS un ticket de service.
3) Dans la dernière étape, le client utilise un ticket de service pour l'auto-authentification auprès d'un serveur spécifique.
27) Qu'est-ce que Heartbeat dans Hadoop?
Dans Hadoop, NameNode et DataNode communiquent entre eux. Heartbeat est le signal envoyé par DataNode à NameNode sur une base régulière pour montrer sa présence.
28) Distinguer NAS et DAS dans Hadoop
NAS | DAS |
La capacité de stockage est de 10 9 à 10 12 en octets. | La capacité de stockage est de 10 9 en octets. |
Le coût de gestion par Go est modéré. | Le coût de gestion par Go est élevé. |
Transmettez les données via Ethernet ou TCP / IP. | Transmettre des données en utilisant IDE / SCSI |
29) Liste des champs ou des langues importants utilisés par l'ingénieur de données
Voici quelques champs ou langues utilisés par l'ingénieur de données:
- Probabilité et algèbre linéaire
- Apprentissage automatique
- Analyse des tendances et régression
- Bases de données Hive QL et SQL
30) Qu'est-ce que le Big Data?
Il s'agit d'une grande quantité de données structurées et non structurées, qui ne peuvent pas être facilement traitées par les méthodes de stockage de données traditionnelles. Les ingénieurs de données utilisent Hadoop pour gérer le Big Data.
31) Qu'est-ce que la planification FIFO?
Il s'agit d'un algorithme de planification de travaux Hadoop. Dans cette planification FIFO, un rapporteur sélectionne les travaux dans une file d'attente de travail, le travail le plus ancien en premier.
32) Mentionnez les numéros de port par défaut sur lesquels le traqueur de tâches, le NameNode et le traqueur de travaux s'exécutent dans Hadoop
Les numéros de port par défaut sur lesquels le traqueur de tâches, NameNode et le traqueur de travaux s'exécutent dans Hadoop sont les suivants:
- Le suivi des tâches fonctionne sur le port 50060
- NameNode fonctionne sur le port 50070
- Job Tracker fonctionne sur le port 50030
33) Comment désactiver le scanner de blocs sur le nœud de données HDFS
Afin de désactiver Block Scanner sur le nœud de données HDFS, définissez dfs.datanode.scan.period.hours sur 0.
34) Comment définir la distance entre deux nœuds dans Hadoop?
La distance est égale à la somme de la distance aux nœuds les plus proches. La méthode getDistance () est utilisée pour calculer la distance entre deux nœuds.
35) Pourquoi utiliser du matériel standard dans Hadoop?
Le matériel de base est facile à obtenir et abordable. C'est un système compatible avec Windows, MS-DOS ou Linux.
36) Définir le facteur de réplication dans HDFS
Le facteur de réplication est un nombre total de répliques d'un fichier dans le système.
37) Quelles données sont stockées dans NameNode?
Namenode stocke les métadonnées pour le HDFS comme les informations de bloc et les informations d'espace de noms.
38) Qu'entendez-vous par Rack Awareness?
Dans le cluster Haddop, Namenode utilise le Datanode pour améliorer le trafic réseau lors de la lecture ou de l'écriture de tout fichier plus proche du rack voisin pour la demande de lecture ou d'écriture. Namenode gère l'ID de rack de chaque DataNode pour obtenir des informations sur le rack. Ce concept s'appelle Rack Awareness dans Hadoop.
39) Quelles sont les fonctions de Secondary NameNode?
Voici les fonctions de Secondary NameNode:
- FsImage qui stocke une copie du fichier EditLog et FsImage.
- NameNode crash: si le NameNode se bloque, alors FsImage de NameNode secondaire peut être utilisé pour recréer le NameNode.
- Point de contrôle: il est utilisé par le nœud de nom secondaire pour confirmer que les données ne sont pas corrompues dans HDFS.
- Mise à jour: il met automatiquement à jour le fichier EditLog et FsImage. Il permet de garder le fichier FsImage sur le nœud de nom secondaire mis à jour.
40) Que se passe-t-il lorsque NameNode est en panne et que l'utilisateur soumet un nouveau travail?
NameNode est le point de défaillance unique dans Hadoop afin que l'utilisateur ne puisse pas soumettre un nouveau travail ne peut pas s'exécuter. Si le NameNode est en panne, le travail peut échouer, car cet utilisateur doit attendre le redémarrage de NameNode avant d'exécuter un travail.
41) Quelles sont les phases de base du réducteur dans Hadoop?
Il existe trois phases de base d'un réducteur dans Hadoop:
1. Shuffle: Ici, Reducer copie la sortie de Mapper.
2. Trier: Dans le tri, Hadoop trie l'entrée dans Reducer en utilisant la même clé.
3. Réduire: dans cette phase, les valeurs de sortie associées à une clé sont réduites pour consolider les données dans la sortie finale.
42) Pourquoi Hadoop utilise-t-il l'objet Contexte?
Le framework Hadoop utilise l'objet Context avec la classe Mapper afin d'interagir avec le système restant. L'objet de contexte obtient les détails de configuration du système et le travail dans son constructeur.
Nous utilisons l'objet Context afin de transmettre les informations dans les méthodes setup (), cleanup () et map (). Cet objet rend des informations vitales disponibles pendant les opérations cartographiques.
43) Définir Combiner dans Hadoop
C'est une étape facultative entre Map et Réduire. Combiner prend la sortie de la fonction Map, crée des paires clé / valeur et la soumet à Hadoop Reducer. La tâche de Combiner est de résumer le résultat final de Map dans des comptes rendus récapitulatifs avec une clé identique.
44) Quel est le facteur de réplication par défaut disponible dans HDFS Qu'est-ce qu'il indique?
Le facteur de réplication par défaut disponible dans HDFS est de trois. Le facteur de réplication par défaut indique qu'il y aura trois répliques de chaque donnée.
45) Que voulez-vous dire par Localité de données dans Hadoop?
Dans un système Big Data, la taille des données est énorme, et c'est pourquoi il n'a pas de sens de déplacer des données sur le réseau. Désormais, Hadoop tente de rapprocher le calcul des données. De cette façon, les données restent locales à l'emplacement stocké.
46) Définir l'équilibreur dans HDFS
Dans HDFS, l'équilibreur est une administration utilisée par le personnel administratif pour rééquilibrer les données entre les DataNodes et déplace les blocs des nœuds surutilisés vers les nœuds sous-utilisés.
47) Expliquer le mode sans échec dans HDFS
Il s'agit d'un mode en lecture seule de NameNode dans un cluster. Initialement, NameNode est en Safemode. Il empêche l'écriture dans le système de fichiers en mode sécurisé. À ce stade, il collecte des données et des statistiques de tous les DataNodes.
48) Quelle est l'importance du cache distribué dans Apache Hadoop?
Hadoop dispose d'une fonction utilitaire utile appelée cache distribué qui améliore les performances des travaux en mettant en cache les fichiers utilisés par les applications. Une application peut spécifier un fichier pour le cache à l'aide de la configuration JobConf.
Le framework Hadoop fait une réplique de ces fichiers sur les nœuds sur lesquels une tâche doit être exécutée. Ceci est fait avant le début de l'exécution de la tâche. Le cache distribué prend en charge la distribution de fichiers en lecture seule ainsi que les fichiers zips et jars.
49) Qu'est-ce que Metastore dans Hive?
Il stocke le schéma ainsi que l'emplacement de la table Hive.
La table Hive définit, mappages et métadonnées stockés dans Metastore. Cela peut être stocké dans un SGBDR pris en charge par JPOX.
50) Que signifie SerDe dans Hive?
SerDe est un nom court pour Serializer ou Deserializer. Dans Hive, SerDe permet de lire les données d'une table et d'écrire dans un champ spécifique dans le format de votre choix.
51) Liste des composants disponibles dans le modèle de données Hive
Le modèle de données Hive comprend les composants suivants:
- les tables
- Partitions
- Seaux
52) Expliquez l'utilisation de Hive dans l'éco-système Hadoop.
Hive fournit une interface pour gérer les données stockées dans l'éco-système Hadoop. Hive est utilisé pour mapper et travailler avec des tables HBase. Les requêtes Hive sont converties en tâches MapReduce afin de masquer la complexité associée à la création et à l'exécution de tâches MapReduce.
53) Répertorier divers types / collectes de données complexes pris en charge par Hive
Hive prend en charge les types de données complexes suivants:
- Carte
- Struct
- Déployer
- syndicat
54) Expliquez comment le fichier .hiverc dans Hive est utilisé?
Dans Hive, .hiverc est le fichier d'initialisation. Ce fichier est initialement chargé lorsque nous démarrons l'interface de ligne de commande (CLI) pour Hive. Nous pouvons définir les valeurs initiales des paramètres dans le fichier .hiverc.
55) Est-il possible de créer plusieurs tables dans Hive pour un seul fichier de données?
Oui, nous pouvons créer plusieurs schémas de table pour un fichier de données. Hive enregistre le schéma dans Hive Metastore. Sur la base de ce schéma, nous pouvons récupérer des résultats différents à partir des mêmes données.
56) Expliquer les différentes implémentations SerDe disponibles dans Hive
Il existe de nombreuses implémentations SerDe disponibles dans Hive. Vous pouvez également écrire votre propre implémentation SerDe personnalisée. Voici quelques implémentations célèbres de SerDe:
- OpenCSVSerde
- RegexSerDe
- DélimitéJSONSerDe
- ByteStreamTypedSerDe
57) Liste des fonctions de génération de tableaux disponibles dans Hive
Voici une liste des fonctions de génération de table:
- Exploser (tableau)
- JSON_tuple ()
- Empiler()
- Exploser (carte)
58) Qu'est-ce qu'une table asymétrique dans Hive?
Une table asymétrique est une table qui contient plus souvent des valeurs de colonne. Dans Hive, lorsque nous spécifions une table comme SKEWED lors de la création, les valeurs asymétriques sont écrites dans des fichiers séparés et les valeurs restantes vont dans un autre fichier.
59) Répertoriez les objets créés par l'instruction create dans MySQL.
Les objets créés par l'instruction create dans MySQL sont les suivants:
- Base de données
- Indice
- Table
- Utilisateur
- Procédure
- Gâchette
- Événement
- Vue
- Fonction
60) Comment voir la structure de la base de données dans MySQL?
Afin de voir la structure de la base de données dans MySQL, vous pouvez utiliser
Commande DESCRIBE. La syntaxe de cette commande est DESCRIBE Table name ;.
61) Comment rechercher une chaîne spécifique dans la colonne de la table MySQL?
Utilisez l'opérateur regex pour rechercher une chaîne dans la colonne MySQL. Ici, nous pouvons également définir différents types d'expressions régulières et rechercher à l'aide de regex.
62) Expliquez comment l'analyse de données et le big data peuvent augmenter les revenus de l'entreprise?
Voici les moyens par lesquels l'analyse des données et le Big Data peuvent augmenter les revenus de l'entreprise:
- Utilisez les données efficacement pour assurer la croissance de votre entreprise.
- Augmentez la valeur client.
- Passer à l'analyse pour améliorer les prévisions des niveaux de dotation.
- Réduire les coûts de production des organisations.