Top 50 des questions et réponses d'entrevue Data Science

Anonim

Voici les questions fréquemment posées lors des entretiens d'embauche pour les débutants ainsi que pour les Data Scientist expérimentés.

1. Qu'est-ce que la science des données?

La science des données est une combinaison d'algorithmes, d'outils et de techniques d'apprentissage automatique qui vous aide à trouver des modèles cachés communs à partir des données brutes données.

2. Qu'est-ce que la régression logistique en Data Science?

La régression logistique est également appelée modèle logit. C'est une méthode pour prévoir le résultat binaire à partir d'une combinaison linéaire de variables prédictives.

3. Nommez trois types de biais pouvant survenir lors de l'échantillonnage

Dans le processus d'échantillonnage, il existe trois types de biais, à savoir:

  • Biais de séléction
  • Sous-biais de couverture
  • Biais de survie

4. Discuter de l'algorithme de l'arbre de décision

Un arbre de décision est un algorithme d'apprentissage automatique supervisé populaire. Il est principalement utilisé pour la régression et la classification. Il permet de décomposer un ensemble de données en sous-ensembles plus petits. L'arbre de décision peut gérer à la fois des données catégorielles et numériques.

5. Qu'est-ce que la probabilité et la vraisemblance antérieures?

La probabilité a priori est la proportion de la variable dépendante dans l'ensemble de données tandis que la probabilité est la probabilité de classer un observateur donné en présence d'une autre variable.

6. Expliquer les systèmes de recommandation?

Il s'agit d'une sous-classe de techniques de filtrage d'informations. Il vous aide à prédire les préférences ou les notes que les utilisateurs sont susceptibles de donner à un produit.

7. Nommez trois inconvénients liés à l'utilisation d'un modèle linéaire

Les trois inconvénients du modèle linéaire sont:

  • L'hypothèse de linéarité des erreurs.
  • Vous ne pouvez pas utiliser ce modèle pour les résultats binaires ou de comptage
  • Il y a beaucoup de problèmes de surajustement qu'il ne peut pas résoudre

8. Pourquoi avez-vous besoin d'effectuer un rééchantillonnage?

Le rééchantillonnage est effectué dans les cas ci-dessous:

  • Estimation de l'exactitude des statistiques d'échantillon en tirant au hasard avec remplacement à partir d'un ensemble de points de données ou en les utilisant comme sous-ensembles de données accessibles
  • Remplacer les étiquettes sur les points de données lors de la réalisation des tests nécessaires
  • Validation de modèles à l'aide de sous-ensembles aléatoires

9. Répertoriez les bibliothèques en Python utilisées pour l'analyse des données et les calculs scientifiques.

  • SciPy
  • Pandas
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Qu'est-ce que l'analyse de puissance?

L'analyse de puissance fait partie intégrante de la conception expérimentale. Il vous aide à déterminer la taille de l'échantillon nécessaire pour découvrir l'effet d'une taille donnée à partir d'une cause avec un niveau d'assurance spécifique. Il vous permet également de déployer une probabilité particulière dans une contrainte de taille d'échantillon.

11. Expliquer le filtrage collaboratif

Filtrage collaboratif utilisé pour rechercher des modèles corrects en collaborant avec des points de vue, plusieurs sources de données et divers agents.

12. Qu'est-ce que le biais?

Le biais est une erreur introduite dans votre modèle en raison de la simplification excessive d'un algorithme d'apprentissage automatique. «Cela peut entraîner un sous-ajustement.

13. Discuter de «Naive» dans un algorithme Naive Bayes?

Le modèle d'algorithme naïf de Bayes est basé sur le théorème de Bayes. Il décrit la probabilité d'un événement. Il est basé sur la connaissance préalable des conditions qui pourraient être liées à cet événement spécifique.

14. Qu'est-ce qu'une régression linéaire?

La régression linéaire est une méthode de programmation statistique où le score d'une variable «A» est prédit à partir du score d'une deuxième variable «B». B est appelé variable prédictive et A comme variable critère.

15. Énoncez la différence entre la valeur attendue et la valeur moyenne

Il n'y a pas beaucoup de différences, mais ces deux termes sont utilisés dans des contextes différents. La valeur moyenne est généralement désignée lorsque vous discutez d'une distribution de probabilité, tandis que la valeur attendue est mentionnée dans le contexte d'une variable aléatoire.

16. Quel est le but des tests A / B?

Les tests AB utilisés pour mener des expériences aléatoires avec deux variables, A et B. Le but de cette méthode de test est de découvrir les modifications apportées à une page Web pour maximiser ou augmenter le résultat d'une stratégie.

17. Qu'est-ce qu'Ensemble Learning?

L'ensemble est une méthode de combinaison d'un ensemble diversifié d'apprenants pour improviser sur la stabilité et le pouvoir prédictif du modèle. Deux types de méthodes d'apprentissage d'Ensemble sont:

Ensachage

La méthode d'ensachage vous aide à implémenter des apprenants similaires sur de petits échantillons. Cela vous aide à faire des prédictions plus proches.

Booster

Le boosting est une méthode itérative qui permet d'ajuster le poids d'une observation en fonction de la dernière classification. La stimulation réduit l'erreur de biais et vous aide à créer des modèles prédictifs solides.

18. Expliquer la valeur propre et le vecteur propre

Les vecteurs propres permettent de comprendre les transformations linéaires. Les spécialistes des données doivent calculer les vecteurs propres pour une matrice de covariance ou une corrélation. Les valeurs propres sont les directions utilisant des actes de transformation linéaire spécifiques par compression, retournement ou étirement.

19. Définir le terme validation croisée

La validation croisée est une technique de validation permettant d'évaluer comment les résultats de l'analyse statistique se généraliseront pour un ensemble de données indépendant. Cette méthode est utilisée dans les arrière-plans où l'objectif est prévu, et il faut estimer la précision avec laquelle un modèle accomplira.

20. Expliquer les étapes d'un projet d'analyse de données

Voici les étapes importantes d'un projet d'analyse:

  • Comprendre le problème commercial
  • Explorez les données et étudiez-les attentivement.
  • Préparez les données pour la modélisation en recherchant les valeurs manquantes et en transformant les variables.
  • Commencez à exécuter le modèle et analysez le résultat Big data.
  • Validez le modèle avec un nouvel ensemble de données.
  • Implémentez le modèle et suivez le résultat pour analyser les performances du modèle pendant une période spécifique.

21. Discuter des réseaux de neurones artificiels

Les réseaux de neurones artificiels (ANN) sont un ensemble spécial d'algorithmes qui ont révolutionné l'apprentissage automatique. Il vous aide à vous adapter en fonction de l'évolution des entrées. Le réseau génère donc le meilleur résultat possible sans reconcevoir les critères de sortie.

22. Qu'est-ce que la rétropropagation?

La rétro-propagation est l'essence même de la formation des réseaux neuronaux. C'est la méthode de réglage des poids d'un réseau neuronal en fonction du taux d'erreur obtenu à l'époque précédente. Un bon réglage du vous aide à réduire les taux d'erreur et à fiabiliser le modèle en augmentant sa généralisation.

23. Qu'est-ce qu'une forêt aléatoire?

Random forest est une méthode d'apprentissage automatique qui vous aide à effectuer tous les types de tâches de régression et de classification. Il est également utilisé pour traiter les valeurs manquantes et les valeurs aberrantes.

24. Quelle est l'importance d'avoir un biais de sélection?

Le biais de sélection se produit lorsqu'il n'y a pas de randomisation spécifique réalisée lors de la sélection d'individus ou de groupes ou de données à analyser. Cela suggère que l'échantillon donné ne représente pas exactement la population qui devait être analysée.

25. Qu'est-ce que la méthode de clustering K-means?

Le clustering K-means est une méthode d'apprentissage non supervisée importante. C'est la technique de classification des données à l'aide d'un certain ensemble de clusters qui est appelé K clusters. Il est déployé pour le regroupement afin de découvrir la similitude des données.

26. Expliquez la différence entre la science des données et l'analyse des données

Les Data Scientists doivent découper les données pour extraire des informations précieuses qu'un analyste de données peut appliquer à des scénarios commerciaux réels. La principale différence entre les deux est que les data scientists ont plus de connaissances techniques que les analystes commerciaux. De plus, ils n'ont pas besoin de comprendre l'activité requise pour la visualisation des données.

27. Expliquez la valeur p?

Lorsque vous effectuez un test d'hypothèse dans les statistiques, une valeur p vous permet de déterminer la force de vos résultats. C'est un nombre numérique compris entre 0 et 1. En fonction de la valeur, il vous aidera à indiquer la force du résultat spécifique.

28. Définir le terme apprentissage profond

Le Deep Learning est un sous-type d'apprentissage automatique. Il s'agit d'algorithmes inspirés de la structure appelée réseaux de neurones artificiels (ANN).

29. Expliquez la méthode de collecte et d'analyse des données pour utiliser les médias sociaux pour prédire les conditions météorologiques.

Vous pouvez collecter des données sur les réseaux sociaux en utilisant Facebook, Twitter, les API d'Instagram. Par exemple, pour le tweeter, nous pouvons créer une fonctionnalité à partir de chaque tweet comme la date du tweet, les retweets, la liste des abonnés, etc. Ensuite, vous pouvez utiliser un modèle de série chronologique à plusieurs variables pour prédire les conditions météorologiques.

30. Quand devez-vous mettre à jour l'algorithme de Data science?

Vous devez mettre à jour un algorithme dans la situation suivante:

  • Vous souhaitez que votre modèle de données évolue sous forme de flux de données à l'aide de l'infrastructure
  • La source de données sous-jacente change

    S'il s'agit de non-stationnarité

31. Qu'est-ce que la distribution normale

Une distribution normale est un ensemble d'une variable continue répartie sur une courbe normale ou sous la forme d'une courbe en cloche. Vous pouvez le considérer comme une distribution de probabilité continue qui est utile dans les statistiques. Il est utile d'analyser les variables et leurs relations lorsque nous utilisons la courbe de distribution normale.

32. Quelle langue est la meilleure pour l'analyse de texte? R ou Python?

Python sera plus adapté à l'analyse de texte car il se compose d'une riche bibliothèque connue sous le nom de pandas. Il vous permet d'utiliser des outils d'analyse de données et des structures de données de haut niveau, alors que R n'offre pas cette fonctionnalité.

33. Expliquer les avantages de l'utilisation des statistiques par les Data Scientists

Les statistiques aident les data scientist à avoir une meilleure idée des attentes des clients. En utilisant la méthode statistique, les Data Scientists peuvent acquérir des connaissances sur l'intérêt, le comportement, l'engagement, la rétention des consommateurs, etc. Elle vous aide également à créer des modèles de données puissants pour valider certaines inférences et prédictions.

34. Nommer divers types de cadres d'apprentissage profond

  • Pytorch
  • Boîte à outils cognitive Microsoft
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35.Expliquer l'auto-encodeur

Les auto-encodeurs sont des réseaux d'apprentissage. Il vous aide à transformer les entrées en sorties avec moins d'erreurs. Cela signifie que vous obtiendrez une sortie aussi proche que possible de l'entrée.

36. Définir la machine Boltzmann

Les machines Boltzmann sont un algorithme d'apprentissage simple. Il vous aide à découvrir les fonctionnalités qui représentent des régularités complexes dans les données d'entraînement. Cet algorithme vous permet d'optimiser les poids et la quantité pour le problème donné.

37. Expliquez pourquoi le nettoyage des données est essentiel et quelle méthode vous utilisez pour conserver des données propres

Des données sales conduisent souvent à un intérieur incorrect, ce qui peut nuire à la perspective de toute organisation. Par exemple, si vous souhaitez lancer une campagne marketing ciblée. Cependant, nos données vous indiquent à tort qu'un produit spécifique sera en demande auprès de votre public cible; la campagne échouera.

38. Qu'est-ce qu'une distribution asymétrique et une distribution uniforme?

Une distribution asymétrique se produit lorsque les données sont distribuées sur n'importe quel côté du graphique alors qu'une distribution uniforme est identifiée lorsque les données sont réparties est égale dans la plage.

39. En cas de sous-ajustement dans un modèle statique?

Un sous-ajustement se produit lorsqu'un modèle statistique ou un algorithme d'apprentissage automatique n'est pas en mesure de capturer la tendance sous-jacente des données.

40. Qu'est-ce que l'apprentissage par renforcement?

L'apprentissage par renforcement est un mécanisme d'apprentissage sur la façon de mapper des situations sur des actions. Le résultat final devrait vous aider à augmenter le signal de récompense binaire. Dans cette méthode, un apprenant ne se voit pas dire quelle action entreprendre mais doit au contraire découvrir quelle action offre une récompense maximale. Comme cette méthode basée sur le mécanisme de récompense / pénalité.

41. Nommez les algorithmes couramment utilisés.

Les quatre algorithmes les plus couramment utilisés par les scientifiques des données sont:

  • Régression linéaire
  • Régression logistique
  • Forêt aléatoire
  • KNN

42. Qu'est-ce que la précision?

La précision est la métrique d'erreur la plus couramment utilisée est le mécanisme de classification n. Sa plage est de 0 à 1, où 1 représente 100%

43. Qu'est-ce qu'une analyse univariée?

Une analyse qui n'est appliquée à aucun attribut à la fois est appelée analyse univariée. Boxplot est un modèle univarié largement utilisé.

44. Comment surmontez-vous les défis liés à vos résultats?

Afin de surmonter les défis de ma découverte, il est nécessaire d'encourager la discussion, de faire preuve de leadership et de respecter les différentes options.

45. Expliquer la technique d'échantillonnage en grappes en science des données

Une méthode d'échantillonnage en grappes est utilisée lorsqu'il est difficile d'étudier la population cible répartie et qu'un échantillonnage aléatoire simple ne peut pas être appliqué.

46. ​​Énoncez la différence entre un ensemble de validation et un ensemble de test

Un ensemble de validation principalement considéré comme faisant partie de l'ensemble d'apprentissage car il est utilisé pour la sélection des paramètres, ce qui vous permet d'éviter le surajustement du modèle en cours de construction.

Alors qu'un ensemble de tests est utilisé pour tester ou évaluer les performances d'un modèle d'apprentissage automatique entraîné.

47. Expliquez le terme formule de probabilité binomiale?

"La distribution binomiale contient les probabilités de chaque succès possible sur N essais pour des événements indépendants qui ont une probabilité de π de se produire."

48. Qu'est-ce qu'un rappel?

Un rappel est un rapport entre le taux positif réel et le taux positif réel. Il varie de 0 à 1.

49. Discuter de la distribution normale

Distribution normale également distribuée, la moyenne, la médiane et le mode étant égaux.

50. Lorsque vous travaillez sur un ensemble de données, comment pouvez-vous sélectionner des variables importantes? Expliquer

Les méthodes suivantes de sélection de variables que vous pouvez utiliser:

  • Supprimez les variables corrélées avant de sélectionner des variables importantes
  • Utilisez la régression linéaire et sélectionnez des variables qui dépendent de ces valeurs p.
  • Utiliser la sélection arrière, avant et pas à pas
  • Utilisez Xgboost, Random Forest et tracez le graphique d'importance des variables.
  • Mesurez le gain d'informations pour l'ensemble de fonctionnalités donné et sélectionnez les n principales fonctionnalités en conséquence.

51. Est-il possible de saisir la corrélation entre la variable continue et la variable catégorielle?

Oui, nous pouvons utiliser l'analyse de la technique de covariance pour capturer l'association entre les variables continues et catégorielles.

52. Traiter une variable catégorielle comme une variable continue aboutirait à un meilleur modèle prédictif?

Oui, la valeur catégorielle doit être considérée comme une variable continue uniquement lorsque la variable est de nature ordinale. C'est donc un meilleur modèle prédictif.