Comment installer Hadoop avec une configuration étape par étape sur Ubuntu

Table des matières:

Anonim

Dans ce tutoriel, nous vous guiderons pas à pas dans le processus d'installation d'Apache Hadoop sur une machine Linux (Ubuntu). Il s'agit d'un processus en 2 parties

  • Partie 1) Téléchargez et installez Hadoop
  • Partie 2) Configurer Hadoop

Il y a 2 prérequis

  • Vous devez avoir installé et exécuté Ubuntu
  • Vous devez avoir installé Java.

Partie 1) Téléchargez et installez Hadoop

Étape 1) Ajoutez un utilisateur système Hadoop à l'aide de la commande ci-dessous

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Entrez votre mot de passe, votre nom et d'autres détails.

REMARQUE: il existe une possibilité d'erreur mentionnée ci-dessous dans ce processus de configuration et d'installation.

"hduser n'est pas dans le fichier sudoers. Cet incident sera signalé."

Cette erreur peut être résolue en vous connectant en tant qu'utilisateur root

Exécutez la commande

sudo adduser hduser_ sudo

Re-login as hduser_

Étape 2) Configurez SSH

Afin de gérer les nœuds dans un cluster, Hadoop nécessite un accès SSH

Commencez par changer d'utilisateur, entrez la commande suivante

su - hduser_

Cette commande créera une nouvelle clé.

ssh-keygen -t rsa -P ""

Activez l'accès SSH à la machine locale à l'aide de cette clé.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Testez maintenant la configuration SSH en vous connectant à localhost en tant qu'utilisateur «hduser».

ssh localhost

Remarque: veuillez noter que si vous voyez une erreur ci-dessous en réponse à 'ssh localhost', il est possible que SSH ne soit pas disponible sur ce système.

Pour résoudre ce problème -

Purger SSH en utilisant,

sudo apt-get purge openssh-server

Il est recommandé de purger avant le début de l'installation

Installez SSH à l'aide de la commande-

sudo apt-get install openssh-server

Étape 3) La prochaine étape consiste à télécharger Hadoop

Sélectionnez Stable

Sélectionnez le fichier tar.gz (pas le fichier avec src)

Une fois le téléchargement terminé, accédez au répertoire contenant le fichier tar

Entrer,

sudo tar xzf hadoop-2.2.0.tar.gz

Maintenant, renommez hadoop-2.2.0 en hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Partie 2) Configurer Hadoop

Étape 1) Modifiez le fichier ~ / .bashrc

Ajoutez les lignes suivantes à la fin du fichier ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Maintenant, source cette configuration d'environnement en utilisant la commande ci-dessous

. ~/.bashrc

Étape 2) Configurations liées à HDFS

Définissez JAVA_HOME dans le fichier $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Avec

Il y a deux paramètres dans $ HADOOP_HOME / etc / hadoop / core-site.xml qui doivent être définis -

1. 'hadoop.tmp.dir' - Utilisé pour spécifier un répertoire qui sera utilisé par Hadoop pour stocker ses fichiers de données.

2. «fs.default.name» - Ceci spécifie le système de fichiers par défaut.

Pour définir ces paramètres, ouvrez core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copier sous la ligne entre les balises

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Accédez au répertoire $ HADOOP_HOME / etc / Hadoop

Maintenant, créez le répertoire mentionné dans core-site.xml

sudo mkdir -p 

Accorder des autorisations sur le répertoire

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Étape 3) Configuration de la réduction de la carte

Avant de commencer avec ces configurations, définissons le chemin HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Et entrez

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Entrez ensuite

sudo chmod +x /etc/profile.d/hadoop.sh

Quittez le terminal et redémarrez à nouveau

Tapez echo $ HADOOP_HOME. Pour vérifier le chemin

Maintenant, copiez les fichiers

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ouvrez le fichier mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ajoutez ci-dessous des lignes de réglage entre les balises et

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Ouvrez $ HADOOP_HOME / etc / hadoop / hdfs-site.xml comme ci-dessous,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ajoutez ci-dessous des lignes de réglage entre les balises et

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Créez un répertoire spécifié dans le paramètre ci-dessus-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Étape 4) Avant de démarrer Hadoop pour la première fois, formatez HDFS en utilisant la commande ci-dessous

$HADOOP_HOME/bin/hdfs namenode -format

Étape 5) Démarrez le cluster à nœud unique Hadoop à l'aide de la commande ci-dessous

$HADOOP_HOME/sbin/start-dfs.sh

Une sortie de la commande ci-dessus

$HADOOP_HOME/sbin/start-yarn.sh

À l'aide de l' outil / de la commande 'jps' , vérifiez si tous les processus liés à Hadoop sont en cours d'exécution ou non.

Si Hadoop a démarré avec succès, une sortie de jps doit afficher NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Étape 6) Arrêt de Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh