Dans ce tutoriel, nous vous guiderons pas à pas dans le processus d'installation d'Apache Hadoop sur une machine Linux (Ubuntu). Il s'agit d'un processus en 2 parties
- Partie 1) Téléchargez et installez Hadoop
- Partie 2) Configurer Hadoop
Il y a 2 prérequis
- Vous devez avoir installé et exécuté Ubuntu
- Vous devez avoir installé Java.
Partie 1) Téléchargez et installez Hadoop
Étape 1) Ajoutez un utilisateur système Hadoop à l'aide de la commande ci-dessous
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Entrez votre mot de passe, votre nom et d'autres détails.
REMARQUE: il existe une possibilité d'erreur mentionnée ci-dessous dans ce processus de configuration et d'installation.
"hduser n'est pas dans le fichier sudoers. Cet incident sera signalé."
Cette erreur peut être résolue en vous connectant en tant qu'utilisateur root
Exécutez la commande
sudo adduser hduser_ sudo
Re-login as hduser_
Étape 2) Configurez SSH
Afin de gérer les nœuds dans un cluster, Hadoop nécessite un accès SSH
Commencez par changer d'utilisateur, entrez la commande suivante
su - hduser_
Cette commande créera une nouvelle clé.
ssh-keygen -t rsa -P ""
Activez l'accès SSH à la machine locale à l'aide de cette clé.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Testez maintenant la configuration SSH en vous connectant à localhost en tant qu'utilisateur «hduser».
ssh localhost
Remarque: veuillez noter que si vous voyez une erreur ci-dessous en réponse à 'ssh localhost', il est possible que SSH ne soit pas disponible sur ce système.
Pour résoudre ce problème -
Purger SSH en utilisant,
sudo apt-get purge openssh-server
Il est recommandé de purger avant le début de l'installation
Installez SSH à l'aide de la commande-
sudo apt-get install openssh-server
Étape 3) La prochaine étape consiste à télécharger Hadoop
Sélectionnez Stable
Sélectionnez le fichier tar.gz (pas le fichier avec src)
Une fois le téléchargement terminé, accédez au répertoire contenant le fichier tar
Entrer,
sudo tar xzf hadoop-2.2.0.tar.gz
Maintenant, renommez hadoop-2.2.0 en hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Partie 2) Configurer Hadoop
Étape 1) Modifiez le fichier ~ / .bashrc
Ajoutez les lignes suivantes à la fin du fichier ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Maintenant, source cette configuration d'environnement en utilisant la commande ci-dessous
. ~/.bashrc
Étape 2) Configurations liées à HDFS
Définissez JAVA_HOME dans le fichier $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Avec
Il y a deux paramètres dans $ HADOOP_HOME / etc / hadoop / core-site.xml qui doivent être définis -
1. 'hadoop.tmp.dir' - Utilisé pour spécifier un répertoire qui sera utilisé par Hadoop pour stocker ses fichiers de données.
2. «fs.default.name» - Ceci spécifie le système de fichiers par défaut.
Pour définir ces paramètres, ouvrez core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copier sous la ligne entre les balises
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Accédez au répertoire $ HADOOP_HOME / etc / Hadoop
Maintenant, créez le répertoire mentionné dans core-site.xml
sudo mkdir -p
Accorder des autorisations sur le répertoire
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Étape 3) Configuration de la réduction de la carte
Avant de commencer avec ces configurations, définissons le chemin HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Et entrez
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Entrez ensuite
sudo chmod +x /etc/profile.d/hadoop.sh
Quittez le terminal et redémarrez à nouveau
Tapez echo $ HADOOP_HOME. Pour vérifier le chemin
Maintenant, copiez les fichiers
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Ouvrez le fichier mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Ajoutez ci-dessous des lignes de réglage entre les balises
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Ouvrez $ HADOOP_HOME / etc / hadoop / hdfs-site.xml comme ci-dessous,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Ajoutez ci-dessous des lignes de réglage entre les balises
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Créez un répertoire spécifié dans le paramètre ci-dessus-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Étape 4) Avant de démarrer Hadoop pour la première fois, formatez HDFS en utilisant la commande ci-dessous
$HADOOP_HOME/bin/hdfs namenode -format
Étape 5) Démarrez le cluster à nœud unique Hadoop à l'aide de la commande ci-dessous
$HADOOP_HOME/sbin/start-dfs.sh
Une sortie de la commande ci-dessus
$HADOOP_HOME/sbin/start-yarn.sh
À l'aide de l' outil / de la commande 'jps' , vérifiez si tous les processus liés à Hadoop sont en cours d'exécution ou non.
Si Hadoop a démarré avec succès, une sortie de jps doit afficher NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Étape 6) Arrêt de Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh