Crie um diretório Hadoop. Baixe todos os seus componentes neste diretório.
sudo mkdir /usr/local/hadoop
Mude para todos os diretórios de instalações
cd /usr/local/hadoop
Baixar arquivo tarball do Hadoop
wget http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.4.0.tar.gz
Descompacte o arquivo tarball
sudo tar –zxvf hadoop-2.0.0-cdh4.4.0.tar.gz
Criar diretório de armazenamento de dados Hadoop
sudo mkdir hadoop-datastore
sudo mkdir hadoop-datastore/hadoop-hadoop <hadoop-username>Alterar as permissões do usuário atual para todas as pastas
sudo chown –R hadoop.root *
sudo chown –R hadoop.root .
sudo chmod 755 *
sudo chmod 755 .Adicionando binários hadoop a / etc / environment
Caminho atual: hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$
sudo nano /etc/environment
Faça alterações neste arquivo conforme mostrado abaixo:
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/lib/jvm/java-6-openjdk-amd64/bin:/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/bin:/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/sbin"
JAVA_HOME="/usr/lib/jvm/java-6-openjdk-amd64"
HADOOP_HOME="/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0"
HADOOP_CONF_DIR="/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/etc/hadoop"
source /etc/environment
echo $HADOOP_HOME
certifique-se de que este comando está mostrando o caminho abaixo
/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0
Digite hado e pressione tab dois arquivos no prompt, a palavra-chave hadoop deve ser preenchida automaticamente. (Isso garante a instalação bem-sucedida do hadoop)
Certifique-se de que o diretório de instalação do hadoop tenha permissões de usuário atuais para ler e escrever
hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chown –R hadoop.root *
hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chown –R hadoop.root.
hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chmod 755.
hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chmod 755 *
Configurando Hadoop
Caminho atual: hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/etc/hadoop$
sudo nano core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-datastore/hadoop-${user.name}</value>
</property>
<!-- OOZIE proxy user setting -->
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>
sudo nano hadoop-env.sh
Adicione essas duas linhas no final do arquivo
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
export JAVA_HOME="/usr/lib/jvm/java-6-openjdk-amd64"
sudo nano hdfs-site.xml
Certifique-se de ter o seguinte conteúdo no arquivo
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<!-- Immediately exit safemode as soon as one DataNode checks in.
On a multi-node cluster, these configurations must be removed. -->
<property>
<name>dfs.safemode.extension</name>
<value>0</value>
</property>
<property>
<name>dfs.safemode.min.datanodes</name>
<value>1</value>
</property>
<property>
<!-- specify this so that running 'hadoop namenode -format' formats the right dir -->
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hadoop-datastore/hadoop/dfs/name</value>
</property>
</configuration>
Certifique-se de que o valor acima, sublinhado, deve ser o valor do seu nome de usuário.
sudo nano mapred-site.xml
Make sure you have the similar contents in this file
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
sudo nano yarn-site.xml
Certifique-se de ter conteúdo semelhante neste arquivo
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
Você concluiu a instalação do Hadoop.
Estes são os comandos para iniciar e parar o Hadoop:
start-all.sh
Isso deve dar a você todos os 5 deamons (ou seja, NameNode, Secondary NameNode, DataNode, ResourceManager e NodeManager) em execução
stop-all.sh
Este comando permite que você pare todos os 5 demônios que estão rodando em seu cluster
Você pode iniciar o Job History Server usando o comando
mr-jobhistory-daemon.sh start historyserver --config $HADOOP_CONF_DIR
Você pode parar este servidor de histórico usando o comando abaixo
mr-jobhistory-daemon.sh stop historyserver --config $HADOOP_CONF_DIR