Instalação do Hadoop CDH 4.4.0

  1. Crie um diretório Hadoop. Baixe todos os seus componentes neste diretório.

    sudo mkdir /usr/local/hadoop
  2. Mude para todos os diretórios de instalações

    cd /usr/local/hadoop
  3. Baixar arquivo tarball do Hadoop

    wget http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.4.0.tar.gz
  4. Descompacte o arquivo tarball

    sudo tar zxvf hadoop-2.0.0-cdh4.4.0.tar.gz
  5. Criar diretório de armazenamento de dados Hadoop

    sudo mkdir hadoop-datastore
    sudo mkdir hadoop
    -datastore/hadoop-hadoop <hadoop-username>
  6. Alterar as permissões do usuário atual para todas as pastas

    sudo chown R hadoop.root *
    sudo chown
    R hadoop.root .
    sudo chmod
    755 *
    sudo chmod
    755 .
  7. Adicionando binários hadoop a / etc / environment

Caminho atual: hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$

sudo nano /etc/environment

Faça alterações neste arquivo conforme mostrado abaixo:

        PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/lib/jvm/java-6-openjdk-amd64/bin:/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/bin:/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/sbin"
JAVA_HOME
="/usr/lib/jvm/java-6-openjdk-amd64"
HADOOP_HOME
="/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0"
HADOOP_CONF_DIR
="/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/etc/hadoop"

source
/etc/environment
echo $HADOOP_HOME

certifique-se de que este comando está mostrando o caminho abaixo

/usr/local/hadoop/hadoop-2.0.0-cdh4.4.0

Digite hado e pressione tab dois arquivos no prompt, a palavra-chave hadoop deve ser preenchida automaticamente. (Isso garante a instalação bem-sucedida do hadoop)

  1. Certifique-se de que o diretório de instalação do hadoop tenha permissões de usuário atuais para ler e escrever

    hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chown –R hadoop.root *

    hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chown –R hadoop.root.

    hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chmod 755.

    hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0$sudo chmod 755 *

  2. Configurando Hadoop

Caminho atual: hadoop @localhost : /usr/local/hadoop/hadoop-2.0.0-cdh4.4.0/etc/hadoop$

sudo nano core-site.xml

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-datastore/hadoop-${user.name}</value>
</property>

<!-- OOZIE proxy user setting -->
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>

sudo nano hadoop-env.sh

Adicione essas duas linhas no final do arquivo

export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
export JAVA_HOME="/usr/lib/jvm/java-6-openjdk-amd64"

sudo nano hdfs-site.xml

Certifique-se de ter o seguinte conteúdo no arquivo

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<!-- Immediately exit safemode as soon as one DataNode checks in.
On a multi-node cluster, these configurations must be removed. -->

<property>
<name>dfs.safemode.extension</name>
<value>0</value>
</property>
<property>
<name>dfs.safemode.min.datanodes</name>
<value>1</value>
</property>
<property>
<!-- specify this so that running 'hadoop namenode -format' formats the right dir -->
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hadoop-datastore/hadoop/dfs/name</value>
</property>
</configuration>

Certifique-se de que o valor acima, sublinhado, deve ser o valor do seu nome de usuário.

    sudo nano mapred-site.xml

Make sure you have the similar contents in this file

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

sudo nano yarn
-site.xml

Certifique-se de ter conteúdo semelhante neste arquivo

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

Você concluiu a instalação do Hadoop.
Estes são os comandos para iniciar e parar o Hadoop:

start-all.sh

Isso deve dar a você todos os 5 deamons (ou seja, NameNode, Secondary NameNode, DataNode, ResourceManager e NodeManager) em execução

stop-all.sh

Este comando permite que você pare todos os 5 demônios que estão rodando em seu cluster

Você pode iniciar o Job History Server usando o comando

mr-jobhistory-daemon.sh start historyserver --config $HADOOP_CONF_DIR

Você pode parar este servidor de histórico usando o comando abaixo

mr-jobhistory-daemon.sh stop historyserver --config $HADOOP_CONF_DIR