Apache Hadoopの「Hadoop Quickstart」をそのまま試してみた。でも・・・


以前から興味があったので、Hadoopを触ってみた。

Hadoopとは、要はGoogle File System (GFS)をパクッたようなもん。

もしこれでパフォーマンスが向上するならば、今後使用するかも。



■Hadoop Quickstart

http://hadoop.apache.org/core/docs/current/quickstart.html



1.環境変数にJAVA_HOMEを設定する。



2.http://hadoop.apache.org/core/releases.htmlからhadoop-0.15.3.tar.gzをダウンロード



3.${HADOOP_HOME}/conf/hadoop-env.shを開き、JAVA_HOMEを設定

export JAVA_HOME=/usr/java/j2sdk



4.新しく作成したinputディレクトリに

設定ファイル(hadoop-default.xml,hadoop-site.xml)をコピーする。

$ mkdir input
$ cp conf/*.xml input



5.よく分かんないけど、コマンド打ってみる。

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*



6.${HADOOP_HOME}/conf/hadoop-site.xmlを開く。

configurationの中身が書いていないので、ひとまずマニュアル通り埋めてみる。

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>localhost:9000</value>
        </property>
        <property>
                <name>mapred.job.tracker</name>
                <value>localhost:9001</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>



7.sshのpassphraseを設定する。

マニュアルをそのまま実行する。

$ ssh localhost
ssh_exchange_identification: Connection closed by remote host

こんなエラーが出たので/etc/hosts.allowに127.0.0.1を追加して接続許可。



8.よくわからんけど、マニュアルにしたがってコマンド実行。

$ bin/hadoop namenode -format
$ bin/start-all.sh
starting namenode, logging to /home/hoge/hadoop/bin/../logs/hadoop-hadoop-namenode-hoge.out
hoge@localhost's password:XXXXXXXXXXXXXX
localhost: starting datanode, logging to /home/hoge/hadoop/bin/../logs/hadoop-hadoop-datanode-hoge.out
hoge@localhost's password:XXXXXXXXXXXXXX
localhost: starting secondarynamenode, logging to /home/hoge/hadoop/bin/../logs/hadoop-hadoop-secondarynamenode-hoge.out
starting jobtracker, logging to /home/hoge/hadoop/bin/../logs/hadoop-hadoop-jobtracker-hoge.out
hoge@localhost's password:XXXXXXXXXXXXXX
localhost: starting tasktracker, logging to /home/hoge/hadoop/bin/../logs/hadoop-hadoop-tasktracker-hoge.out



無事起動したようだ。psコマンドでプロセスを見るとなんか動いてる。

hoge    4546  0.4  1.5 1253468 31960 pts/1 Sl   01:08   0:02 /usr/java/j2sdk/bin/java -Xmx1000m -Dhoge.log.dir=/home...
hoge    4654  0.3  1.3 1245276 28476 ?     Sl   01:08   0:01 /usr/java/j2sdk/bin/java -Xmx1000m -Dhoge.log.dir=/home...
hoge    4754  0.4  1.4 1244016 29280 ?     Sl   01:08   0:02 /usr/java/j2sdk/bin/java -Xmx1000m -Dhoge.log.dir=/home...
hoge    4815  0.4  1.4 1252616 30092 pts/1 Sl   01:08   0:01 /usr/java/j2sdk/bin/java -Xmx1000m -Dhoge.log.dir=/home...
hoge    4933  0.4  1.4 1247276 29020 ?     Sl   01:08   0:01 /usr/java/j2sdk/bin/java -Xmx1000m -Dhoge.log.dir=/home...



9.ブラウザで起動状況を確認できるようだ。







「Hadoop Quickstart」を行ってみたが、これで何ができるかはまだ不明。

どうするか。

Leave a Comment


NOTE - You can use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <img localsrc="" alt="">

Comments links could be nofollow free.