CentOS5.4にHadoopをインストールします。
1. JDKをインストールします。
# chmod +x jdk-6u23-linux-x64-rpm.bin
# sh jdk-6u23-linux-x64-rpm.bin
data:image/s3,"s3://crabby-images/60f8f/60f8f66590def1f56e89ef55db283b6c6db6d13d" alt=""
パスも自動的に設定されているようです。
2. Cloudera社リポジトリの追加
# cd /etc/yum.repos.d
# wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo
data:image/s3,"s3://crabby-images/e590e/e590ee6d59d30ee7712c9116af063d9cfb9a5675" alt=""
3. hadoopインストール
data:image/s3,"s3://crabby-images/62170/62170f11a06b5b1ae424bfe9a3855b3a1362bf38" alt=""
# yum -y install hadoop-0.20
data:image/s3,"s3://crabby-images/f3029/f30297bb435161967558515c9cedb93c7d65d5dd" alt=""
4. サービス起動
# service hadoop-0.20-namenode start
# service hadoop-0.20-jobtracker start
# service hadoop-0.20-datanode start
# service hadoop-0.20-tasktracker start
Hadoopは「JobTracker」「TaskTracker」「NameNode」「DataNode」という4つのサーバから構成されます。 JobTrackerとTaskTrackerはMapReduce処理、NameNodeとDataNodeは分散ファイルシステム機能を担当しています。また、Hadoopを動かすクラスタでは1台が「masterノード」、その他のノードが「slaveノード」となります。 masterノードではJobTrackerとNameNode、slaveノードではTaskTrackerとDataNodeが起動されます
参考:
http://codezine.jp/article/detail/26995. 設定ファイルをインストール
# yum -y install hadoop-0.20-conf-pseudo
6. サンプルを見てみる
# hadoop-0.20 jar /usr/lib/hadoop-0.20/hadoop-*-examples.jar
とするとサンプル一覧が表示される
aggregatewordcount: An Aggregate based map/reduce program that counts the words in the input files.
aggregatewordhist: An Aggregate based map/reduce program that computes the histogram of the words in the input files.
dbcount: An example job that count the pageview counts from a database.
grep: A map/reduce program that counts the matches of a regex in the input.
join: A job that effects a join over sorted, equally partitioned datasets
multifilewc: A job that counts words from several files.
pentomino: A map/reduce tile laying program to find solutions to pentomino problems.
pi: A map/reduce program that estimates Pi using monte-carlo method.
randomtextwriter: A map/reduce program that writes 10GB of random textual data per node.
randomwriter: A map/reduce program that writes 10GB of random data per node.
secondarysort: An example defining a secondary sort to the reduce.
sleep: A job that sleeps at each map and reduce task.
sort: A map/reduce program that sorts the data written by the random writer.
sudoku: A sudoku solver.
teragen: Generate data for the terasort
terasort: Run the terasort
teravalidate: Checking results of terasort
wordcount: A map/reduce program that counts the words in the input files.
実行方法
# hadoop-0.20 jar /usr/lib/hadoop-0.20/hadoop-*-examples.jar サンプル名 引数1 引数2 ・・・
5.1 pi (円周率計算)をしてみる
# hadoop-0.20 jar /usr/lib/hadoop-0.20/hadoop-*-examples.jar pi 4(Number of Maps) 2000(Samples per Map)
Number of Maps = 4
Samples per Map = 2000
data:image/s3,"s3://crabby-images/8dd19/8dd1913e64af3349b47fce6855eb76c3827a7592" alt=""
5.2 wordcountを実行する
5.2-1 処理対象を配置する先となる input サブディレクトリーをファイルシステムに作成
# hadoop-0.20 fs -mkdir input
5.2-2 input サブディレクトリーに処理対象を配置
# hadoop-0.20 fs -put /root/test.txt input
ここでは /root/test.txt をinputに移します。test.txtには英文を適当にいれておきます。
# hadoop-0.20 fs -ls input (ファイルがあるか確認します)
Found 1 items
-rw-r--r-- 1 root supergroup 73 2011-01-30 03:59 /user/root/input/test.txt
5.2-3 実行
# hadoop-0.20 jar /usr/lib/hadoop-0.20/hadoop-*-examples.jar wordcount input output
(この時点ではoutputはありません。自動生成されます)
data:image/s3,"s3://crabby-images/7fced/7fced608989b07c25523310703037b4dbb3fc354" alt=""
5.2-4 結果確認
#
data:image/s3,"s3://crabby-images/1c453/1c453eda95a3232119a2c9822d0f5449be210a04" alt=""
hadoop-0.20 fs -ls output (ファイルが作成されたか確認)
data:image/s3,"s3://crabby-images/881d0/881d07cd372e2af16efda49681ef53a28f341da2" alt=""
# hadoop-0.20 fs -cat output/part-r-00000 (結果確認)
data:image/s3,"s3://crabby-images/4aab3/4aab3f904056b144474389f20a7fb5b4fd927836" alt=""
# hadoop-0.20 fs -get output/part-r-00000 /root/output.txt (HDFS からの出力の抽出)
6. ブラウザ(Web UI)で確認
6.1 HDFSの確認
http://localhost:50070/
data:image/s3,"s3://crabby-images/a32bd/a32bd0b6d5882eb7c9518da03fbe2fd21dd44280" alt=""
先ほど使ったファイルが見られます。
6.2 MapReduceの確認
http://localhost:50030/
data:image/s3,"s3://crabby-images/c7393/c7393225d53a9bf938718630cfd0defa8a0ca736" alt=""
参考
http://saburi380.blogspot.com/2009/11/301hadoopcentos-cloudera.htmlhttp://oss.infoscience.co.jp/hadoop/common/docs/current/quickstart.html#Purposehttp://www.ibm.com/developerworks/jp/linux/library/l-hadoop-1/index.html?ca=drs-http://www.ibm.com/developerworks/jp/linux/library/l-hadoop-2/