Apache Spark入門 - Windowsでサンプルを動かす - サラリーマン技術者の調査レポート

この本の「3.2.3 Sparkのインストール」の手順を Windows で実行します。

Apache Spark入門動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE) の手順は CentOS 向けになっていて、そのままでは Windows で動かないので、Windows で動かせる手順を示します。

Apache Spark を準備します。

Downloads | Apache Spark から spark-1.5.2-bin-hadoop2.6.tgz をダウンロードします。

今回、Apache Spark のほかに、Hadoop for Windows の winutils.exe も必要になります。

これらは C:\dev の下にインストールする前提とします。 spark-1.5.2-bin-hadoop2.6.tgz と hadoop-winutils-2.6.0.zip を C:\dev の下に置いてください。

最初に spark-1.5.2-bin-hadoop2.6.tgz を展開します。

C:\dev>bsdtar xvf spark-1.5.2-bin-hadoop2.6.tgz

Spark の環境変数を SPARK_HOME=C:\dev\spark-1.5.2-bin-hadoop2.6 となるように設定します*1。

次に hadoop-winutils-2.6.0.zip を C:\dev\hadoop-2.6.0\bin に展開します。

C:\dev>mkdir hadoop-2.6.0\bin
C:\dev>cd hadoop-2.6.0\bin
C:\dev\hadoop-2.6.0\bin>jar xvf ..\..\hadoop-winutils-2.6.0.zip

Hadoop の環境変数を HADOOP_HOME=C:\dev\hadoop-2.6.0 となるように設定します。

インストールが終わったらコマンドプロンプトを再起動します*2。

サンプルプログラムの SparkPi を実行してみます。

>cd %SPARK_HOME%
C:\dev\spark-1.5.2-bin-hadoop2.6>bin\run-example SparkPi 10

ログがツラツラと流れますが、途中で次のような出力があれば成功です。

...
Pi is roughly 3.142
...

サンプルの SparkPi はモンテカルロ法で円周率を計算している（らしい）ので、3.142 のところは実行する度に違うと思います。

以上で終了です。

*1:設定のやり方は自分で調べてください。

*2:設定した環境変数を反映させるため。