サラリーマンIT技術者の調査レポート

日々の業務で気付いた当たり障りのない技術的なあれこれを綴ります。

Apache Spark入門 - Windowsでサンプルを動かす

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

この本の「3.2.3 Sparkのインストール」の手順を Windows で実行します。

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE) の手順は CentOS 向けになっていて、そのままでは Windows で動かないので、Windows で動かせる手順を示します。

前提

  • OS は Windows7 (64bit)
  • bsdtar.exe が使える(MSYS2 とか MinGW などでインストールしてください。それ以外でも拡張子 tgz が展開できれば大丈夫です)
  • JDK 7 以上がインストールされていて、環境変数 JAVA_HOME が設定されている

準備事項

Apache Spark を準備します。

Downloads | Apache Spark から spark-1.5.2-bin-hadoop2.6.tgz をダウンロードします。

今回、Apache Spark のほかに、Hadoop for Windowswinutils.exe も必要になります。

hadoop for windows プロジェクト日本語トップページ - OSDN から hadoop-winutils-2.6.0.zip をダウンロードします。

これらは C:\dev の下にインストールする前提とします。 spark-1.5.2-bin-hadoop2.6.tgzhadoop-winutils-2.6.0.zipC:\dev の下に置いてください。

インストール

最初に spark-1.5.2-bin-hadoop2.6.tgz を展開します。

C:\dev>bsdtar xvf spark-1.5.2-bin-hadoop2.6.tgz

Spark の環境変数SPARK_HOME=C:\dev\spark-1.5.2-bin-hadoop2.6 となるように設定します*1

次に hadoop-winutils-2.6.0.zipC:\dev\hadoop-2.6.0\bin に展開します。

C:\dev>mkdir hadoop-2.6.0\bin
C:\dev>cd hadoop-2.6.0\bin
C:\dev\hadoop-2.6.0\bin>jar xvf ..\..\hadoop-winutils-2.6.0.zip

Hadoop環境変数HADOOP_HOME=C:\dev\hadoop-2.6.0 となるように設定します。

サンプルの動作確認

インストールが終わったらコマンドプロンプトを再起動します*2

サンプルプログラムの SparkPi を実行してみます。

>cd %SPARK_HOME%
C:\dev\spark-1.5.2-bin-hadoop2.6>bin\run-example SparkPi 10

ログがツラツラと流れますが、途中で次のような出力があれば成功です。

...
Pi is roughly 3.142
...

注意点

サンプルの SparkPi はモンテカルロ法で円周率を計算している(らしい)ので、3.142 のところは実行する度に違うと思います。

以上で終了です。

*1:設定のやり方は自分で調べてください。

*2:設定した環境変数を反映させるため。