Apache Spark入門 - Windowsでサンプルを動かす
Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)
- 作者: 株式会社NTTデータ,猿田浩輔,土橋昌,吉田耕陽,佐々木徹,都築正宜,下垣徹
- 出版社/メーカー: 翔泳社
- 発売日: 2015/10/29
- メディア: 大型本
- この商品を含むブログを見る
この本の「3.2.3 Sparkのインストール」の手順を Windows で実行します。
Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE) の手順は CentOS 向けになっていて、そのままでは Windows で動かないので、Windows で動かせる手順を示します。
前提
- OS は Windows7 (64bit)
- bsdtar.exe が使える(MSYS2 とか MinGW などでインストールしてください。それ以外でも拡張子
tgz
が展開できれば大丈夫です) - JDK 7 以上がインストールされていて、環境変数 JAVA_HOME が設定されている
準備事項
Apache Spark を準備します。
Downloads | Apache Spark から spark-1.5.2-bin-hadoop2.6.tgz
をダウンロードします。
今回、Apache Spark のほかに、Hadoop for Windows の winutils.exe
も必要になります。
hadoop for windows プロジェクト日本語トップページ - OSDN から hadoop-winutils-2.6.0.zip
をダウンロードします。
これらは C:\dev
の下にインストールする前提とします。
spark-1.5.2-bin-hadoop2.6.tgz
と hadoop-winutils-2.6.0.zip
を C:\dev
の下に置いてください。
インストール
最初に spark-1.5.2-bin-hadoop2.6.tgz
を展開します。
C:\dev>bsdtar xvf spark-1.5.2-bin-hadoop2.6.tgz
Spark の環境変数を SPARK_HOME=C:\dev\spark-1.5.2-bin-hadoop2.6
となるように設定します*1。
次に hadoop-winutils-2.6.0.zip
を C:\dev\hadoop-2.6.0\bin
に展開します。
C:\dev>mkdir hadoop-2.6.0\bin C:\dev>cd hadoop-2.6.0\bin C:\dev\hadoop-2.6.0\bin>jar xvf ..\..\hadoop-winutils-2.6.0.zip
Hadoop の環境変数を HADOOP_HOME=C:\dev\hadoop-2.6.0
となるように設定します。
サンプルの動作確認
インストールが終わったらコマンドプロンプトを再起動します*2。
サンプルプログラムの SparkPi
を実行してみます。
>cd %SPARK_HOME% C:\dev\spark-1.5.2-bin-hadoop2.6>bin\run-example SparkPi 10
ログがツラツラと流れますが、途中で次のような出力があれば成功です。
... Pi is roughly 3.142 ...
注意点
サンプルの SparkPi はモンテカルロ法で円周率を計算している(らしい)ので、3.142
のところは実行する度に違うと思います。
以上で終了です。