WindowsでApache Sparkの環境構築

Tech/Spark

WindowsでApache Sparkの環境構築

Enrai 2017. 3. 27. 21:08

５．システム環境変数にPATH追加

1
2
3
4
JAVA_HOME=設置フォルダ
SPARK_HOME=設置フォルダ
PYTHONPATH=$SPARK_HOME/python/lib/pyspark.zip:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip
HADOOP_HOME=設置フォルダ
Colored by Color Scripter
cs

６．システム環境変数のpathにSpark設置フォルダ\bin追加

1
C:\spark-2.1.0-bin-hadoop2.7\bin
cs

７．Windowsの場合

HADOOP_HOMEを設定しないとエラー & Hiveを設定しないとエラー

1
%HADOOP_HOME%/bin/winutils.exe chmod 777 C:\tmp\hive
cs

８．CONF設定

$SPARK_HOME$/conf/log4j.properties.templateをコピーし、log4j.propertiesを作成

1
cp $SPARK_HOME$/conf/log4j.properties.template log4j.properties
cs

log4j.propertiesを編集

1
log4j.rootCategory=WARN, console  # INFO->WARN
cs

９．テスト（cmdで実行）

適当なフォルダにテストしたいファイルを置いて、cmd上でpysparkを実行

1
C:\spark>pyspark
cs

>>>がでたら

1
2
3
4
5
6
>>> textFile = sc.textFile("README.md")
>>> textFile.count()
104
 
>>> textFile.first()
u'# Apache Spark'
cs

１０．ファイルを使ってテスト

simple.py

1
2
3
4
5
6
7
8
9
10
11
12
from pyspark import SparkContext
 
logFile = "./README.md"  # Should be some file on your system
sc = SparkContext("local", "Simple App")
logData = sc.textFile(logFile).cache()
 
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
 
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
 
sc.stop()
Colored by Color Scripter
cs

1
2
3
4
PS C:\spark> spark-submit --master local[4] simple.py
17/03/28 12:07:08 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
s where applicable
Lines with a: 62, lines with b: 30
Colored by Color Scripter
cs

参考

Spark 설치 (Standalone )

저작자표시 비영리 변경금지