spark作为分布式计算引擎,如果内存足够,是需要很少的磁盘空间的,在shuffle可能用到,在reduce阶段一定会用到,它是基于hdfs作为存储介质的,所以在使用spark时,应该搭建一个hdfs。
安装JDK1.8
安装并配置环境变量,步骤略。
安装scala2.11.8
安装并配置环境变量,步骤略。
hadoop伪分布式搭建
关闭防火墙
配置本机对本机免秘钥登录
ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa
ssh-copy-id ip
其中ip为本机ip
Ssh ip
首次本机ssh本机需要输入密码或者yes,输入即可,第二次或者以后就不需要输入参数了。
下载hadoop-2.7.4.tar.gz包
解压
修改配置文件HADOOP_HOME/etc/hadoop下
Hadoop.env.sh
修改JAVA_HOME为jdk路径;
Core-site.xml
Fs.defaltFS属性修改为namenode的ip
Hadoop.tmp.dir修改为自定义目录,并创建好该目录
1 | <property> |
Hdfs-site.xml
使用默认值即可
1 | <property> |
Mapred-env.sh
修改JAVA_HOME为jdk路径,其他默认。
Mapred-site.xml
1 | <property> |
yarn-env.sh
修改JAVA_HOME为java安装路径
yarn-site.xml
1 | yarn.resourcemanager.hostname属性指定为namenode的ip地址。 |
添加slaves文件
在HADOOP_HOME/etc/hadoop文件夹下添加slaves文件,指定datanode节点
添加localhost即可。
格式化namenode
./bin/hdfs namenode –format
启动hdfs
./sbin/start-all.sh
jps查看节点服务的启动情况
如果启动正常,那么应该有
Namenode
SecondaryNamenode
Resourcemanager
Nodemanager
DataNode
这5个角色
Web Ui访问:http://ip:50070
Spark搭建
下载并解压spark-2.1.0-bin-hadoop2.7.tgz
修改配置文件
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
vi spark-env.sh
增加参数
1 | SPARK_MASTER_HOST=修改为ip |
vi spark-deafults.conf

其中需要修改hdfs的ip地址,并创建路径/user/spark/logs
启动spark
./sbin/start-all.sh
正常启动的话应该有:
1个Master
3个Worker
两个角色
Web Ui访问http://ip:8080
书山有路勤为径,学海无涯苦作舟。
欢迎关注微信公众号:【程序员写书】
喜欢宠物的朋友可以关注:【电巴克宠物Pets】
一起学习,一起进步。
