乐知付加密服务平台

如果你有资源, 平台可以帮你实现内容变现, 无需搭建知识付费服务平台。

点击访问官方网站 https://lezhifu.cc

扫码关注公众号 乐知付加密服务平台-微信公众号
单台服务器安装spark、hadoop服务文档 | chenzuoli's blog

单台服务器安装spark、hadoop服务文档

spark作为分布式计算引擎,如果内存足够,是需要很少的磁盘空间的,在shuffle可能用到,在reduce阶段一定会用到,它是基于hdfs作为存储介质的,所以在使用spark时,应该搭建一个hdfs。

安装JDK1.8

安装并配置环境变量,步骤略。

安装scala2.11.8

安装并配置环境变量,步骤略。

hadoop伪分布式搭建

关闭防火墙

配置本机对本机免秘钥登录

ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa
ssh-copy-id ip
其中ip为本机ip
Ssh ip
首次本机ssh本机需要输入密码或者yes,输入即可,第二次或者以后就不需要输入参数了。

下载hadoop-2.7.4.tar.gz包

解压

修改配置文件HADOOP_HOME/etc/hadoop下

Hadoop.env.sh

修改JAVA_HOME为jdk路径;

Core-site.xml

Fs.defaltFS属性修改为namenode的ip
Hadoop.tmp.dir修改为自定义目录,并创建好该目录

1
2
3
4
5
6
7
8
9
10
11
12
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.109.235:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/chen/hadoop/data/temp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>

Hdfs-site.xml

使用默认值即可

1
2
3
4
5
6
7
8
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

Mapred-env.sh

修改JAVA_HOME为jdk路径,其他默认。

Mapred-site.xml

1
2
3
4
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

yarn-env.sh

修改JAVA_HOME为java安装路径

yarn-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
yarn.resourcemanager.hostname属性指定为namenode的ip地址。
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<description>The hostname of the RM.</description>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.109.235</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>

添加slaves文件

在HADOOP_HOME/etc/hadoop文件夹下添加slaves文件,指定datanode节点
添加localhost即可。

格式化namenode

./bin/hdfs namenode –format

启动hdfs

./sbin/start-all.sh

jps查看节点服务的启动情况

如果启动正常,那么应该有
Namenode
SecondaryNamenode
Resourcemanager
Nodemanager
DataNode
这5个角色
Web Ui访问:http://ip:50070


Spark搭建

下载并解压spark-2.1.0-bin-hadoop2.7.tgz

修改配置文件

cp slaves.template slaves

cp spark-env.sh.template spark-env.sh

cp spark-defaults.conf.template spark-defaults.conf

vi spark-env.sh

增加参数

1
2
3
4
5
6
7
8
9
SPARK_MASTER_HOST=修改为ip
SPARK_MASTER_PORT=7077
SPARK_WORKER_CORES=2
SPARK_WORKER_MEMORY=4g
SPARK_WORKER_INSTANCES=3
HADOOP_CONF_DIR=/chen/hadoop2.7/hadoop-2.7.4/etc/hadoop修改为hadoop配置文件的位置
SPARK_DRIVER_MEMORY=1024M
JAVA_HOME=/chen/jdk8/jdk1.8.0_144修改为jdk的路径
MAVEN_OPTS="-Xms1024m -Xmx4096m -XX:PermSize=1024m"

vi spark-deafults.conf

spark-default.conf
其中需要修改hdfs的ip地址,并创建路径/user/spark/logs

启动spark

./sbin/start-all.sh
正常启动的话应该有:
1个Master
3个Worker
两个角色
Web Ui访问http://ip:8080


书山有路勤为径,学海无涯苦作舟。

欢迎关注微信公众号:【程序员写书】
程序员写书

喜欢宠物的朋友可以关注:【电巴克宠物Pets】
电巴克宠物

一起学习,一起进步。

-------------本文结束感谢您的阅读-------------