平台搭建---spark平台搭建
发布日期:2021-07-24 12:00:39 浏览次数:2 分类:技术文章

本文共 1953 字,大约阅读时间需要 6 分钟。

准备好相关环境

主要是在集群电脑上安装好java JDK,设置好电脑主机名称,配置Ip地址,利用ssh进行电脑间的连接,并测试好网络连接可靠。搭建hadoop系统(sprak本身不依赖hadoop,这里我想把hadoop用起来),同时可以预装python、pycharm这些可能用到的编程语言和开发环境。hadoop系统如何搭建可参考我之前的。

安装spark

至相应版本的spark安装文件

并解压安装包至目标目录
spark路径添加至环境变量

export SPARK_HOME=/usr/spark-2.2.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin

设置spark的java路径

/usr/local/spark/conf/spark-env.sh 里面再加上JAVA_HOME路径

# set JDK pathexport JAVA_HOME=/usr/local/jdkexport PATH=$PATH:$JAVA_HOME/bin

编辑主节点上的conf/slaves文件并填上所有工作节点的主机名

启动集群

与hadoop类似,在主节点上,在/usr/spark-2.2.0-bin-hadoop2.7/sbin$ 下有启动集群的脚本,如在命令行进入spark目录后输入sbin/start-all.sh
集群启动成功后可在http://主机名称:8080看到集群管理器的网页用户界面,上面显示着所有的工作节点。

安装开发工具python

ubuntu16.04中已经预装了python,至此我们已经可以利用python语言来使用spark平台了。在/usr/spark-2.2.0-bin-hadoop2.7/bin下有个pyspark.cmd,这个就是spark自带的python开发界面,我们可以使用命令行的方式来与spark系统交互。

但由于ubuntu系统有两个版本,系统默认是用2.7版,可自己设置成3.5版的,方法如下

sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 150

python --version可查看python的当前版本

安装pyspark等库

Spark目录下是有pyspark的,因而在spark的shell里可以使用python来与spark进行交互,但要在python中调用spark的功能,还需要安装pyspark库;

安装其他python库前先安装python的pip工具;

sudo apt-get install python-pipsudo pip install --upgrade pip

安装pyspark,安装方法sudo pip3 install pyspark。在安装过程中可能老是中途中断,有可能是源的问题。可更换源 pip3 install -i https://pypi.doubanio.com/simple/ pyspark;

为了之后数据挖掘的方便,可先预装好一些python库,方法pip3 install -i https://pypi.doubanio.com/simple/ 包名;可预装的库有numpy、Scipy、Pandas、Scikit-Learn、Matplotlib、NLTK、pyspark、scrapy、seaborn、collections等。
查看Spark版本的一个方法:
在运行pyspark,则会显示使用的python信息和spark信息。

运行一个小程序来测试spark与hadoop的连接

spark组件

sparkthriftserver用于提供远程odbc调用,在远端执行hive sql查询。默认监听10000端口,Hiveserver2默认也是监听10000端口,为了避免冲突,需要修改sparkthriftserver的端口。启用sparkthriftserver需要将hive-site.xml文件copy到spakr的conf目录下,元数据存储在mysql中,所以还需要mysql-connector-java-5.1.43-bin.jar,用于连接mysql。

问题集锦

问题一:java.io.IOException: Failed to create local dir in ……

网上说的原因很多,但是我的解决方法是重启解决了,具体原因不知道

转载地址:https://blog.csdn.net/qingqing7/article/details/78567680 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:算法模型---朴素贝叶斯
下一篇:编程基础---linux命令集(一)

发表评论

最新留言

初次前来,多多关照!
[***.217.46.12]2024年04月05日 01时42分26秒