一、Spark大数据环境搭建
1.Ubuntu 虚拟机的安装
随后自动进入Ubuntu20.04界面
2.Ubuntu 基本配置
更新软件源并安装openssh-server、vim,随后禁用防火墙。
3.Vi 编辑器
运行“vi hello.txt”代码进入编辑,可在此练习一些常用的vi编辑命令。
4.MobaXterm 远程连接工具
接着使用该工具进行本地文件的上传,以供后续环境配置的使用。
二、Hadoop 伪分布集群环境搭建
1.JDK 的安装配置
解压JDK,在/etc/profile 文件中添加有关JDK的环境变量设置,重启后全局生效。
2.Linux 免密登录
测试连接正常后,通过ssh-keygen生成免密登录所需的密钥,再通过ssh-copy-id 命令复制本地主机公钥至远程主机,最后测验免密登陆是否成功。
3.Hadoop 的安装
解压缩hadoop-2.6.5.tar.gz,建立一个软链接文件,测试能否正常使用。
4.HDFS 的配置
修改其中的hadoop-env.sh运行环境文件、Hadoop 核心配置文件core-site.xml、HDFS设置文件hdfs-site.xml,并查看slaves配置文件的内容,接着初始化HDFS的文件系统,初始化后启动HDFS服务程序,最后使用 jps 命令查看 HDFS 的进程是否正常运行。
5.YARN 的配置
打开yarn-env.sh修改JAVA_HOME变量,打开yarn-site.xml 文件增加内存检测的相关设置,最后使用 jps 命令查看YARN的进程是否正常运行。
6.HDFS 和YARN的测试
vi编辑器修改/etc/profile文件,添加有关Hadoop环境变量设置,通过source命令使/etc/profile的内容修改生效,最后检测HDFS能否正常操作,也可通过浏览器查看HDFS、YARN的WebUI管理页面。
三、Spark 单机运行环境搭建
1.Spark 的安装配置
配置Spark运行环境,vi编辑器修改/etc/profile文件,添加有关Spark的环境变量设置,接着使用source命令使/etc/profile的内容修改生效,最后测试能否正常生效。
2.SparkShell 交互编程环境
spark-shell命令启动SparkShell交互式编程环境,并验证Spark能否正常访问HDFS上的文件。
3.Python3.6 的安装
保留预装的Python3.8,另外安装一个Python3.6 运 行环境到系统中,并设置一下PYSPARK_PYTHON的环境变量。
4.PySparkShell 交互编程环境
启动PySparkShell交互编程环境,测试PySparkShell中能否访问本地和HDFS文件。
5.Pip 的安装配置
安装pip工具,将pip源改成国内镜像以加快下载速度。
6.Spark 框架目录结构
安装好了Spark之后,Spark安装目录的内容结构如图所示。