spark大数据平台搭建(spark大数据平台的基本构架)

一、Spark大数据环境搭建
1.Ubuntu 虚拟机的安装

随后自动进入Ubuntu20.04界面

2.Ubuntu 基本配置

更新软件源并安装openssh-server、vim,随后禁用防火墙。

3.Vi 编辑器

运行“vi hello.txt”代码进入编辑,可在此练习一些常用的vi编辑命令。

4.MobaXterm 远程连接工具

接着使用该工具进行本地文件的上传,以供后续环境配置的使用。

二、Hadoop 伪分布集群环境搭建
1.JDK 的安装配置

解压JDK,在/etc/profile 文件中添加有关JDK的环境变量设置,重启后全局生效。

2.Linux 免密登录

测试连接正常后,通过ssh-keygen生成免密登录所需的密钥,再通过ssh-copy-id 命令复制本地主机公钥至远程主机,最后测验免密登陆是否成功。

3.Hadoop 的安装

解压缩hadoop-2.6.5.tar.gz,建立一个软链接文件,测试能否正常使用。

4.HDFS 的配置

修改其中的hadoop-env.sh运行环境文件、Hadoop 核心配置文件core-site.xml、HDFS设置文件hdfs-site.xml,并查看slaves配置文件的内容,接着初始化HDFS的文件系统,初始化后启动HDFS服务程序,最后使用 jps 命令查看 HDFS 的进程是否正常运行。

5.YARN 的配置

打开yarn-env.sh修改JAVA_HOME变量,打开yarn-site.xml 文件增加内存检测的相关设置,最后使用 jps 命令查看YARN的进程是否正常运行。

6.HDFS 和YARN的测试

vi编辑器修改/etc/profile文件,添加有关Hadoop环境变量设置,通过source命令使/etc/profile的内容修改生效,最后检测HDFS能否正常操作,也可通过浏览器查看HDFS、YARN的WebUI管理页面。

三、Spark 单机运行环境搭建
1.Spark 的安装配置

配置Spark运行环境,vi编辑器修改/etc/profile文件,添加有关Spark的环境变量设置,接着使用source命令使/etc/profile的内容修改生效,最后测试能否正常生效。

2.SparkShell 交互编程环境

spark-shell命令启动SparkShell交互式编程环境,并验证Spark能否正常访问HDFS上的文件。

3.Python3.6 的安装

保留预装的Python3.8,另外安装一个Python3.6 运 行环境到系统中,并设置一下PYSPARK_PYTHON的环境变量。

4.PySparkShell 交互编程环境

启动PySparkShell交互编程环境,测试PySparkShell中能否访问本地和HDFS文件。

5.Pip 的安装配置

安装pip工具,将pip源改成国内镜像以加快下载速度。

6.Spark 框架目录结构

安装好了Spark之后,Spark安装目录的内容结构如图所示。

大数据

kafka单机版搭建(单机版kafka部署)

2025-3-3 10:15:45

大数据

Elasticsearch架构原理与底层设计:深入解析分布式架构、索引结构与高并发高可用机制

2025-3-3 10:15:47

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧