spark大数据平台搭建(spark大数据平台的基本构架)

大数据
2025-03-03 10:15:46
编辑

考高分

一、Spark大数据环境搭建
1.Ubuntu 虚拟机的安装

随后自动进入Ubuntu20.04界面

2.Ubuntu 基本配置

更新软件源并安装openssh-server、vim，随后禁用防火墙。

3.Vi 编辑器

运行“vi hello.txt”代码进入编辑,可在此练习一些常用的vi编辑命令。

4.MobaXterm 远程连接工具

接着使用该工具进行本地文件的上传，以供后续环境配置的使用。

二、Hadoop 伪分布集群环境搭建
1.JDK 的安装配置

解压JDK，在/etc/profile 文件中添加有关JDK的环境变量设置，重启后全局生效。

2.Linux 免密登录

测试连接正常后，通过ssh-keygen生成免密登录所需的密钥，再通过ssh-copy-id 命令复制本地主机公钥至远程主机，最后测验免密登陆是否成功。

3.Hadoop 的安装

解压缩hadoop-2.6.5.tar.gz，建立一个软链接文件，测试能否正常使用。

4.HDFS 的配置

修改其中的hadoop-env.sh运行环境文件、Hadoop 核心配置文件core-site.xml、HDFS设置文件hdfs-site.xml，并查看slaves配置文件的内容，接着初始化HDFS的文件系统，初始化后启动HDFS服务程序，最后使用 jps 命令查看 HDFS 的进程是否正常运行。

5.YARN 的配置

打开yarn-env.sh修改JAVA_HOME变量，打开yarn-site.xml 文件增加内存检测的相关设置，最后使用 jps 命令查看YARN的进程是否正常运行。

6.HDFS 和YARN的测试

vi编辑器修改/etc/profile文件，添加有关Hadoop环境变量设置，通过source命令使/etc/profile的内容修改生效，最后检测HDFS能否正常操作，也可通过浏览器查看HDFS、YARN的WebUI管理页面。

三、Spark 单机运行环境搭建
1.Spark 的安装配置

配置Spark运行环境，vi编辑器修改/etc/profile文件，添加有关Spark的环境变量设置，接着使用source命令使/etc/profile的内容修改生效，最后测试能否正常生效。

2.SparkShell 交互编程环境

spark-shell命令启动SparkShell交互式编程环境，并验证Spark能否正常访问HDFS上的文件。

3.Python3.6 的安装

保留预装的Python3.8，另外安装一个Python3.6 运行环境到系统中，并设置一下PYSPARK_PYTHON的环境变量。

4.PySparkShell 交互编程环境

启动PySparkShell交互编程环境，测试PySparkShell中能否访问本地和HDFS文件。

5.Pip 的安装配置

安装pip工具，将pip源改成国内镜像以加快下载速度。

6.Spark 框架目录结构

安装好了Spark之后，Spark安装目录的内容结构如图所示。

{{userData.name}}已认证

spark大数据平台搭建(spark大数据平台的基本构架)

kafka单机版搭建(单机版kafka部署)

Go脚本同步Es Redis

Win10系统PIN码修改步骤详解

Facebook广告推广报价单费用方案一览

网站源码查看器下载源代码查看器app下载

Facebook账号被封申诉入口位置在哪

Win11纯净精简系统安装优化指南

跨境选品网解析全球热销商品趋势与运营策略

关于我们

加入我们

版权声明

用户协议

网站地图

认证服务

{{userData.name}}已认证

kafka单机版搭建(单机版kafka部署)

Go脚本同步Es Redis

Win10系统PIN码修改步骤详解

Facebook广告推广报价单费用方案一览

网站源码查看器下载 源代码查看器app下载

Facebook账号被封申诉入口位置在哪

Win11纯净精简系统安装优化指南

跨境选品网解析全球热销商品趋势与运营策略

关于我们

加入我们

版权声明

用户协议

网站地图

认证服务

网站源码查看器下载源代码查看器app下载