Linux 大数据如何启动，步骤如下

发布日期：2021-05-18 09:28:22 浏览次数：24 分类：精选文章

本文共 2295 字，大约阅读时间需要 7 分钟。

启动步骤详解 | Hadoop & Spark 环境搭建

biodiversity

虚拟机启动 & 环境配置

在搭建大数据环境之前，请确保所有虚拟机已经顺利启动，准备好基础环境。

第一台虚拟机（Spark1）：192.168.100.6

第二台虚拟机（Spark2）：192.168.100.7

第三台虚拟机（Spark3）：192.168.100.8

1. 启动 3 台虚拟机，默认使用 root 用户登录

请在每台虚拟机上执行以下命令：

sudo shutdown -r

等待重启完成后，通过 SSH登录至虚拟机地址：

ssh root@IP_ADDRESS

2. 启动 Hadoop 环境

进入 Hadoop主目录，执行以下命令启动所有组件：

cd /hadoop/bin./start-all.sh

确认启动结果：

jps

yaklaşingszr 等待所有过程停止后，确保所有 Hadoop 服务正常运行。

3. 启动 3 台 ZK （Zookeeper）服务器

在每台虚拟机上，进入 ZK 根目录，执行以下命令启动服务：

cd /hadoop/kafka./zkServer.sh start

可选工具trajectory:

./jps

预期看到 ZK 过程 ID 744，说明服务已就绪。

4. 启动 3 台 Kafka 服务器

在每台 Kafka 虚拟机上，完成以下配置：

Kafka 配置

编辑文件路径：

cd /hadoop/kafka213240/configvi server.properties

内容修改包括（请根据实际需求调整）：

broker.id=1advertise.port=9092listeners=192.168.100.6:9092log.dirs=/hadoop/kafka213240/logs/d2

重复以上三台虚拟机，确保每台 brokers.id 不同，并始终开放 9092 端口。

启动服务：

cd /hadoop/kafka213240/bin./kafka-server-start.sh -Dproperty.file=/hadoop/kafka213240/config/server.properties

检查运行情况：

jps

预期 JPS 列出的 Kafka 进程 ID 为 855。

5. 启用数据库服务

使用 MariaDB 搭建数据库，步骤如下：

启动数据库

在 Spark1（IP: 192.168.100.6）上：

sudo systemctl start mariadb

检查服务状态：

sudo systemctl status mariadb

访问数据库

mysql -u root -p

进入数据库后执行以下命令，修改 root 用户的访问权限：

use mysql;update user set host='%'修改此条命令是否适用于localhost访问：

update user set host='localhost' where user='root';

确保命令执行后，`SELECT user, host FROM user;`查询结果显示 host='localhost' 根据情况进行相应修改，默认开放所有用户。---### 6. 启动 Flume数据流实时监控 按照以下步骤执行：###### 配置 Flume 创建 Flume配置文件，路径为：

cd /hadoop/flume190/confvi flume_mysql.conf

内容如下示例：

[flume-eye]type observersstoreType filedata file ${file:/hadoop/flume190/log/flume_mysql.log}sink abc传输到指定主机

[_excel sink]type filepath Excelут wages-2023,xls

启动 Flume 实例：

flume-ng agent -c conf -f flume_mysql.conf -n a1 -Dflume.root.logger=INFO,console

---### 7. 执行 Spark 任务 在新的AEA 界面中，使用xshell连接至 Spark1（IP: 192.168.100.6），执行以下命令从外部上传文件并运行 Spark 任务：

scalar-submit --master spark://192.168.100.6:5555 --packages .* file:///path/to/jars/

确保路径正确，任务结束后查看 execution logs。---### 8. 数据源实时处理 使用 Flume实时采集数据并传输至 Kafka主题（例如 `laozhangX`）：

flume-ng agent -c conf -f flume_mysql.conf -n a1 -Dflume.root.logger=INFO,console

接下来，可通过 Kafka consumers消费主题数据.---### 完整文档获取 如需更详细的搭建步骤和配置结果，请参考： [腾讯文档 — 大数据环境搭建指南](https://docs.qq.com/doc/DQndtbUJDVWFnblJW)--- 以上步骤详细指导了从虚拟机启动到大数据实时处理平台的部署流程，建议在执行前确保所有网络设备已配置好，并检查网络防火墙设置确保各服务间通信正常。

上一篇：如何重新下载Maven依赖？？？？？？？？详解

下一篇：linux 报错文本文件忙是怎么回事，无法解决，求解？？？？？？？？？？、

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！