
本文共 2295 字,大约阅读时间需要 7 分钟。
启动步骤详解 | Hadoop & Spark 环境搭建
biodiversity
虚拟机启动 & 环境配置
在搭建大数据环境之前,请确保所有虚拟机已经顺利启动,准备好基础环境。
第一台虚拟机(Spark1):192.168.100.6
第二台虚拟机(Spark2):192.168.100.7
第三台虚拟机(Spark3):192.168.100.8
1. 启动 3 台虚拟机,默认使用 root 用户登录
请在每台虚拟机上执行以下命令:
sudo shutdown -r
等待重启完成后,通过 SSH登录至虚拟机地址:
ssh root@IP_ADDRESS
2. 启动 Hadoop 环境
进入 Hadoop主目录,执行以下命令启动所有组件:
cd /hadoop/bin./start-all.sh
确认启动结果:
jps
yaklaşingszr 等待所有过程停止后,确保所有 Hadoop 服务正常运行。
3. 启动 3 台 ZK (Zookeeper)服务器
在每台虚拟机上,进入 ZK 根目录,执行以下命令启动服务:
cd /hadoop/kafka./zkServer.sh start
可选工具trajectory:
./jps
预期看到 ZK 过程 ID 744,说明服务已就绪。
4. 启动 3 台 Kafka 服务器
在每台 Kafka 虚拟机上,完成以下配置:
Kafka 配置
编辑文件路径:
cd /hadoop/kafka213240/configvi server.properties
内容修改包括(请根据实际需求调整):
broker.id=1advertise.port=9092listeners=192.168.100.6:9092log.dirs=/hadoop/kafka213240/logs/d2
重复以上三台虚拟机,确保每台 brokers.id 不同,并始终开放 9092 端口。
启动服务:
cd /hadoop/kafka213240/bin./kafka-server-start.sh -Dproperty.file=/hadoop/kafka213240/config/server.properties
检查运行情况:
jps
预期 JPS 列出的 Kafka 进程 ID 为 855。
5. 启用数据库服务
使用 MariaDB 搭建数据库,步骤如下:
启动数据库
在 Spark1(IP: 192.168.100.6)上:
sudo systemctl start mariadb
检查服务状态:
sudo systemctl status mariadb
访问数据库
mysql -u root -p
进入数据库后执行以下命令,修改 root 用户的访问权限:
use mysql;update user set host='%'修改此条命令是否适用于localhost访问:
update user set host='localhost' where user='root';
确保命令执行后,`SELECT user, host FROM user;`查询结果显示 host='localhost' 根据情况进行相应修改,默认开放所有用户。---### 6. 启动 Flume数据流实时监控 按照以下步骤执行:###### 配置 Flume 创建 Flume配置文件,路径为:
cd /hadoop/flume190/confvi flume_mysql.conf
内容如下示例:
[flume-eye]type observersstoreType filedata file ${file:/hadoop/flume190/log/flume_mysql.log}sink abc传输到指定主机
[_excel sink]type filepath Excelут wages-2023,xls
启动 Flume 实例:
flume-ng agent -c conf -f flume_mysql.conf -n a1 -Dflume.root.logger=INFO,console
---### 7. 执行 Spark 任务 在新的AEA 界面中,使用xshell连接至 Spark1(IP: 192.168.100.6),执行以下命令从外部上传文件并运行 Spark 任务:
scalar-submit --master spark://192.168.100.6:5555 --packages .* file:///path/to/jars/
确保路径正确,任务结束后查看 execution logs。---### 8. 数据源实时处理 使用 Flume实时采集数据并传输至 Kafka主题(例如 `laozhangX`):
flume-ng agent -c conf -f flume_mysql.conf -n a1 -Dflume.root.logger=INFO,console
接下来,可通过 Kafka consumers消费主题数据.---### 完整文档获取 如需更详细的搭建步骤和配置结果,请参考: [腾讯文档 — 大数据环境搭建指南](https://docs.qq.com/doc/DQndtbUJDVWFnblJW)--- 以上步骤详细指导了从虚拟机启动到大数据实时处理平台的部署流程,建议在执行前确保所有网络设备已配置好,并检查网络防火墙设置确保各服务间通信正常。
发表评论
最新留言
关于作者
