
大数据之Flume:Flume实时监控单个文件
3)实现步骤: 组件选择 Exec Source,HDFS sink 1.Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包 将 commons-configuration-1.6.jar、 hadoop-auth-2.7.2.jar、 hadoop-common-2.7.2.jar、 hadoop-hdfs-2.7.2.jar、 commons-io-2.4.jar、 htrace-core-3.1.0-incubating.jar 拷贝到/opt/module/flume/lib文件夹下。 2.创建flume-file-hdfs.conf文件 创建文件 [hadoop@hadoop101 job]$ vim flume-file-hdfs.conf 注:要想读取Linux系统中的文件,就得按照Linux命令的规则执行命令。由于Hive日志在Linux系统中所以读取文件的类型选择:exec即execute执行的意思。表示执行Linux命令来读取文件。 添加如下内容
发布日期:2021-05-07 07:32:03
浏览次数:27
分类:精选文章
本文共 1905 字,大约阅读时间需要 6 分钟。
实时监控单个文件
1)案例需求:实时监控Hive日志,并上传到HDFS中 2)需求分析:
# Name the components on this agenta2.sources = r2a2.sinks = k2a2.channels = c2# Describe/configure the sourcea2.sources.r2.type = execa2.sources.r2.command = tail -F /opt/module/hive/logs/hive.loga2.sources.r2.shell = /bin/bash -c# Describe the sinka2.sinks.k2.type = hdfs//一旦路径中含有基于时间的转义序列,要求event的header中必须有useLocalTimeStamp =时间戳a2.sinks.k2.hdfs.path = hdfs://hadoop101:9000/flume/%Y%m%d/%H#上传文件的前缀a2.sinks.k2.hdfs.filePrefix = logs-//一下三个和目录滚动相关,,目录一旦设置了时间转义序列,基于时间戳滚动#是否按照时间滚动文件夹a2.sinks.k2.hdfs.round = true#多少时间单位创建一个新的文件夹a2.sinks.k2.hdfs.roundValue = 1#重新定义时间单位a2.sinks.k2.hdfs.roundUnit = hour#是否使用本地时间戳a2.sinks.k2.hdfs.useLocalTimeStamp = true#积攒多少个Event才flush到HDFS一次a2.sinks.k2.hdfs.batchSize = 100# 以下三个参数和文件滚动相关,以下三个参数为或的关系,为0表示禁用#多久生成一个新的文件a2.sinks.k2.hdfs.rollInterval = 10#设置每个文件的滚动大小a2.sinks.k2.hdfs.rollSize = 134217700#文件的滚动与Event数量无关a2.sinks.k2.hdfs.rollCount = 0# Use a channel which buffers events in memorya2.channels.c2.type = memorya2.channels.c2.capacity = 10000a2.channels.c2.transactionCapacity = 1000# Bind the source and sink to the channela2.sources.r2.channels = c2a2.sinks.k2.channel = c2
3.运行Flume
[hadoop@hadoop101 flume]$ bin/flume-ng agent -c conf/ -n a2 -f job/flume-file-hdfs.conf
4.开启Hadoop和Hive并操作Hive产生日志
[hadoop@hadoop101 hadoop-2.7.2]$ sbin/start-dfs.sh[hadoop@hadoop102 hadoop-2.7.2]$ sbin/start-yarn.sh
[hadoop@hadoop101 hive]$ bin/hivehive (default)>
5.在HDFS上查看文件。

发表评论
最新留言
很好
[***.229.124.182]2025年04月18日 22时03分07秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
C语言的数值溢出问题(上)
2021-05-08
8051单片机(STC89C52)以定时器中断模式实现两倒计时器异步计时
2021-05-08
vue项目通过vue.config.js配置文件进行proxy反向代理跨域
2021-05-08
android:使用audiotrack 类播放wav文件
2021-05-08
聊聊我的五一小假期
2021-05-08
数据库三个级别封锁协议
2021-05-08
ACM/NCPC2016 C Card Hand Sorting(upc 3028)
2021-05-08
ubuntu学习笔记-常用文件、命令以及作用(hosts、vim、ssh)
2021-05-08
SLAM学习笔记-求解视觉SLAM问题
2021-05-08
还在一个一个手动安装虚拟机吗?Cobbler自动部署装机一键最小化安装打把游戏就好了
2021-05-08
程序员应该知道的97件事
2021-05-08
create-react-app路由的实现原理
2021-05-08
Linux环境变量配置错误导致命令不能使用(杂谈)
2021-05-08
openstack安装(九)网络服务的安装--控制节点
2021-05-08
shell编程(六)语言编码规范之(变量)
2021-05-08
vimscript学习笔记(二)预备知识
2021-05-08
Android数据库
2021-05-08
HTML基础,块级元素/行内元素/行内块元素辨析【2分钟掌握】
2021-05-08
STM8 GPIO模式
2021-05-08