Flume使用之监听单个文件内容
发布日期:2021-09-27 12:34:36 浏览次数:2 分类:技术文章

本文共 1046 字,大约阅读时间需要 3 分钟。

监听单个文件,source要指定为exec

缺陷:

如果执行flume采集过程中,该agent意外结束,重新启动时会再次读取文件内容到指定目录。造成数据重复。

# 定义agent名字 a1# 定义sources、channels、sinks  都可以有多个,空格隔开a1.sources = r1a1.channels = c1a1.sinks = k1# 设置sourcea1.sources.r1.type = exec# source要执行的命令 监控的文件a1.sources.r1.command = tail -F /opt/module/flume/demo/test1.log# 设置channela1.channels.c1.type = memorya1.channels.c1.capacity = 1000# 设置sinka1.sinks.k1.type = hdfs# 设置hdfs目录a1.sinks.k1.hdfs.path = hdfs://hadoop01:8020/flume/logs/%Y-%m-%d/%H# 设置启用本地时间戳,否则上面的时间序列无法使用a1.sinks.k1.hdfs.useLocalTimeStamp = true# 设置按照时间滚动文件夹a1.sinks.k1.hdfs.round = true# 设置创建文件夹时间a1.sinks.k1.hdfs.roundValue = 1# 重新定义时间单位a1.sinks.k1.hdfs.roundUnit = hour# 设置文件前缀a1.sinks.k1.hdfs.filePrefix = logs-# 设置文件滚动时间(秒)a1.sinks.k1.hdfs.rollInterval = 60# 设置文件滚动大小(字节) 约128Ma1.sinks.k1.hdfs.rollSize = 134217700# 设置文件滚动需要的Event数量  0表示不启用a1.sinks.k1.hdfs.rollCount = 0# 设置Event刷新到hdfs数量a1.sinks.k1.hdfs.batchSize = 100# 设置存储文件类型,支持压缩a1.sinks.k1.hdfs.fileType = DataStream# 绑定source、channel、sinka1.sources.r1.channels = c1a1.sinks.k1.channel = c1

转载地址:https://blog.csdn.net/FlatTiger/article/details/113983871 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Flume使用之监听文件夹
下一篇:Flume使用之监听指定端口并打印到控制台

发表评论

最新留言

初次前来,多多关照!
[***.217.46.12]2024年04月07日 17时50分21秒