Flume使用之监听单个文件内容-白红宇的个人博客

发布日期：2021-09-27 12:34:36 浏览次数：2 分类：技术文章

本文共 1046 字，大约阅读时间需要 3 分钟。

监听单个文件，source要指定为exec

缺陷：

如果执行flume采集过程中，该agent意外结束，重新启动时会再次读取文件内容到指定目录。造成数据重复。

# 定义agent名字 a1# 定义sources、channels、sinks  都可以有多个，空格隔开a1.sources = r1a1.channels = c1a1.sinks = k1# 设置sourcea1.sources.r1.type = exec# source要执行的命令 监控的文件a1.sources.r1.command = tail -F /opt/module/flume/demo/test1.log# 设置channela1.channels.c1.type = memorya1.channels.c1.capacity = 1000# 设置sinka1.sinks.k1.type = hdfs# 设置hdfs目录a1.sinks.k1.hdfs.path = hdfs://hadoop01:8020/flume/logs/%Y-%m-%d/%H# 设置启用本地时间戳，否则上面的时间序列无法使用a1.sinks.k1.hdfs.useLocalTimeStamp = true# 设置按照时间滚动文件夹a1.sinks.k1.hdfs.round = true# 设置创建文件夹时间a1.sinks.k1.hdfs.roundValue = 1# 重新定义时间单位a1.sinks.k1.hdfs.roundUnit = hour# 设置文件前缀a1.sinks.k1.hdfs.filePrefix = logs-# 设置文件滚动时间(秒)a1.sinks.k1.hdfs.rollInterval = 60# 设置文件滚动大小(字节) 约128Ma1.sinks.k1.hdfs.rollSize = 134217700# 设置文件滚动需要的Event数量  0表示不启用a1.sinks.k1.hdfs.rollCount = 0# 设置Event刷新到hdfs数量a1.sinks.k1.hdfs.batchSize = 100# 设置存储文件类型，支持压缩a1.sinks.k1.hdfs.fileType = DataStream# 绑定source、channel、sinka1.sources.r1.channels = c1a1.sinks.k1.channel = c1

转载地址：https://blog.csdn.net/FlatTiger/article/details/113983871 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Flume使用之监听文件夹

下一篇：Flume使用之监听指定端口并打印到控制台

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章