tonglin0325的个人主页

Flink学习笔记——读写hdfs

Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。

当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hdfs文件中的无效数据进行截断操作,从而保证数据不重复。

参考:Flink exactly-once 实战笔记

关于hdfs的truncate功能可以参考:HDFS Truncate文件截断