Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。
当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hdfs文件中的无效数据进行截断操作,从而保证数据不重复。
关于hdfs的truncate功能可以参考:HDFS Truncate文件截断
Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。
当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hdfs文件中的无效数据进行截断操作,从而保证数据不重复。
关于hdfs的truncate功能可以参考:HDFS Truncate文件截断