Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。
当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hdfs文件中的无效数据进行截断操作,从而保证数据不重复。
关于hdfs的truncate功能可以参考:HDFS Truncate文件截断
Flink自带Exactly Once语义,对于支持事务的存储,可以做到数据的不重不丢。
当使用Flink来写hdfs的时候,因为hdfs文件只能在末尾进行append,如果要做到数据不重不丢,hdfs在2.7.0及其以上的版本中提供了truncate功能,可以根据valid-length长度对hdfs文件中的无效数据进行截断操作,从而保证数据不重复。
关于hdfs的truncate功能可以参考:HDFS Truncate文件截断

AWS Airbnb Android CDH Doris ELK Flink Git Grafana HAProxy HBase Hadoop Hive Hudi InfluxDB JDBC JMeter JVM Java LaTex Linkedin Linux ML ML Infra MPP Maven MySQL Nexus OpenTSDB Paper Play Prometheus Python React Redis RocksDB Scala Solr Spark SpringBoot SpringMVC Thrift YARN antlr arthas avro cassandra clickhouse confluent docker filebeat flume golang google gradle hexo impala jenkins k8s kafka kerberos kudu ldap mac mongo mybatis nginx nlp open-falcon openwrt parquet presto ranger rocketmq scyllaDB twitter zookeeper 刷题 前端 图存储及计算 多线程 广告系统 开发工具 数据结构 杂谈 算法 系统设计 计算机基础 设计模式