关注

【Flink 30天】Day19-20 Flink 线上常见故障排查:CK超时/任务重启/Kafka积压/数据倾斜

Day 19-20:常见线上故障


1. CK 超时

现象:Flink UI → Checkpoints 页面显示 CK 失败,原因 Checkpoint expired

排查步骤

1. 查看 CK 耗时(哪个算子 CK 时间最长?)
   Flink UI → Job → Checkpoints → Latest Failed Checkpoint → 展开看每个 SubTask 耗时

2. 常见原因:
   - 某算子状态太大,序列化到 HDFS 慢(看 Checkpoint Alignment Duration)
   - 任务本身反压严重,Barrier 传播被阻塞
   - HDFS 写入慢(GC、磁盘满、网络慢)

解决

原因 解决
状态大 切换 RocksDB + 开启增量 CK
任务有反压 先解决反压(参考 Day 16-18)
CK 超时设置太短 增大 checkpoint-timeout(建议 > 2倍CK间隔)
Barrier 对齐耗时长 开启非对齐 CK(at-least-once 语义)
// 非对齐 CK(牺牲精准一次,换取 CK 速度,适合有反压时)
env.enableCheckpointing(60_000L, CheckpointingMode.AT_LEAST_ONCE);
// 或
ckConfig.

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/huangrunxing/article/details/158660926

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--