Day 19-20:常见线上故障
1. CK 超时
现象:Flink UI → Checkpoints 页面显示 CK 失败,原因 Checkpoint expired
排查步骤:
1. 查看 CK 耗时(哪个算子 CK 时间最长?)
Flink UI → Job → Checkpoints → Latest Failed Checkpoint → 展开看每个 SubTask 耗时
2. 常见原因:
- 某算子状态太大,序列化到 HDFS 慢(看 Checkpoint Alignment Duration)
- 任务本身反压严重,Barrier 传播被阻塞
- HDFS 写入慢(GC、磁盘满、网络慢)
解决:
| 原因 | 解决 |
|---|---|
| 状态大 | 切换 RocksDB + 开启增量 CK |
| 任务有反压 | 先解决反压(参考 Day 16-18) |
| CK 超时设置太短 | 增大 checkpoint-timeout(建议 > 2倍CK间隔) |
| Barrier 对齐耗时长 | 开启非对齐 CK(at-least-once 语义) |
// 非对齐 CK(牺牲精准一次,换取 CK 速度,适合有反压时)
env.enableCheckpointing(60_000L, CheckpointingMode.AT_LEAST_ONCE);
// 或
ckConfig.
转载自CSDN-专业IT技术社区
原文链接:https://blog.csdn.net/huangrunxing/article/details/158660926



