TiDB Data Migration 处理告警
本文档介绍如何处理 TiDB Data Migration (DM) 中的告警。
高可用告警
DM_master_all_down
当全部 DM-master 离线时触发该告警。发生该错误时,需要检查集群环境,并通过各节点日志排查错误。
DM_worker_offline
存在离线的 DM-worker 超过一小时会触发该告警。在高可用架构下,该告警可能不会直接中断任务,但是会提升任务中断的风险。处理告警可以查看对应 DM-worker 节点的工作状态,检查是否连通,并通过日志排查错误。
DM_DDL_error
处理 shard DDL 时出现错误,此时需要参考 DM 故障诊断进行处理。
DM_pending_DDL
存在未完成的 shard DDL 并超过一小时会触发该告警。在某些应用场景下,存在未完成的 shard DDL 可能是用户所期望的。在用户预期以外的场景下,可以通过手动处理 Sharding DDL Lock解决。
任务状态告警
DM_task_state
当 DM-worker 内有子任务处于 Paused
状态超过 20 分钟时会触发该告警,此时需要参考 DM 故障诊断进行处理。
relay log 告警
DM_relay_process_exits_with_error
当 relay log 处理单元遇到错误时,会转为 Paused
状态并立即触发该告警,此时需要参考 DM 故障诊断进行处理。
DM_remain_storage_of_relay_log
当 relay log 所在磁盘的剩余可用容量小于 10G 时会触发该告警,对应的处理方法包括:
- 手动清理该磁盘上其他无用数据以增加可用容量。
- 尝试调整 relay log 的自动清理策略或执行手动清理。
- 使用
pause-relay
命令暂停 relay log 的拉取,并在磁盘空间合适之后使用resume-relay
命令恢复。需要注意上游数据源不要清理尚未拉取的 binlog。
DM_relay_log_data_corruption
当 relay log 处理单元在校验从上游读取到的 binlog event 且发现 checksum 信息异常时会转为 Paused
状态并立即触发告警,此时需要参考 DM 故障诊断进行处理。
DM_fail_to_read_binlog_from_master
当 relay log 处理单元在尝试从上游读取 binlog event 发生错误时,会转为 Paused
状态并立即触发该告警,此时需要参考 DM 故障诊断进行处理。
DM_fail_to_write_relay_log
当 relay log 处理单元在尝试将 binlog event 写入 relay log 文件发生错误时,会转为 Paused
状态并立即触发该告警,此时需要参考 DM 故障诊断进行处理。
DM_binlog_file_gap_between_master_relay
当 relay log 处理单元已拉取到的最新的 binlog 文件个数落后于当前上游 MySQL/MariaDB 超过 1 个(不含 1 个)且持续 10 分钟时会触发该告警,此时需要参考性能问题及处理方法对 relay log 处理单元相关的性能问题进行排查与处理。
Dump/Load 告警
DM_dump_process_exists_with_error
当 Dump 处理单元遇到错误时,会转为 Paused
状态并立即触发该告警,此时需要参考 DM 故障诊断进行处理。
DM_load_process_exists_with_error
当 Load 处理单元遇到错误时,会转为 Paused
状态并立即触发该告警,此时需要参考 DM 故障诊断进行处理。
Binlog replication 告警
DM_sync_process_exists_with_error
当 Binlog replication 处理单元遇到错误时,会转为 Paused
状态并立即触发该告警,此时需要参考 DM 故障诊断进行处理。
DM_binlog_file_gap_between_master_syncer
当 Binlog replication 处理单元已处理到的最新的 binlog 文件个数落后于当前上游 MySQL/MariaDB 超过 1 个(不含 1 个)且持续 10 分钟时 DM 会触发该告警,此时需要参考性能问题及处理方法对 Binlog replication 处理单元相关的性能问题进行排查与处理。
DM_binlog_file_gap_between_relay_syncer
当 Binlog replication 处理单元已处理到的最新的 binlog 文件个数落后于当前 relay log 处理单元超过 1 个(不含 1 个)且持续 10 分钟时 DM 会触发该告警,此时需要参考性能问题及处理方法对 Binlog replication 处理单元相关的性能问题进行排查与处理。