TiDB Cloud 内置告警
TiDB Cloud 为你提供了便捷的方式来查看告警、编辑告警规则,以及订阅告警通知。
本文档介绍了如何进行这些操作,并为你提供了 TiDB Cloud 内置告警条件以供参考。
查看告警
在 TiDB Cloud 中,你可以在 Alerts 页面查看活跃和已关闭的告警。
在 TiDB Cloud 控制台中,导航到 My TiDB 页面。
提示:
如果你属于多个组织,请使用左上角的下拉框先切换到目标组织。
点击目标 TiDB Cloud Essential 实例或 TiDB Cloud Dedicated 集群的名称,进入其概览页面。
在左侧导航栏点击 Alerts。
Alerts 页面默认显示活跃告警。你可以查看每个活跃告警的信息,如告警名称、触发时间和持续时间。
如果你还想查看已关闭的告警,只需点击 Status 下拉列表并选择 Closed 或 All。
编辑告警规则
在 TiDB Cloud 中,你可以通过禁用或启用告警,或修改告警阈值来编辑告警规则。
在 Alerts 页面,点击 Edit Rules。
根据需要禁用或启用告警规则。
点击 Edit 以修改告警规则的阈值。
提示:
目前,TiDB Cloud 提供的告警规则编辑能力有限。部分告警规则不支持编辑。如果你希望配置不同的触发条件或频率,或让告警自动触发下游服务(如 PagerDuty)的操作,建议使用 第三方监控与告警集成。
订阅告警通知
在 TiDB Cloud 中,你可以通过以下方式之一订阅告警通知:
TiDB Cloud 内置告警条件
下表提供了 TiDB Cloud 内置告警条件及对应的推荐操作。
注意
- 这些告警条件并不一定意味着存在问题,但通常是潜在问题的早期预警信号。因此,建议采取推荐操作。
- 你可以在 TiDB Cloud 控制台编辑告警的阈值。
- 部分告警规则默认处于禁用状态。你可以根据需要启用它们。
TiDB Cloud 会根据不同的 TiDB Cloud 方案,结合该方案下可用的功能,提供不同的告警规则。
资源使用告警
| 条件 | 推荐操作 |
|---|
| 整个集群 TiDB 节点内存利用率超过 70% 持续 10 分钟 | 考虑增加 TiDB 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| 整个集群 TiKV 节点内存利用率超过 70% 持续 10 分钟 | 考虑增加 TiKV 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| 整个集群 TiFlash 节点内存利用率超过 70% 持续 10 分钟 | 考虑增加 TiFlash 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| TiDB 节点 CPU 利用率超过 80% 持续 10 分钟 | 考虑增加 TiDB 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiKV 节点 CPU 利用率超过 80% 持续 10 分钟 | 考虑增加 TiKV 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiFlash 节点 CPU 利用率超过 80% 持续 10 分钟 | 考虑增加 TiFlash 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiKV 存储利用率超过 80% | 考虑增加 TiKV 节点数量或节点存储容量,以提升存储能力。当 TiKV 存储使用率超过 80% 时,可能会出现延时激增,更高的使用率可能导致请求失败。 |
| TiFlash 存储利用率超过 80% | 考虑增加 TiFlash 节点数量或节点存储容量,以提升存储能力。当所有 TiFlash 节点的存储使用率达到 80% 时,任何添加 TiFlash 副本的 DDL 语句都会无限期假死。 |
| 集群中 TiDB 节点最大内存利用率超过 70% 持续 10 分钟 | 建议检查集群中是否存在 热点,或增加 TiDB 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| 集群中 TiKV 节点最大内存利用率超过 70% 持续 10 分钟 | 建议检查集群中是否存在 热点,或增加 TiKV 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| 集群中 TiDB 节点最大 CPU 利用率超过 80% 持续 10 分钟 | 建议检查集群中是否存在 热点,或增加 TiDB 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| 集群中 TiKV 节点最大 CPU 利用率超过 80% 持续 10 分钟 | 建议检查集群中是否存在 热点,或增加 TiKV 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
数据迁移告警
| 条件 | 推荐操作 |
|---|
| 数据迁移任务在数据导出阶段发生错误 | 检查错误信息,并参考 数据迁移故障排查 获取帮助。 |
| 数据迁移任务在数据导入阶段发生错误 | 检查错误信息,并参考 数据迁移故障排查 获取帮助。 |
| 数据迁移任务在增量迁移阶段发生错误 | 检查错误信息,并参考 数据迁移故障排查 获取帮助。 |
| 数据迁移任务在增量迁移阶段已暂停超过 6 小时 | 数据迁移任务在数据增量迁移阶段已暂停超过 6 小时。上游数据库中的 binlog 可能已被清理(取决于你的数据库 binlog 清理策略),这可能导致增量迁移失败。请参考 数据迁移故障排查 获取帮助。 |
| 同步延迟超过 10 分钟且持续增长超过 20 分钟 | 请参考 数据迁移故障排查 获取帮助。 |
TiDB Cloud Dedicated 的 Changefeed 告警
| 条件 | 推荐操作 |
|---|
| Changefeed 延时超过 600 秒 | 在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。 可能触发该告警的原因包括:- 上游整体流量增加,导致现有 changefeed 规格无法承载。如果流量增加是暂时的,changefeed 延时会在流量恢复正常后自动恢复。如果流量持续增加,则需要扩展 changefeed。
- 下游或网络异常,此时应先排查并解决异常。
- 如果下游为 RDS,表缺少索引,可能导致写入性能低、延时高,此时需要为上游或下游添加必要索引。
如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。 |
Changefeed 状态为 FAILED | 在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。 如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。 |
Changefeed 状态为 WARNING | 在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。 如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。 |