TiDB Cloud 内置告警
TiDB Cloud 为你提供了便捷的方式来查看告警、编辑告警规则,以及订阅告警通知。
本文档介绍了如何进行这些操作,并为你提供了 TiDB Cloud 内置告警条件以供参考。
查看告警
在 TiDB Cloud 中,你可以在 Alerts 页面查看活跃和已关闭的告警。
在 TiDB Cloud 控制台中,导航到你的项目的 Clusters 页面。
提示:
你可以使用左上角的下拉框在组织、项目和集群之间切换。
点击目标集群的名称,进入集群概览页面。
在左侧导航栏点击 Alerts。
Alerts 页面默认显示活跃告警。你可以查看每个活跃告警的信息,如告警名称、触发时间和持续时间。
如果你还想查看已关闭的告警,只需点击 Status 下拉列表并选择 Closed 或 All。
编辑告警规则
在 TiDB Cloud 中,你可以通过禁用或启用告警,或修改告警阈值来编辑告警规则。
在 Alerts 页面,点击 Edit Rules。
根据需要禁用或启用告警规则。
点击 Edit 以修改告警规则的阈值。
提示:
目前,TiDB Cloud 提供的告警规则编辑能力有限。部分告警规则不支持编辑。如果你希望配置不同的触发条件或频率,或让告警自动触发下游服务(如 PagerDuty)的操作,建议使用 第三方监控与告警集成。
订阅告警通知
在 TiDB Cloud 中,你可以通过以下方式之一订阅告警通知:
TiDB Cloud 内置告警条件
下表提供了 TiDB Cloud 内置告警条件及对应的推荐操作。
TiDB Cloud 会根据不同集群方案,结合该方案的功能,提供不同的告警规则。
资源使用告警
| 条件 | 推荐操作 |
|---|---|
| 整个集群 TiDB 节点内存利用率超过 70% 持续 10 分钟 | 考虑增加 TiDB 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| 整个集群 TiKV 节点内存利用率超过 70% 持续 10 分钟 | 考虑增加 TiKV 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| 整个集群 TiFlash 节点内存利用率超过 70% 持续 10 分钟 | 考虑增加 TiFlash 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| TiDB 节点 CPU 利用率超过 80% 持续 10 分钟 | 考虑增加 TiDB 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiKV 节点 CPU 利用率超过 80% 持续 10 分钟 | 考虑增加 TiKV 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiFlash 节点 CPU 利用率超过 80% 持续 10 分钟 | 考虑增加 TiFlash 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiKV 存储利用率超过 80% | 考虑增加 TiKV 节点数量或节点存储容量,以提升你的存储能力。 |
| TiFlash 存储利用率超过 80% | 考虑增加 TiFlash 节点数量或节点存储容量,以提升你的存储能力。 |
| TiDB 节点最大内存利用率超过 70% 持续 10 分钟 | 建议检查集群中是否存在 热点 问题,或增加 TiDB 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| TiKV 节点最大内存利用率超过 70% 持续 10 分钟 | 建议检查集群中是否存在 热点 问题,或增加 TiKV 节点数量或节点规格,以降低当前负载下的内存使用百分比。 |
| TiDB 节点最大 CPU 利用率超过 80% 持续 10 分钟 | 建议检查集群中是否存在 热点 问题,或增加 TiDB 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
| TiKV 节点最大 CPU 利用率超过 80% 持续 10 分钟 | 建议检查集群中是否存在 热点 问题,或增加 TiKV 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。 |
数据迁移告警
| 条件 | 推荐操作 |
|---|---|
| 数据迁移任务在数据导出过程中遇到错误 | 检查错误信息,并参考 数据迁移故障排查 获取帮助。 |
| 数据迁移任务在数据导入过程中遇到错误 | 检查错误信息,并参考 数据迁移故障排查 获取帮助。 |
| 数据迁移任务在增量迁移过程中遇到错误 | 检查错误信息,并参考 数据迁移故障排查 获取帮助。 |
| 数据迁移任务在增量迁移过程中已暂停超过 6 小时 | 数据迁移任务在数据增量迁移过程中已暂停超过 6 小时。上游数据库中的 binlog 可能已被清理(取决于你的数据库 binlog 清理策略),这可能导致增量迁移失败。请参考 数据迁移故障排查 获取帮助。 |
| 同步延迟大于 10 分钟且持续增长超过 20 分钟 | 请参考 数据迁移故障排查 获取帮助。 |
TiDB Cloud Dedicated 的 Changefeed 告警
| 条件 | 推荐操作 |
|---|---|
| changefeed 延时超过 600 秒 | 在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。 可能触发该告警的原因包括:
|
changefeed 状态为 FAILED | 在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。 如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。 |
changefeed 状态为 WARNING | 在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。 如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。 |