TiDB Cloud 内置告警

TiDB Cloud 为你提供了便捷的方式来查看告警、编辑告警规则，以及订阅告警通知。

本文档介绍了如何进行这些操作，并为你提供了 TiDB Cloud 内置告警条件以供参考。

注意

目前，告警订阅仅适用于 TiDB Cloud Essential 实例和 TiDB Cloud Dedicated 集群。

查看告警

在 TiDB Cloud 中，你可以在 Alerts 页面查看活跃和已关闭的告警。

在 TiDB Cloud 控制台中，导航到 My TiDB 页面。
提示：
如果你属于多个组织，请使用左上角的下拉框先切换到目标组织。
点击目标 TiDB Cloud Essential 实例或 TiDB Cloud Dedicated 集群的名称，进入其概览页面。
在左侧导航栏点击 Alerts。
Alerts 页面默认显示活跃告警。你可以查看每个活跃告警的信息，如告警名称、触发时间和持续时间。
如果你还想查看已关闭的告警，只需点击 Status 下拉列表并选择 Closed 或 All。

编辑告警规则

在 TiDB Cloud 中，你可以通过禁用或启用告警，或修改告警阈值来编辑告警规则。

在 Alerts 页面，点击 Edit Rules。
根据需要禁用或启用告警规则。
点击 Edit 以修改告警规则的阈值。
提示：
目前，TiDB Cloud 提供的告警规则编辑能力有限。部分告警规则不支持编辑。如果你希望配置不同的触发条件或频率，或让告警自动触发下游服务（如 PagerDuty）的操作，建议使用第三方监控与告警集成。

订阅告警通知

在 TiDB Cloud 中，你可以通过以下方式之一订阅告警通知：

TiDB Cloud 内置告警条件

下表提供了 TiDB Cloud 内置告警条件及对应的推荐操作。

注意

这些告警条件并不一定意味着存在问题，但通常是潜在问题的早期预警信号。因此，建议采取推荐操作。
你可以在 TiDB Cloud 控制台编辑告警的阈值。
部分告警规则默认处于禁用状态。你可以根据需要启用它们。

TiDB Cloud 会根据不同的 TiDB Cloud 方案，结合该方案下可用的功能，提供不同的告警规则。

资源使用告警

条件	推荐操作
整个集群 TiDB 节点内存利用率超过 70% 持续 10 分钟	考虑增加 TiDB 节点数量或节点规格，以降低当前负载下的内存使用百分比。
整个集群 TiKV 节点内存利用率超过 70% 持续 10 分钟	考虑增加 TiKV 节点数量或节点规格，以降低当前负载下的内存使用百分比。
整个集群 TiFlash 节点内存利用率超过 70% 持续 10 分钟	考虑增加 TiFlash 节点数量或节点规格，以降低当前负载下的内存使用百分比。
TiDB 节点 CPU 利用率超过 80% 持续 10 分钟	考虑增加 TiDB 节点数量或节点规格，以降低当前负载下的 CPU 使用百分比。
TiKV 节点 CPU 利用率超过 80% 持续 10 分钟	考虑增加 TiKV 节点数量或节点规格，以降低当前负载下的 CPU 使用百分比。
TiFlash 节点 CPU 利用率超过 80% 持续 10 分钟	考虑增加 TiFlash 节点数量或节点规格，以降低当前负载下的 CPU 使用百分比。
TiKV 存储利用率超过 80%	考虑增加 TiKV 节点数量或节点存储容量，以提升存储能力。当 TiKV 存储使用率超过 80% 时，可能会出现延时激增，更高的使用率可能导致请求失败。
TiFlash 存储利用率超过 80%	考虑增加 TiFlash 节点数量或节点存储容量，以提升存储能力。当所有 TiFlash 节点的存储使用率达到 80% 时，任何添加 TiFlash 副本的 DDL 语句都会无限期假死。
集群中 TiDB 节点最大内存利用率超过 70% 持续 10 分钟	建议检查集群中是否存在热点，或增加 TiDB 节点数量或节点规格，以降低当前负载下的内存使用百分比。
集群中 TiKV 节点最大内存利用率超过 70% 持续 10 分钟	建议检查集群中是否存在热点，或增加 TiKV 节点数量或节点规格，以降低当前负载下的内存使用百分比。
集群中 TiDB 节点最大 CPU 利用率超过 80% 持续 10 分钟	建议检查集群中是否存在热点，或增加 TiDB 节点数量或节点规格，以降低当前负载下的 CPU 使用百分比。
集群中 TiKV 节点最大 CPU 利用率超过 80% 持续 10 分钟	建议检查集群中是否存在热点，或增加 TiKV 节点数量或节点规格，以降低当前负载下的 CPU 使用百分比。

数据迁移告警

条件	推荐操作
数据迁移任务在数据导出阶段发生错误	检查错误信息，并参考数据迁移故障排查获取帮助。
数据迁移任务在数据导入阶段发生错误	检查错误信息，并参考数据迁移故障排查获取帮助。
数据迁移任务在增量迁移阶段发生错误	检查错误信息，并参考数据迁移故障排查获取帮助。
数据迁移任务在增量迁移阶段已暂停超过 6 小时	数据迁移任务在数据增量迁移阶段已暂停超过 6 小时。上游数据库中的 binlog 可能已被清理（取决于你的数据库 binlog 清理策略），这可能导致增量迁移失败。请参考数据迁移故障排查获取帮助。
同步延迟超过 10 分钟且持续增长超过 20 分钟	请参考数据迁移故障排查获取帮助。

TiDB Cloud Dedicated 的 Changefeed 告警

条件	推荐操作
Changefeed 延时超过 600 秒	在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态，你可以在这些页面找到一些错误信息以帮助诊断问题。可能触发该告警的原因包括：上游整体流量增加，导致现有 changefeed 规格无法承载。如果流量增加是暂时的，changefeed 延时会在流量恢复正常后自动恢复。如果流量持续增加，则需要扩展 changefeed。下游或网络异常，此时应先排查并解决异常。如果下游为 RDS，表缺少索引，可能导致写入性能低、延时高，此时需要为上游或下游添加必要索引。如果你无法自行解决问题，请联系 TiDB Cloud Support 获取进一步协助。
Changefeed 状态为 `FAILED`	在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态，你可以在这些页面找到一些错误信息以帮助诊断问题。如果你无法自行解决问题，请联系 TiDB Cloud Support 获取进一步协助。
Changefeed 状态为 `WARNING`	在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态，你可以在这些页面找到一些错误信息以帮助诊断问题。如果你无法自行解决问题，请联系 TiDB Cloud Support 获取进一步协助。