📣
TiDB Cloud Essential 开放公测中。此页面由 AI 自动翻译,英文原文请见此处。

TiDB Cloud 内置告警



TiDB Cloud 为你提供了便捷的方式来查看告警、编辑告警规则,以及订阅告警通知。

本文档介绍了如何进行这些操作,并为你提供了 TiDB Cloud 内置告警条件以供参考。

查看告警

在 TiDB Cloud 中,你可以在 Alerts 页面查看活跃和已关闭的告警。

  1. TiDB Cloud 控制台中,导航到你的项目的 Clusters 页面。

    提示:

    你可以使用左上角的下拉框在组织、项目和集群之间切换。

  2. 点击目标集群的名称,进入集群概览页面。

  3. 在左侧导航栏点击 Alerts

  4. Alerts 页面默认显示活跃告警。你可以查看每个活跃告警的信息,如告警名称、触发时间和持续时间。

  5. 如果你还想查看已关闭的告警,只需点击 Status 下拉列表并选择 ClosedAll

编辑告警规则

在 TiDB Cloud 中,你可以通过禁用或启用告警,或修改告警阈值来编辑告警规则。

  1. Alerts 页面,点击 Edit Rules

  2. 根据需要禁用或启用告警规则。

  3. 点击 Edit 以修改告警规则的阈值。

    提示:

    目前,TiDB Cloud 提供的告警规则编辑能力有限。部分告警规则不支持编辑。如果你希望配置不同的触发条件或频率,或让告警自动触发下游服务(如 PagerDuty)的操作,建议使用 第三方监控与告警集成

订阅告警通知

在 TiDB Cloud 中,你可以通过以下方式之一订阅告警通知:

TiDB Cloud 内置告警条件

下表提供了 TiDB Cloud 内置告警条件及对应的推荐操作。

TiDB Cloud 会根据不同集群方案,结合该方案的功能,提供不同的告警规则。

资源使用告警

条件推荐操作
整个集群 TiDB 节点内存利用率超过 70% 持续 10 分钟考虑增加 TiDB 节点数量或节点规格,以降低当前负载下的内存使用百分比。
整个集群 TiKV 节点内存利用率超过 70% 持续 10 分钟考虑增加 TiKV 节点数量或节点规格,以降低当前负载下的内存使用百分比。
整个集群 TiFlash 节点内存利用率超过 70% 持续 10 分钟考虑增加 TiFlash 节点数量或节点规格,以降低当前负载下的内存使用百分比。
TiDB 节点 CPU 利用率超过 80% 持续 10 分钟考虑增加 TiDB 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。
TiKV 节点 CPU 利用率超过 80% 持续 10 分钟考虑增加 TiKV 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。
TiFlash 节点 CPU 利用率超过 80% 持续 10 分钟考虑增加 TiFlash 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。
TiKV 存储利用率超过 80%考虑增加 TiKV 节点数量或节点存储容量,以提升你的存储能力。
TiFlash 存储利用率超过 80%考虑增加 TiFlash 节点数量或节点存储容量,以提升你的存储能力。
TiDB 节点最大内存利用率超过 70% 持续 10 分钟建议检查集群中是否存在 热点 问题,或增加 TiDB 节点数量或节点规格,以降低当前负载下的内存使用百分比。
TiKV 节点最大内存利用率超过 70% 持续 10 分钟建议检查集群中是否存在 热点 问题,或增加 TiKV 节点数量或节点规格,以降低当前负载下的内存使用百分比。
TiDB 节点最大 CPU 利用率超过 80% 持续 10 分钟建议检查集群中是否存在 热点 问题,或增加 TiDB 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。
TiKV 节点最大 CPU 利用率超过 80% 持续 10 分钟建议检查集群中是否存在 热点 问题,或增加 TiKV 节点数量或节点规格,以降低当前负载下的 CPU 使用百分比。

数据迁移告警

条件推荐操作
数据迁移任务在数据导出过程中遇到错误检查错误信息,并参考 数据迁移故障排查 获取帮助。
数据迁移任务在数据导入过程中遇到错误检查错误信息,并参考 数据迁移故障排查 获取帮助。
数据迁移任务在增量迁移过程中遇到错误检查错误信息,并参考 数据迁移故障排查 获取帮助。
数据迁移任务在增量迁移过程中已暂停超过 6 小时数据迁移任务在数据增量迁移过程中已暂停超过 6 小时。上游数据库中的 binlog 可能已被清理(取决于你的数据库 binlog 清理策略),这可能导致增量迁移失败。请参考 数据迁移故障排查 获取帮助。
同步延迟大于 10 分钟且持续增长超过 20 分钟请参考 数据迁移故障排查 获取帮助。

TiDB Cloud Dedicated 的 Changefeed 告警

条件推荐操作
changefeed 延时超过 600 秒在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。
可能触发该告警的原因包括:
  • 上游整体流量增加,导致现有 changefeed 规格无法承载。如果流量增加是暂时的,changefeed 延时会在流量恢复正常后自动恢复。如果流量持续增加,则需要扩展 changefeed。
  • 下游或网络异常,此时请先排查并解决异常。
  • 如果下游为 RDS,表缺少索引,可能导致写入性能低、延时高。此时需要在上游或下游添加必要的索引。
如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。
changefeed 状态为 FAILED在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。
如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。
changefeed 状态为 WARNING在 TiDB Cloud 控制台的 Changefeed 页面和 Changefeed Detail 页面检查 changefeed 状态,你可以在这些页面找到一些错误信息以帮助诊断问题。
如果你无法自行解决问题,请联系 TiDB Cloud Support 获取进一步协助。

文档内容是否有帮助?