日常巡检

TiDB 作为分布式数据库，对比单机数据库机制更加复杂，其自带的监控项也很丰富。为了更便捷地运维 TiDB，本文介绍了运维 TiDB 集群需要常关注的关键性能指标。

TiDB Dashboard 关键指标

从 4.0 版本开始，TiDB 提供了一个新的 TiDB Dashboard 运维管理工具，集成在 PD 组件上，默认地址为 http://${pd-ip}:${pd_port}/dashboard。

使用 TiDB Dashboard，简化了对 TiDB 数据库的运维，可在一个界面查看整个分布式数据库集群的运行状况。下面举例说明。

以上实例面板的各指标说明如下：

通过主机面板可以查看 CPU、内存、磁盘使用率。当任何资源的使用率超过 80% 时，推荐扩容对应组件。

通过 SQL 分析面板可以分析对集群影响较大的慢 SQL，然后进行对应的 SQL 优化。

以上 Region 信息面板说明如下：

down-peer-region-count：Raft leader 上报有不响应 peer 的 Region 数量。
empty-region-count：空 Region 的数量，大小小于 1 MiB。一般是 TRUNCATE TABLE/DROP TABLE 语句导致。如果数量较多，可以考虑开启跨表 Region merge。
extra-peer-region-count：多副本的 Region 数量，调度过程中会产生。
learner-peer-region-count：含有 learner peer 的 Region 数量。learner peer 的来源可能是多个，例如 TiFlash 上的 learner peer，以及配置的 Placement Rules 包含 learner peer。
miss-peer-region-count：缺副本的 Region 数量，不会一直大于 0。
offline-peer-region-count：peer 下线过程中的 Region 数量。
oversized-region-count：Region 大小大于 region-max-size 或 region-max-keys 的 Region 数量。
pending-peer-region-count：Raft log 落后的 Region 数量。由于调度产生少量的 pending peer 是正常的，但是如果 pending peer 的数量持续（超过 30 分钟）很高，可能存在问题。
undersized-region-count：Region 大小小于 max-merge-region-size 或 max-merge-region-keys 的 Region 数量。