📣
TiDB Cloud Essential 开放公测中。此页面由 AI 自动翻译,英文原文请见此处。

TiDB Cloud 内置指标

TiDB Cloud 会在 Metrics 页面收集并展示你的集群的全套标准指标。通过查看这些指标,你可以轻松识别性能问题,并判断当前的数据库部署是否满足你的需求。

查看 Metrics 页面

要在 Metrics 页面查看指标,请按照以下步骤操作:

  1. 在你的项目的 Clusters 页面,点击目标集群的名称,进入其概览页面。

  2. 在左侧导航栏,点击 Monitoring > Metrics

指标保留策略

对于 TiDB Cloud 集群,指标数据会保留 7 天。

TiDB Cloud Dedicated 集群的指标

以下章节介绍了 TiDB Cloud Dedicated 集群在 Metrics 页面上的各项指标。

概览

指标名称标签描述
Database Time by SQL typesdatabase time, {SQL type}database time:每秒的总数据库时间。
{SQL type}:按 SQL 类型(如 SELECTINSERTUPDATE)统计的每秒数据库时间。
Query Per Second{SQL type}所有 TiDB 实例每秒执行的 SQL 语句数量,按 SQL 类型(如 SELECTINSERTUPDATE)统计。
Query Durationavg-{SQL type}, 99-{SQL type}从 TiDB 接收到客户端请求到 TiDB 执行请求并返回结果给客户端的持续时间。通常,客户端请求以 SQL 语句形式发送;但该持续时间也可能包括如 COM_PINGCOM_SLEEPCOM_STMT_FETCHCOM_SEND_LONG_DATA 等命令的执行时间。TiDB 支持 Multi-Query,即客户端可以一次发送多条 SQL 语句,如 select 1; select 1; select 1;。此时,该查询的总执行时间包含所有 SQL 语句的执行时间。
Failed QueriesAll, {Error type} @ {instance}按每个 TiDB 实例每分钟 SQL 语句执行错误统计的错误类型(如语法错误、主键冲突)。包含发生错误的模块和错误码。
Command Per SecondQuery, StmtExecute, and StmtPrepare所有 TiDB 实例每秒按命令类型处理的命令数量。
Queries Using Plan Cache OPShit, misshit:所有 TiDB 实例每秒使用计划缓存的查询数量。
miss:所有 TiDB 实例每秒未命中计划缓存的查询数量。
Transaction Per Second{types}-{transaction model}每秒执行的事务数量。
Transaction Durationavg-{transaction model}, 99-{transaction model}事务的平均或第 99 百分位持续时间。
Connection CountAll, active connectionAll:所有 TiDB 实例的连接数。
Active connections:所有 TiDB 实例的活跃连接数。
Disconnection Count{instance}-{result}每个 TiDB 实例断开连接的客户端数量。

高级

指标名称标签描述
Average Idle Connection Durationavg-in-txn, avg-not-in-txn连接空闲持续时间表示连接处于空闲状态的时长。
avg-in-txn:连接处于事务中时的平均空闲持续时间。
avg-not-in-txn:连接不在事务中时的平均空闲持续时间。
Get Token Durationavg, 99获取 SQL 语句 token 所消耗的平均或第 99 百分位持续时间。
Parse Durationavg, 99解析 SQL 语句所消耗的平均或第 99 百分位持续时间。
Compile Durationavg, 99将解析后的 SQL AST 编译为执行计划所消耗的平均或第 99 百分位持续时间。
Execute Durationavg, 99执行 SQL 语句执行计划所消耗的平均或第 99 百分位持续时间。
Average TiDB KV Request Duration{Request Type}所有 TiDB 实例按请求类型(如 GetPrewriteCommit)执行 KV 请求的平均耗时。
Average TiKV gRPC Duration{Request Type}所有 TiKV 实例按请求类型(如 kv_getkv_prewritekv_commit)执行 gRPC 请求的平均耗时。
Average / P99 PD TSO Wait/RPC Durationwait-avg/99, rpc-avg/99Wait:所有 TiDB 实例等待 PD 返回 TSO 的平均或第 99 百分位持续时间。
RPC:所有 TiDB 实例从发送 TSO 请求到 PD 到收到 TSO 的平均或第 99 百分位持续时间。
Average / P99 Storage Async Write Durationavg, 99异步写入所消耗的平均或第 99 百分位持续时间。平均存储异步写入持续时间 = 平均 store 持续时间 + 平均 apply 持续时间。
Average / P99 Store Durationavg, 99异步写入过程中 store 循环所消耗的平均或第 99 百分位持续时间。
Average / P99 Apply Durationavg, 99异步写入过程中 apply 循环所消耗的平均或第 99 百分位持续时间。
Average / P99 Append Log Durationavg, 99Raft 追加日志所消耗的平均或第 99 百分位持续时间。
Average / P99 Commit Log Durationavg, 99Raft 提交日志所消耗的平均或第 99 百分位持续时间。
Average / P99 Apply Log Durationavg, 99Raft 应用日志所消耗的平均或第 99 百分位持续时间。
Affected Rows{SQL type}按 SQL 类型每秒处理的行数。
Leader Count{instance}TiKV 节点上承载的 Raft leader Region 数量。
Region Count{instance}TiKV 节点管理的总数据 Region 数量。

服务器

指标名称标签描述
TiDB Uptimenode每个 TiDB 节点自上次重启以来的运行时长。
TiDB CPU Usagenode, limit每个 TiDB 节点的 CPU 使用率统计或上限。
TiDB Memory Usagenode, limit每个 TiDB 节点的内存使用量统计或上限。
TiKV Uptimenode每个 TiKV 节点自上次重启以来的运行时长。
TiKV CPU Usagenode, limit每个 TiKV 节点的 CPU 使用率统计或上限。
TiKV Memory Usagenode, limit每个 TiKV 节点的内存使用量统计或上限。
TiKV IO Bpsnode-write, node-read每个 TiKV 节点每秒读写的总输入/输出字节数。
TiKV Storage Usagenode, limit每个 TiKV 节点的存储使用量统计或上限。
TiFlash Uptimenode每个 TiFlash 节点自上次重启以来的运行时长。
TiFlash CPU Usagenode, limit每个 TiFlash 节点的 CPU 使用率统计或上限。
TiFlash Memory Usagenode, limit每个 TiFlash 节点的内存使用量统计或上限。
TiFlash IO MBpsnode-write, node-read每个 TiFlash 节点的读写总字节数。
TiFlash Storage Usagenode, limit每个 TiFlash 节点的存储使用量统计或上限。

TiDB Cloud Starter 和 TiDB Cloud Essential 集群的指标

Metrics 页面为 TiDB Cloud Starter 和 TiDB Cloud Essential 集群提供了两个指标标签页:

  • Cluster Status:展示集群级别的主要指标。
  • Database Status:展示数据库级别的主要指标。

Cluster Status

下表展示了 Cluster Status 标签页下的集群级主要指标。

指标名称标签描述
Request UnitsRU per secondRequest Unit(RU)是用于衡量 TiDB Cloud Starter 集群中查询或事务资源消耗的单位。除了用户查询,后台活动也会消耗 RU,因此即使 QPS 为 0,每秒 RU 使用量也可能不为零。
Capacity vs Usage (RU/s)Provisioned capacity (RCU), Consumed RU/sTiDB Cloud Essential 集群中配置的 Request Capacity Units(RCU)和每秒消耗的 Request Units(RU)。
Used Storage SizeRow-based storage, Columnar storage行存储和列存储的存储空间大小。
Query Per SecondAll, {SQL type}每秒执行的 SQL 语句数量,按 SQL 类型(如 SELECTINSERTUPDATE)统计。
Query DurationAvg, P99, P99-{SQL type}从客户端请求到 TiDB Cloud Starter 或 TiDB Cloud Essential 集群接收请求、执行并返回结果的持续时间。
Failed QueryAll每秒 SQL 语句执行错误的数量。
Transaction Per SecondAll每秒执行的事务数量。
Transaction DurationAvg, P99事务的执行持续时间。
Lock-waitP95, P99事务等待获取悲观锁所花费的时间。较高的值通常表示对同一行或键存在竞争。
Total ConnectionAll连接到 TiDB Cloud Starter 或 TiDB Cloud Essential 集群的连接数。
Idle Connection DurationP99, P99(in-txn), P99(not-in-txn)连接在开启事务时处于空闲状态的时间。较长的持续时间通常表示应用逻辑较慢或存在长事务。

Database Status

下表展示了 Database Status 标签页下的数据库级主要指标。

指标名称标签描述
QPS Per DBAll, {Database name}每个数据库每秒执行的 SQL 语句数量,按 SQL 类型(如 SELECTINSERTUPDATE)统计。
Average Query Duration Per DBAll, {Database name}从客户端请求到数据库接收请求、执行并返回结果的持续时间。
Failed Query Per DBAll, {Database name}每个数据库每秒 SQL 语句执行错误的类型统计。

FAQ

1. 为什么本页面的某些面板为空?

如果某个面板没有显示任何指标,可能的原因如下:

  • 对应集群的负载没有触发该指标。例如,如果没有失败的查询,则失败查询指标始终为空。
  • 集群版本较低。你需要将其升级到最新的 TiDB 版本才能看到这些指标。

如果排除了上述原因,你可以联系 PingCAP support team 进行排查。

2. 为什么在极少数情况下指标会出现不连续?

在极少数情况下,指标可能会丢失,例如当指标系统压力过大时。

如果你遇到此问题,可以联系 PingCAP Support 进行排查。

文档内容是否有帮助?