- 关于 TiDB
- 主要概念
- 操作指南
- 快速上手
- 部署
- 配置
- 安全
- 安全传输层协议 (TLS)
- 生成自签名证书
- 监控
- 迁移
- 运维
- Ansible 常见运维操作
- 备份与恢复
- 定位异常查询
- 扩容缩容
- 升级
- 故障诊断
- 参考手册
- SQL
- 与 MySQL 兼容性对比
- SQL 语言结构
- 表属性和列属性
- 数据类型
- 函数与操作符
- SQL 语句
ADD COLUMN
ADD INDEX
ADMIN
ADMIN CANCEL DDL
ADMIN CHECKSUM TABLE
ADMIN CHECK [TABLE|INDEX]
ADMIN SHOW DDL [JOBS|QUERIES]
ALTER DATABASE
ALTER INSTANCE
ALTER TABLE
ALTER USER
ANALYZE TABLE
BEGIN
CHANGE COLUMN
COMMIT
CREATE DATABASE
CREATE INDEX
CREATE ROLE
CREATE TABLE LIKE
CREATE TABLE
CREATE USER
CREATE VIEW
DEALLOCATE
DELETE
DESC
DESCRIBE
DO
DROP COLUMN
DROP DATABASE
DROP INDEX
DROP ROLE
DROP TABLE
DROP USER
DROP VIEW
EXECUTE
EXPLAIN ANALYZE
EXPLAIN
FLUSH PRIVILEGES
FLUSH STATUS
FLUSH TABLES
GRANT <privileges>
GRANT <role>
INSERT
KILL [TIDB]
LOAD DATA
LOAD STATS
MODIFY COLUMN
PREPARE
RECOVER TABLE
RENAME INDEX
RENAME TABLE
REPLACE
REVOKE <privileges>
REVOKE <role>
ROLLBACK
SELECT
SET DEFAULT ROLE
SET [NAMES|CHARACTER SET]
SET PASSWORD
SET ROLE
SET TRANSACTION
SET [GLOBAL|SESSION] <variable>
SHOW ANALYZE STATUS
SHOW CHARACTER SET
SHOW COLLATION
SHOW [FULL] COLUMNS FROM
SHOW CREATE TABLE
SHOW CREATE USER
SHOW DATABASES
SHOW ENGINES
SHOW ERRORS
SHOW [FULL] FIELDS FROM
SHOW GRANTS
SHOW INDEXES [FROM|IN]
SHOW INDEX [FROM|IN]
SHOW KEYS [FROM|IN]
SHOW PRIVILEGES
SHOW [FULL] PROCESSSLIST
SHOW SCHEMAS
SHOW STATUS
SHOW [FULL] TABLES
SHOW TABLE REGIONS
SHOW TABLE STATUS
SHOW [GLOBAL|SESSION] VARIABLES
SHOW WARNINGS
SPLIT REGION
START TRANSACTION
TRACE
TRUNCATE
UPDATE
USE
- 约束
- 生成列
- 分区表
- 字符集
- SQL 模式
- 视图
- 配置
- tidb-server
- pd-server
- tikv-server
- 安全
- 事务
- 系统数据库
- 错误码
- 支持的连接器和 API
- 垃圾回收 (GC)
- 性能调优
- 监控指标
- 报警规则
- 最佳实践
- TiSpark 使用指南
- TiKV
- TiFlash
- TiDB Binlog
- 工具
- TiDB in Kubernetes
- 常见问题 (FAQ)
- 技术支持
- 贡献
- 版本发布历史
- 发布版本汇总
- v3.1
- v3.0
- v2.1
- v2.0
- v1.0
- 术语表
重要
你正在查看 TiDB 数据库的较旧版本 (TiDB v3.1) 的文档。
如无特殊需求,建议使用 TiDB 数据库的最新 LTS 版本。
TiDB 重要监控指标详解
使用 TiDB Ansible 部署 TiDB 集群时,一键部署监控系统 (Prometheus/Grafana),监控架构请看 TiDB 监控框架概述。
目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview 等,TiDB 分为 TiDB 和 TiDB Summary 面板(其中 TiDB 面板包含 TiDB Summary 面板的内容)。
以下为 TiDB Dashboard 部分监控说明:
说明
Query Summary
- Duration:SQL 执行的时间
- QPS:每个 TiDB 上的 SQL 执行结果按照 OK/Error 统计
- Statement OPS:SQL 执行数量统计(包含
SELECT
、INSERT
、UPDATE
等) - QPS By Instance:每个 TiDB 上的 QPS
- Failed Query OPM:每个 TiDB 实例上,执行 SQL 语句发生错误按照错误类型的统计(例如语法错误、主键冲突等)
- Slow query:慢查询处理时间统计(整个慢查询耗时、Coprocessor 耗时、Coprocessor 调度等待时间)
- 999/99/95/80 Duration:不同类型的 SQL 语句执行耗时统计(不同百分位)
Query Detail
- Duration 80/95/99/999 By Instance:每个 TiDB 实例执行 SQL 语句的耗时统计(不同百分位)
- Failed Query OPM Detail:整个集群执行 SQL 语句发生的错误按照错误类型统计(例如语法错误、主键冲突等)
- Internal SQL OPS:TiDB 内部 SQL 语句执行数量统计
Server
- Uptime:TiDB 运行时间
- Memory Usage:不同 TiDB 实例的内存使用统计
- CPU Usage:不同 TiDB 实例的 CPU 使用统计
- Connection Count:每个 TiDB 的连接数
- Open FD Count:不同 TiDB 实例的打开的文件描述符统计
- Goroutine Count:不同 TiDB 实例的 Goroutine 数量
- Go GC Duration:不同 TiDB 实例的 GC 耗时统计
- Go Threads:不同 TiDB 实例的线程数量
- Go GC Count:不同 TiDB 实例的 GC 执行次数统计
- Go GC CPU Usage:不同 TiDB 实例的 GC CPU 统计
- Events OPM:统计关键事件,例如 start,close,graceful-shutdown,kill,hang 等
- Keep Alive OPM:不同 TiDB 实例每分钟刷新监控的次数
- Prepare Statement Count:不同 TiDB 实例执行 Prepare 语句数以及总数统计
- Time Jump Back OPS:不同 TiDB 实例上每秒钟时间回跳的次数
- Heap Memory Usage:每个 TiDB 使用的堆内存大小
- Uncommon Error OPM:TiDB 非正常错误的统计,包括 panic,binlog 写失败等
- Handshake Error OPS:不同 TiDB 实例每秒握手错误的次数统计
- Get Token Duration:建立连接后获取 Token 耗时
Transaction
- Transaction OPS:事务执行数量统计
- Duration:事务执行的时间
- Transaction Retry Num:事务重试次数
- Transaction Statement Num:一个事务中的 SQL 语句数量
- Session Retry Error OPS:事务重试时遇到的错误数量
- Local Latch Wait Duration:本地事务等待时间
Executor
- Parse Duration:SQL 语句解析耗时统计
- Compile Duration:将 SQL AST 编译成执行计划耗时统计
- Execution Duration:SQL 语句执行耗时统计
- Expensive Executor OPS:消耗系统资源比较多的算子统计,包括 Merge Join,Hash Join,Index Look Up Join,Hash Agg,Stream Agg,Sort,TopN 等
- Queries Using Plan Cache OPS:使用 Plan Cache 的查询数量统计
Distsql
- Distsql Duration:Distsql 处理的时长
- Distsql QPS:Distsql 的数量统计
- Distsql Partial QPS:每秒 Partial Results 的数量
- Scan Keys Num:每个 Query 扫描的 Key 的数量
- Scan Keys Partial Num:每一个 Partial Result 扫描的 Key 的数量
- Partial Num:每个 SQL 语句 Partial Results 的数量
KV Errors
- KV Retry Duration:KV 重试请求的时间
- TiClient Region Error OPS:TiKV 返回 Region 相关错误信息的数量
- KV Backoff OPS:TiKV 返回错误信息的数量(事务冲突等)
- Lock Resolve OPS:事务冲突相关的数量
- Other Errors OPS:其他类型的错误数量,包括清锁和更新 SafePoint
KV Duration
- KV Request Duration 999 by store:KV Request 执行时间,根据 TiKV 显示
- KV Request Duration 999 by type:KV Request 执行时间,根据请求类型显示
- KV Cmd Duration 99/999:KV 命令执行的时间
KV Count
- KV Cmd OPS:KV 命令执行数量统计
- KV Txn OPS:启动事务的数量统计
- Txn Regions Num 90:事务使用的 Region 数量统计
- Txn Write Size Bytes 100:事务写入的字节数统计
- Txn Write KV Num 100:事务写入的 KV 数量统计
- Load SafePoint OPS:更新 SafePoint 的数量统计
PD Client
- PD Client CMD OPS:PD Client 执行命令数量统计
- PD Client CMD Duration: PD Client 执行命令耗时
- PD Client CMD Fail OPS:PD Client 执行命令失败统计
- PD TSO OPS:TiDB 从 PD 获取 TSO 的数量
- PD TSO Wait Duration:TiDB 从 PD 获取 TSO 的时间
- PD TSO RPC Duration:TiDB 从调用 PD 获取 TSO gRPC 接口花费的时间
Schema Load
- Load Schema Duration:TiDB 从 TiKV 获取 Schema 的时间
- Load Schema OPS:TiDB 从 TiKV 获取 Schema 的数量统计
- Schema Lease Error OPM:Schema Lease 出错,包括 change 和 outdate 两种,出现 outdate 错误时会报警
DDL
- DDL Duration 95:DDL 语句处理时间统计
- Batch Add Index Duration 100:创建索引时每个 Batch 所花费的时间统计
- DDL Waiting Jobs Count:等待的 DDL 任务数量
- DDL META OPM:DDL 每分钟获取 META 的次数
- Deploy Syncer Duration:Schema Version Syncer 初始化,重启,清空等操作耗时
- Owner Handle Syncer Duration:DDL Owner 在执行更新,获取以及检查 Schema Version 的耗时
- Update Self Version Duration:Schema Version Syncer 更新版本信息耗时
Statistics
- Auto Analyze Duration 95:自动 ANALYZE 耗时统计
- Auto Analyze QPS:自动 ANALYZE 数量统计
- Stats Inaccuracy Rate:统计信息不准确度统计
- Pseudo Estimation OPS:使用假的统计信息优化 SQL 的数量统计
- Dump Feedback OPS:存储统计信息 Feedback 的数量统计
- Update Stats OPS:利用 Feedback 更新统计信息的数量统计
- Significant Feedback:重要的 Feedback 更新统计信息的数量统计
Meta
- AutoID QPS:AutoID 相关操作的数量统计,包括全局 ID 分配、单个 Table AutoID 分配、单个 Table AutoID Rebase 三种操作
- AutoID Duration:AutoID 相关操作的耗时
- Meta Operations Duration 99:Meta 操作延迟
GC
- Worker Action OPM:GC 相关操作的数量统计,包括 run_job,resolve_lock,delete_range 等操作
- Duration 99:GC 相关操作的耗时统计
- GC Failure OPM:GC 相关操作失败数量统计
- Action Result OPM:GC 相关操作结果数量统计
- Too Many Locks Error OPM:GC 清锁过多错误的数量统计
Batch Client
- Pending Request Count by TiKV:等待处理的 Batch 消息数量统计
- Wait Duration 95:等待处理的 Batch 消息延迟统计
- Batch Client Unavailable Duration 95:Batch 客户端不可用的时间统计
文档内容是否有帮助?