- 关于 TiDB
- 主要概念
- 操作指南
- 快速上手
- 部署
- 配置
- 安全
- 安全传输层协议 (TLS)
- 生成自签名证书
- 监控
- 迁移
- 运维
- 扩容缩容
- 升级
- 故障诊断
- 参考手册
- SQL
- 与 MySQL 兼容性对比
- SQL 语言结构
- 数据类型
- 函数与操作符
- SQL 语句
ADD COLUMN
ADD INDEX
ADMIN
ADMIN CANCEL DDL
ADMIN CHECKSUM TABLE
ADMIN CHECK [TABLE|INDEX]
ADMIN SHOW DDL [JOBS|QUERIES]
ALTER DATABASE
ALTER TABLE
ALTER USER
ANALYZE TABLE
BEGIN
CHANGE COLUMN
COMMIT
CREATE DATABASE
CREATE INDEX
CREATE TABLE LIKE
CREATE TABLE
CREATE USER
DEALLOCATE
DELETE
DESC
DESCRIBE
DO
DROP COLUMN
DROP DATABASE
DROP INDEX
DROP TABLE
DROP USER
EXECUTE
EXPLAIN ANALYZE
EXPLAIN
FLUSH PRIVILEGES
FLUSH STATUS
FLUSH TABLES
GRANT <privileges>
INSERT
KILL [TIDB]
LOAD DATA
LOAD STATS
MODIFY COLUMN
PREPARE
RENAME INDEX
RENAME TABLE
REPLACE
REVOKE <privileges>
ROLLBACK
SELECT
SET [NAMES|CHARACTER SET]
SET PASSWORD
SET TRANSACTION
SET [GLOBAL|SESSION] <variable>
SHOW CHARACTER SET
SHOW COLLATION
SHOW [FULL] COLUMNS FROM
SHOW CREATE TABLE
SHOW DATABASES
SHOW ENGINES
SHOW ERRORS
SHOW [FULL] FIELDS FROM
SHOW GRANTS
SHOW INDEXES [FROM|IN]
SHOW INDEX [FROM|IN]
SHOW KEYS [FROM|IN]
SHOW PRIVILEGES
SHOW [FULL] PROCESSSLIST
SHOW SCHEMAS
SHOW STATUS
SHOW [FULL] TABLES
SHOW TABLE STATUS
SHOW [GLOBAL|SESSION] VARIABLES
SHOW WARNINGS
START TRANSACTION
TRACE
TRUNCATE
UPDATE
USE
- 约束
- 生成列
- 字符集
- 配置
- tidb-server
- pd-server
- tikv-server
- 安全
- 事务
- 系统数据库
- 错误码
- 支持的连接器和 API
- 垃圾回收 (GC)
- 性能调优
- 监控指标
- 报警规则
- 最佳实践
- TiSpark 使用指南
- TiDB Binlog
- 周边工具
- 常见问题 (FAQ)
- 技术支持
- 贡献
- 版本发布历史
- 术语表
重要
你正在查看 TiDB 数据库的较旧版本 (TiDB v2.1) 的文档。
如无特殊需求,建议使用 TiDB 数据库的最新 LTS 版本。
TiDB 重要监控指标详解
使用 TiDB Ansible 部署 TiDB 集群时,一键部署监控系统 (Prometheus/Grafana),监控架构请看 TiDB 监控框架概述。
目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview 等。
以下为 TiDB Dashboard 部分监控说明:
说明
Query Summary
- Duration:SQL 执行的时间
- Statement OPS:SQL 执行数量统计(包含
SELECT
、INSERT
、UPDATE
等) - QPS By Instance:每个 TiDB 上的 QPS
Query Detail
- Internal SQL OPS:TiDB 内部 SQL 语句执行数量统计
Server
- Connection count:每个 TiDB 的连接数
- Failed Query OPM:失败 SQL 的统计,例如语法错误、主键冲突等
- Heap Memory Usage:每个 TiDB 使用的堆内存大小
- Events OPM:统计关键事件,例如 start,close,graceful-shutdown,kill,hang 等
- Uncommon Error OPM:TiDB 非正常错误的统计,包括 panic,binlog 写失败等
Transaction
- Transaction OPS:事务执行数量统计
- Transaction Duration:事务执行的时间
- Session Retry Error OPS:事务重试时遇到的错误数量
Executor
- Expensive Executor OPS:消耗系统资源比较多的算子统计,包括 Merge Join,Hash Join,Index Look Up Join,Hash Agg,Stream Agg,Sort,TopN 等
- Queries Using Plan Cache OPS:使用 Plan Cache 的查询数量统计
Distsql
- Distsql Duration:Distsql 处理的时长
- Distsql QPS:Distsql 的数量统计
KV Errors
- KV Retry Duration:KV 重试请求的时间
- TiClient Region Error OPS:TiKV 返回 Region 相关错误信息的数量
- KV Backoff OPS:TiKV 返回错误信息的数量(事务冲突等)
- Lock Resolve OPS:事务冲突相关的数量
- Other Errors OPS:其他类型的错误数量,包括清锁和更新 SafePoint
KV Duration
- KV Cmd Duration 99:KV 命令执行的时间
KV Count
- KV Cmd OPS:KV 命令执行数量统计
- Txn OPS:启动事务的数量统计
- Load SafePoint OPS:更新 SafePoint 的数量统计
PD Client
- PD TSO OPS:TiDB 从 PD 获取 TSO 的数量
- PD TSO Wait Duration:TiDB 从 PD 获取 TSO 的时间
- PD Client CMD OPS:PD Client 执行命令数量统计
- PD Client CMD Duration: PD Client 执行命令耗时
- PD Client CMD Fail OPS:PD Client 执行命令失败统计
Schema Load
- Load Schema Duration:TiDB 从 TiKV 获取 Schema 的时间
- Load Schema OPS:TiDB 从 TiKV 获取 Schema 的数量统计
- Schema Lease Error OPM:Schema Lease 出错,包括 change 和 outdate 两种,出现 outdate 错误时会报警
DDL
- DDL Duration 95:DDL 语句处理时间统计
- DDL Batch Add Index Duration 100:创建索引时每个 Batch 所花费的时间统计
- DDL Deploy Syncer Duration:Schema Version Syncer 初始化,重启,清空等操作耗时
- Owner Handle Syncer Duration:DDL Owner 在执行更新,获取以及检查 Schema Version 的耗时
- Update Self Version Duration:Schema Version Syncer 更新版本信息耗时
Statistics
- Auto Analyze Duration 95:自动 ANALYZE 耗时统计
- Auto Analyze QPS:自动 ANALYZE 数量统计
- Stats Inaccuracy Rate:统计信息不准确度统计
- Pseudo Estimation OPS:使用假的统计信息优化 SQL 的数量统计
- Dump Feedback OPS:存储统计信息 Feedback 的数量统计
- Update Stats OPS:利用 Feedback 更新统计信息的数量统计
Meta
- AutoID QPS:AutoID 相关操作的数量统计,包括全局 ID 分配、单个 Table AutoID 分配、单个 Table AutoID Rebase 三种操作
- AutoID Duration:AutoID 相关操作的耗时
GC
- Worker Action OPM:GC 相关操作的数量统计,包括 run_job,resolve_lock,delete_range 等操作
- Duration 99:GC 相关操作的耗时统计
- GC Failure OPM:GC 相关操作失败数量统计
- Too Many Locks Error OPM:GC 清锁过多错误的数量统计
文档内容是否有帮助?