- 文档中心
- 关于 TiDB
- 快速上手
- 部署标准集群
- 数据迁移
- 运维操作
- 监控与告警
- 故障诊断
- 性能调优
- 系统调优
- 软件调优
- SQL 性能调优
- SQL 性能调优概览
- 理解 TiDB 执行计划
- SQL 优化流程
- 控制执行计划
- 教程
- 同城多中心部署
- 两地三中心部署
- 同城两中心部署
- 读取历史数据
- 使用 Stale Read 功能读取历史数据(推荐)
- 使用系统变量
tidb_snapshot
读取历史数据
- 最佳实践
- Placement Rules 使用文档
- Load Base Split 使用文档
- Store Limit 使用文档
- TiDB 工具
- 功能概览
- 适用场景
- 工具下载
- TiUP
- 文档地图
- 概览
- 术语及核心概念
- TiUP 组件管理
- FAQ
- 故障排查
- TiUP 命令参考手册
- 命令概览
- TiUP 命令
- TiUP Cluster 命令
- TiUP Cluster 命令概览
- tiup cluster audit
- tiup cluster check
- tiup cluster clean
- tiup cluster deploy
- tiup cluster destroy
- tiup cluster disable
- tiup cluster display
- tiup cluster edit-config
- tiup cluster enable
- tiup cluster help
- tiup cluster import
- tiup cluster list
- tiup cluster patch
- tiup cluster prune
- tiup cluster reload
- tiup cluster rename
- tiup cluster replay
- tiup cluster restart
- tiup cluster scale-in
- tiup cluster scale-out
- tiup cluster start
- tiup cluster stop
- tiup cluster template
- tiup cluster upgrade
- TiUP DM 命令
- TiUP DM 命令概览
- tiup dm audit
- tiup dm deploy
- tiup dm destroy
- tiup dm disable
- tiup dm display
- tiup dm edit-config
- tiup dm enable
- tiup dm help
- tiup dm import
- tiup dm list
- tiup dm patch
- tiup dm prune
- tiup dm reload
- tiup dm replay
- tiup dm restart
- tiup dm scale-in
- tiup dm scale-out
- tiup dm start
- tiup dm stop
- tiup dm template
- tiup dm upgrade
- TiDB 集群拓扑文件配置
- DM 集群拓扑文件配置
- TiUP 镜像参考指南
- TiUP 组件文档
- TiDB Operator
- Dumpling
- TiDB Lightning
- TiDB Data Migration
- Backup & Restore (BR)
- TiDB Binlog
- TiCDC
- TiUniManager
- sync-diff-inspector
- TiSpark
- 参考指南
- 架构
- 监控指标
- 安全加固
- 权限
- SQL
- SQL 语言结构和语法
- SQL 语句
ADD COLUMN
ADD INDEX
ADMIN
ADMIN CANCEL DDL
ADMIN CHECKSUM TABLE
ADMIN CHECK [TABLE|INDEX]
ADMIN SHOW DDL [JOBS|QUERIES]
ADMIN SHOW TELEMETRY
ALTER DATABASE
ALTER INDEX
ALTER INSTANCE
ALTER PLACEMENT POLICY
ALTER TABLE
ALTER USER
ANALYZE TABLE
BACKUP
BEGIN
CHANGE COLUMN
CHANGE DRAINER
CHANGE PUMP
COMMIT
CREATE [GLOBAL|SESSION] BINDING
CREATE DATABASE
CREATE INDEX
CREATE PLACEMENT POLICY
CREATE ROLE
CREATE SEQUENCE
CREATE TABLE LIKE
CREATE TABLE
CREATE USER
CREATE VIEW
DEALLOCATE
DELETE
DESC
DESCRIBE
DO
DROP [GLOBAL|SESSION] BINDING
DROP COLUMN
DROP DATABASE
DROP INDEX
DROP PLACEMENT POLICY
DROP ROLE
DROP SEQUENCE
DROP STATS
DROP TABLE
DROP USER
DROP VIEW
EXECUTE
EXPLAIN ANALYZE
EXPLAIN
FLASHBACK TABLE
FLUSH PRIVILEGES
FLUSH STATUS
FLUSH TABLES
GRANT <privileges>
GRANT <role>
INSERT
KILL [TIDB]
LOAD DATA
LOAD STATS
MODIFY COLUMN
PREPARE
RECOVER TABLE
RENAME INDEX
RENAME TABLE
RENAME USER
REPLACE
RESTORE
REVOKE <privileges>
REVOKE <role>
ROLLBACK
SELECT
SET DEFAULT ROLE
SET [NAMES|CHARACTER SET]
SET PASSWORD
SET ROLE
SET TRANSACTION
SET [GLOBAL|SESSION] <variable>
SHOW [BACKUPS|RESTORES]
SHOW ANALYZE STATUS
SHOW [GLOBAL|SESSION] BINDINGS
SHOW BUILTINS
SHOW CHARACTER SET
SHOW COLLATION
SHOW [FULL] COLUMNS FROM
SHOW CONFIG
SHOW CREATE PLACEMENT POLICY
SHOW CREATE SEQUENCE
SHOW CREATE TABLE
SHOW CREATE USER
SHOW DATABASES
SHOW DRAINER STATUS
SHOW ENGINES
SHOW ERRORS
SHOW [FULL] FIELDS FROM
SHOW GRANTS
SHOW INDEX [FROM|IN]
SHOW INDEXES [FROM|IN]
SHOW KEYS [FROM|IN]
SHOW MASTER STATUS
SHOW PLACEMENT
SHOW PLACEMENT FOR
SHOW PLACEMENT LABELS
SHOW PLUGINS
SHOW PRIVILEGES
SHOW [FULL] PROCESSSLIST
SHOW PROFILES
SHOW PUMP STATUS
SHOW SCHEMAS
SHOW STATS_HEALTHY
SHOW STATS_HISTOGRAMS
SHOW STATS_META
SHOW STATUS
SHOW TABLE NEXT_ROW_ID
SHOW TABLE REGIONS
SHOW TABLE STATUS
SHOW [FULL] TABLES
SHOW [GLOBAL|SESSION] VARIABLES
SHOW WARNINGS
SHUTDOWN
SPLIT REGION
START TRANSACTION
TABLE
TRACE
TRUNCATE
UPDATE
USE
WITH
- 数据类型
- 函数与操作符
- 聚簇索引
- 约束
- 生成列
- SQL 模式
- 表属性
- 事务
- 垃圾回收 (GC)
- 视图
- 分区表
- 临时表
- 字符集和排序
- Placement Rules in SQL
- 系统表
mysql
- INFORMATION_SCHEMA
- Overview
ANALYZE_STATUS
CLIENT_ERRORS_SUMMARY_BY_HOST
CLIENT_ERRORS_SUMMARY_BY_USER
CLIENT_ERRORS_SUMMARY_GLOBAL
CHARACTER_SETS
CLUSTER_CONFIG
CLUSTER_HARDWARE
CLUSTER_INFO
CLUSTER_LOAD
CLUSTER_LOG
CLUSTER_SYSTEMINFO
COLLATIONS
COLLATION_CHARACTER_SET_APPLICABILITY
COLUMNS
DATA_LOCK_WAITS
DDL_JOBS
DEADLOCKS
ENGINES
INSPECTION_RESULT
INSPECTION_RULES
INSPECTION_SUMMARY
KEY_COLUMN_USAGE
METRICS_SUMMARY
METRICS_TABLES
PARTITIONS
PLACEMENT_RULES
PROCESSLIST
REFERENTIAL_CONSTRAINTS
SCHEMATA
SEQUENCES
SESSION_VARIABLES
SLOW_QUERY
STATISTICS
TABLES
TABLE_CONSTRAINTS
TABLE_STORAGE_STATS
TIDB_HOT_REGIONS
TIDB_HOT_REGIONS_HISTORY
TIDB_INDEXES
TIDB_SERVERS_INFO
TIDB_TRX
TIFLASH_REPLICA
TIKV_REGION_PEERS
TIKV_REGION_STATUS
TIKV_STORE_STATUS
USER_PRIVILEGES
VIEWS
METRICS_SCHEMA
- UI
- CLI
- 命令行参数
- 配置文件参数
- 系统变量
- 存储引擎
- 遥测
- 错误码
- 通过拓扑 label 进行副本调度
- 常见问题解答 (FAQ)
- 版本发布历史
- 术语表
PD 重要监控指标详解
使用 TiUP 部署 TiDB 集群时,一键部署监控系统 (Prometheus & Grafana),监控架构参见 TiDB 监控框架概述。
目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview 等。
对于日常运维,我们通过观察 PD 面板上的 Metrics,可以了解 PD 当前的状态。
以下为 PD Dashboard 监控说明:
- PD role:当前 PD 的角色
- Storage capacity:TiDB 集群总可用数据库空间大小
- Current storage size:TiDB 集群目前已用数据库空间大小
- Current storage usage:TiDB 集群存储空间的使用率
- Normal stores:处于正常状态的节点数目
- Number of Regions:当前集群的 Region 总量
- Abnormal stores:处于异常状态的节点数目,正常情况应当为 0
- Region health:集群所有 Region 的状态。通常情况下,pending 或 down 的 peer 应该少于 100,miss 的 peer 不能一直大于 0,empty Region 过多需及时打开 Region Merge
- Current peer count:当前集群 peer 的总量
Cluster
- PD scheduler config:PD 调度配置列表
- Cluster ID:集群的 cluster id,唯一标识
- Current TSO:当前分配 TSO 的物理时间戳部分
- Current ID allocation:当前可分配 ID 的最大值
- Region label isolation level:不同 label 所在的 level 的 Region 数量
- Label distribution:集群中 TiKV 节点的 label 分布情况
Operator
- Schedule operator create:新创建的不同 operator 的数量,单位 opm 代表一分钟内创建的个数
- Schedule operator check:已检查的 operator 的次数,主要检查是否当前步骤已经执行完成,如果是,则执行下一个步骤
- Schedule operator finish:已完成调度的 operator 的数量
- Schedule operator timeout:已超时的 operator 的数量
- Schedule operator replaced or canceled:已取消或者被替换的 operator 的数量
- Schedule operators count by state:不同状态的 operator 的数量
- Operator finish duration:已完成的 operator 所花费的最长时间
- Operator step duration:已完成的 operator 的步骤所花费的最长时间
Statistics - Balance
- Store capacity:每个 TiKV 实例的总的空间大小
- Store available:每个 TiKV 实例的可用空间大小
- Store used:每个 TiKV 实例的已使用空间大小
- Size amplification:每个 TiKV 实例的空间放大比率
- Size available ratio:每个 TiKV 实例的可用空间比率
- Store leader score:每个 TiKV 实例的 leader 分数
- Store Region score:每个 TiKV 实例的 Region 分数
- Store leader size:每个 TiKV 实例上所有 leader 的大小
- Store Region size:每个 TiKV 实例上所有 Region 的大小
- Store leader count:每个 TiKV 实例上所有 leader 的数量
- Store Region count:每个 TiKV 实例上所有 Region 的数量
Statistics - hot write
- Hot Region's leader distribution:每个 TiKV 实例上成为写入热点的 leader 的数量
- Total written bytes on hot leader Regions:每个 TiKV 实例上所有成为写入热点的 leader 的总的写入流量大小
- Hot write Region's peer distribution:每个 TiKV 实例上成为写入热点的 peer 的数量
- Total written bytes on hot peer Regions:每个 TiKV 实例上所有成为写入热点的 peer 的写入流量大小
- Store Write rate bytes:每个 TiKV 实例总的写入的流量
- Store Write rate keys:每个 TiKV 实例总的写入 keys
- Hot cache write entry number:每个 TiKV 实例进入热点统计模块的 peer 的数量
- Selector events:热点调度中选择器的事件发生次数
- Direction of hotspot move leader:热点调度中 leader 的调度方向,正数代表调入,负数代表调出
- Direction of hotspot move peer:热点调度中 peer 的调度方向,正数代表调入,负数代表调出
Statistics - hot read
- Hot Region's peer distribution:每个 TiKV 实例上成为读取热点的 peer 的数量
- Total read bytes on hot peer Regions:每个 TiKV 实例上所有成为读取热点的 peer 的总的读取流量大小
- Store read rate bytes:每个 TiKV 实例总的读取的流量
- Store read rate keys:每个 TiKV 实例总的读取 keys
- Hot cache read entry number:每个 TiKV 实例进入热点统计模块的 peer 的数量
Scheduler
- Scheduler is running:所有正在运行的 scheduler
- Balance leader movement:leader 移动的详细情况
- Balance Region movement:Region 移动的详细情况
- Balance leader event:balance leader 的事件数量
- Balance Region event:balance Region 的事件数量
- Balance leader scheduler:balance-leader scheduler 的状态
- Balance Region scheduler:balance-region scheduler 的状态
- Replica checker:replica checker 的状态
- Rule checker:rule checker 的状态
- Region merge checker:merge checker 的状态
- Filter target:尝试选择 Store 作为调度 taget 时没有通过 Filter 的计数
- Filter source:尝试选择 Store 作为调度 source 时没有通过 Filter 的计数
- Balance Direction:Store 被选作调度 target 或 source 的次数
- Store Limit:Store 的调度限流状态
gRPC
- Completed commands rate:gRPC 命令的完成速率
- 99% Completed commands duration:99% 命令的最长消耗时间
etcd
- Handle transactions count:etcd 的事务个数
- 99% Handle transactions duration:99% 的情况下,处理 etcd 事务所需花费的时间
- 99% WAL fsync duration:99% 的情况下,持久化 WAL 所需花费的时间,这个值通常应该小于 1s
- 99% Peer round trip time seconds:99% 的情况下,etcd 的网络延时,这个值通常应该小于 1s
- etcd disk WAL fsync rate:etcd 持久化 WAL 的速率
- Raft term:当前 Raft 的 term
- Raft committed index:最后一次 commit 的 Raft index
- Raft applied index:最后一次 apply 的 Raft index
TiDB
- PD Server TSO handle time and Client recv time:从 PD 开始处理 TSO 请求到 client 端接收到 TSO 的总耗时
- Handle requests count:TiDB 的请求数量
- Handle requests duration:每个请求所花费的时间,99% 的情况下,应该小于 100ms
Heartbeat
- Heartbeat region event QPS:心跳处理 region 的 QPS,包括更新缓存和持久化
- Region heartbeat report:TiKV 向 PD 发送的心跳个数
- Region heartbeat report error:TiKV 向 PD 发送的异常的心跳个数
- Region heartbeat report active:TiKV 向 PD 发送的正常的心跳个数
- Region schedule push:PD 向 TiKV 发送的调度命令的个数
- 99% Region heartbeat latency:99% 的情况下,心跳的延迟
Region storage
- Syncer Index:Leader 记录 Region 变更历史的最大 index
- history last index:Follower 成功同步的 Region 变更历史的 index
文档内容是否有帮助?