TiDB 监控常见问题

本文介绍在监控 TiDB 集群时的常见问题、原因及解决方法。

目前的监控使用方式及主要监控指标,有没有更好看的监控?

TiDB 使用 Prometheus + Grafana 组成 TiDB 数据库系统的监控系统。用户在 Grafana 上通过 dashboard 可以监控到 TiDB 的各类运行指标,包括

  • 系统资源的监控指标
  • 客户端连接与 SQL 运行的指标
  • 内部通信和 Region 调度的指标

通过这些指标,可以让数据库管理员更好的了解到系统的运行状态,运行瓶颈等内容。在监控指标的过程中,我们按照 TiDB 不同的模块,分别列出了各个模块重要的指标项,一般用户只需要关注这些常见的指标项。具体指标请参见官方文档

Prometheus 监控数据默认 15 天自动清除一次,可以自己设定成 2 个月或者手动删除吗?

可以的,在 Prometheus 启动的机器上,找到启动脚本,然后修改启动参数,然后重启 Prometheus 生效。

--storage.tsdb.retention="60d"

Region Health 监控项

TiDB-2.0 版本中,PD metric 监控页面中,对 Region 健康度进行了监控,其中 Region Health 监控项是对所有 Region 副本状况的一些统计。其中 miss 是缺副本,extra 是多副本。同时也增加了按 Label 统计的隔离级别,level-1 表示这些 Region 的副本在第一级 Label 下是物理隔离的,没有配置 location label 时所有 Region 都在 level-0。

Statement Count 监控项中的 selectsimplefull 是什么意思?

代表全表扫,但是可能是很小的系统表。

监控上的 QPS 和 Statement OPS 有什么区别?

QPS 会统计执行的所有 SQL 命令,包括 use database、load data、begin、commit、set、show、insert、select 等。

Statement OPS 只统计 select、update、insert 等业务相关的,所以 Statement OPS 的统计和业务比较相符。

下载 PDF文档反馈社区交流
文档内容是否有帮助?
产品
TiDB
学习
客户案例
PingCAP Education
TiDB in Action
© 2022 PingCAP. All Rights Reserved.