TiDB 监控常见问题

本文介绍在监控 TiDB 集群时的常见问题、原因及解决方法。

目前的监控使用方式及主要监控指标,有没有更好看的监控?

TiDB 使用 Prometheus + Grafana 组成 TiDB 数据库系统的监控系统。用户在 Grafana 上通过 dashboard 可以监控到 TiDB 的各类运行指标,包括

  • 系统资源的监控指标
  • 客户端连接与 SQL 运行的指标
  • 内部通信和 Region 调度的指标

通过这些指标,可以让数据库管理员更好的了解到系统的运行状态,运行瓶颈等内容。在监控指标的过程中,我们按照 TiDB 不同的模块,分别列出了各个模块重要的指标项,一般用户只需要关注这些常见的指标项。具体指标请参见官方文档

Prometheus 监控数据默认 15 天自动清除一次,可以自己设定成 2 个月或者手动删除吗?

可以的,在 Prometheus 启动的机器上,找到启动脚本,然后修改启动参数,然后重启 Prometheus 生效。

--storage.tsdb.retention="60d"

Region Health 监控项

TiDB-2.0 版本中,PD metric 监控页面中,对 Region 健康度进行了监控,其中 Region Health 监控项是对所有 Region 副本状况的一些统计。其中 miss 是缺副本,extra 是多副本。同时也增加了按 Label 统计的隔离级别,level-1 表示这些 Region 的副本在第一级 Label 下是物理隔离的,没有配置 location label 时所有 Region 都在 level-0。

Statement Count 监控项中的 selectsimplefull 是什么意思?

代表全表扫,但是可能是很小的系统表。

监控上的 QPS 和 Statement OPS 有什么区别?

QPS 会统计执行的所有 SQL 命令,包括 use database、load data、begin、commit、set、show、insert、select 等。

Statement OPS 只统计 select、update、insert 等业务相关的,所以 Statement OPS 的统计和业务比较相符。