主要な指標

TiUPを使用して TiDB クラスターをデプロイすると、監視システム (Prometheus および Grafana) も同時にデプロイされます。詳細については、 TiDB 監視フレームワークの概要参照してください。

Grafana ダッシュボードは、Overview、PD、TiDB、TiKV、Node_exporter、Disk Performance、Performance_overview などの一連のサブダッシュボードに分かれています。診断に役立つメトリックが多数あります。

日常的な操作では、主要なメトリックが表示される概要ダッシュボードから、コンポーネント(PD、TiDB、TiKV) のステータスとクラスター全体の概要を取得できます。このドキュメントでは、これらの主要なメトリックについて詳しく説明します。

主要な指標の説明

概要ダッシュボードに表示される主要な指標を理解するには、次の表を確認してください。

サービスパネル名説明正常範囲
サービスポートステータスサービスアップ各サービスのオンラインノード数。
PDPDの役割現在のPDの役割。
PDストレージ容量TiDB クラスターの合計storage容量。
PD現在のstorageサイズTiKV レプリカによって占有されるスペースを含む、TiDB クラスターの占有storage容量。
PD通常の店舗正常状態にあるノードの数。
PD異常な店舗異常状態にあるノードの数。0
PD地域数現在のクラスター内のリージョンの合計数。リージョンの数はレプリカの数とは関係ないことに注意してください。
PD99% 完了コマンド実行時間秒数pd-server 要求を完了するまでの 99 パーセンタイル期間。5ミリ秒未満
PD処理リクエストの所要時間(秒)PD 要求のネットワーク期間。
PDリージョンの健康各リージョンの状態。通常、保留中のピアの数は 100 未満であり、不足しているピアの数は必ずしも0を超えるとは限りません。
PDホットライトリージョンのリーダー分布各 TiKV インスタンスの書き込みホットスポットであるリーダーの合計数。
PD注目の地域のリーダー分布各 TiKV インスタンスの読み取りホットスポットであるリーダーの合計数。
PDリージョンハートビートレポートインスタンスごとに PD に報告されるハートビートの数。
PD99%リージョンハートビートレイテンシーTiKV インスタンスごとのハートビートレイテンシー(P99)。
ティビステートメントOPS1 秒あたりに実行されるさまざまなタイプの SQL ステートメントの数SELECTINSERTUPDATE 、およびその他のタイプのステートメントに従ってカウントされます。
ティビ間隔実行時間。
1. クライアントのネットワーク要求が TiDB に送信されてから、TiDB が要求を実行した後に要求がクライアントに返されるまでの期間。通常、クライアント要求は SQL ステートメントの形式で送信されますが、この期間にはCOM_PINGCOM_SLEEPCOM_STMT_FETCHCOM_SEND_LONG_DATAなどのコマンドの実行時間が含まれる場合があります。
2. TiDB はマルチクエリをサポートしているため、 select 1; select 1; select 1;のように複数の SQL ステートメントを一度に送信できます。この場合、このクエリの合計実行時間には、すべての SQL ステートメントの実行時間が含まれます。
ティビインスタンスごとのCPSインスタンス別 CPS: コマンド実行結果の成功または失敗に応じて分類された、各 TiDB インスタンスのコマンド統計。
ティビクエリ OPM に失敗しました各 TiDB インスタンスで 1 秒あたりに SQL ステートメントを実行したときに発生したエラーに基づくエラーの種類 (構文エラーや主キーの競合など) の統計。エラーが発生したモジュールとエラー コードが含まれます。
ティビ接続数各 TiDB インスタンスの接続数。
ティビメモリ使用量各 TiDB インスタンスのメモリ使用量統計。プロセスによって占有されるメモリと、ヒープ上でGolangによって適用されたメモリに分割されます。
ティビトランザクションOPS1 秒あたりに実行されるトランザクションの数。
ティビトランザクション期間トランザクションの実行時間
ティビKVコマンドオペレーション実行された KV コマンドの数。
ティビKV コマンド持続時間 99KV コマンドの実行時間。
ティビPD TSOオペレーションTiDB が PD に送信する 1 秒あたりの gRPC リクエストの数 (cmd) と TSO リクエストの数 (request)。各 gRPC リクエストには、TSO リクエストのバッチが含まれます。
ティビPD TSO 待機時間TiDB が PD から TSO が返されるのを待機する期間。
ティビTiClientリージョンエラー OPSTiKV によって返されたリージョン関連エラーの数。
ティビロック解決OPSロックを解決する TiDB 操作の数。TiDB の読み取りまたは書き込み要求がロックに遭遇すると、ロックを解決しようとします。
ティビKV バックオフ OPSTiKV によって返されたエラーの数。
ティクヴリーダー各 TiKV ノード上のリーダーの数。
ティクヴ地域各 TiKV ノード上のリージョンの数。
ティクヴCPU各 TiKV ノードの CPU 使用率。
ティクヴメモリ各 TiKV ノードのメモリ使用量。
ティクヴ店舗規模各 TiKV インスタンスによって使用されるstorage領域のサイズ。
ティクヴcfサイズ各カラムファミリー(略して CF) のサイズ。
ティクヴチャンネル満杯各 TiKV インスタンス上の「チャネルがいっぱい」エラーの数。0
ティクヴサーバーレポートの失敗各 TiKV インスタンスによって報告されたエラー メッセージの数。0
ティクヴスケジューラ保留コマンド各 TiKV インスタンス上の保留中のコマンドの数。
ティクヴコプロセッサ実行者数TiKV が 1 秒あたりに受信したコプロセッサ操作の数。コプロセッサの種類ごとに個別にカウントされます。
ティクヴコプロセッサ要求期間コプロセッサの読み取り要求を処理するのに費やされた時間。
ティクヴいかだストアCPUraftstoreスレッドのCPU使用率デフォルトのスレッド数は 2 です ( raftstore.store-pool-sizeで設定)。1 つのスレッドの値が 80% を超えると、CPU 使用率が非常に高いことを示します。
ティクヴコプロセッサーCPUコプロセッサ スレッドの CPU 使用率。
システム情報VコアCPU コアの数。
システム情報メモリ合計メモリ。
システム情報CPU使用率CPU使用率、最大100%。
システム情報荷重[1m]1分以内に過負荷になります。
システム情報使用可能なメモリ使用可能なメモリのサイズ。
システム情報ネットワークトラフィックネットワーク トラフィックの統計。
システム情報TCP 再送信TOC 再送信の頻度。
システム情報IO 使用率ディスク使用率は最大 100% です。一般的には、使用率が 80% ~ 90% までになると、新しいノードの追加を検討する必要があります。

概要ダッシュボードのインターフェース

overview

このページは役に立ちましたか?