重要
このページは英語版のページを機械翻訳しています。原文はこちらからご覧ください。

PDの主要な監視指標

TiUPを使用してTiDBクラスタをデプロイする場合、監視システム(Prometheus&Grafana)が同時にデプロイされます。詳細については、 モニタリングフレームワークの概要を参照してください。

Grafanaダッシュボードは、Overview、PD、TiDB、TiKV、Node_exporter、Disk Performance、Performance_overviewなどを含む一連のサブダッシュボードに分割されています。診断に役立つ多くのメトリックがあります。

コンポーネントのPDステータスの概要は、主要なメトリックが表示されるPDダッシュボードから取得できます。このドキュメントでは、これらの主要な指標について詳しく説明します。

以下は、PDダッシュボードメトリックアイテムの説明です。

  • PDの役割:現在のPDインスタンスの役割
  • ストレージ容量:このTiDBクラスタの合計ストレージ容量
  • 現在のストレージサイズ:TiDBクラスタで現在使用されているストレージサイズ
  • 現在のストレージ使用量:現在のストレージ使用率
  • 通常のストア:正常なストレージインスタンスの数
  • リージョン数:クラスタリージョンの総数
  • 異常な店舗:不健康な店舗の数。通常の値は0です。数値が0より大きい場合は、少なくとも1つのインスタンスが異常であることを意味します。
  • リージョンのヘルス:保留中のピア、ダウンピア、追加のピア、オフラインピア、欠落しているピア、学習者ピア、誤った名前空間など、異常なリージョンの数によって示されるリージョンのヘルスステータス。通常、保留中のピアの数は100未満である必要があります。欠落しているピアは、永続的に0を超えてはなりません。空のリージョンが多数存在する場合は、時間内にリージョンマージを有効にします。
  • 現在のピア数:すべてのクラスタピアの現在の数PD Dashboard - Header

主な指標の説明

集まる

  • PDスケジューラー構成:PDスケジューラー構成のリスト
  • クラスターID:クラスタの一意の識別子
  • 現在のTSO:現在割り当てられているTSOの物理的な部分
  • 現在のID割り当て:新しいストア/ピアに割り当て可能な最大ID
  • リージョンラベル分離レベル:異なるラベルレベルのリージョンの数
  • ラベル配布:クラスタのラベルの配布ステータス

PD Dashboard - Cluster metrics

オペレーター

  • オペレーター作成のスケジュール:タイプごとに新しく作成されたオペレーターの数
  • オペレーターチェックのスケジュール:タイプごとのチェックされたオペレーターの数。これは主に、現在のステップが終了したかどうかをチェックします。はいの場合、実行する次のステップを返します
  • オペレーターの終了スケジュール:タイプごとの終了したオペレーターの数
  • オペレータータイムアウトのスケジュール:タイプごとのタイムアウトオペレーターの数
  • 交換またはキャンセルされたオペレーターのスケジュール:タイプごとの交換またはキャンセルされたオペレーターの数
  • 州ごとのスケジュールオペレーター数:州ごとのオペレーター数
  • オペレーターの終了期間:終了したオペレーターの最大期間
  • オペレーターステップ期間:終了したオペレーターステップの最大期間

PD Dashboard - Operator metrics

統計-バランス

  • ストア容量:TiKVインスタンスあたりの容量サイズ
  • 利用可能なストア:TiKVインスタンスごとの利用可能な容量サイズ
  • 使用済みストア:TiKVインスタンスごとの使用済み容量サイズ
  • サイズ増幅:(ストア領域サイズ)/(ストア使用容量サイズ)に等しいTiKVインスタンスあたりのサイズ増幅率
  • サイズ使用可能率:TiKVインスタンスごとのサイズ使用可能率。(ストア使用可能容量サイズ)/(ストア使用可能容量サイズ)に等しくなります。
  • ストアリーダースコア:TiKVインスタンスごとのリーダースコア
  • ストアリージョンスコア:TiKVインスタンスごとのリージョンスコア
  • ストアリーダーサイズ:TiKVインスタンスごとの合計リーダーサイズ
  • ストアリージョンサイズ:TiKVインスタンスごとの合計リージョンサイズ
  • ストアリーダー数:TiKVインスタンスごとのリーダー数
  • ストアリージョン数:TiKVインスタンスごとのリージョン数

PD Dashboard - Balance metrics

統計-ホットライト

  • ホットリージョンのリーダー分布:各TiKVインスタンスで書き込みホットスポットとなったリーダーリージョンの総数
  • ホットリーダーリージョンの合計書き込みバイト数:各TiKVインスタンスで書き込みホットスポットとなったリーダーリージョンの合計書き込みバイト数
  • ホット書き込みリージョンのピア分布:各TiKVインスタンスで書き込みホットスポットになったピアリージョンの総数
  • ホットピアリージョンでの書き込みバイトの合計:各TiKVインスタンスで書き込みホットスポットになったすべてのピアリージョンの書き込みバイト
  • 書き込みレートバイトの保存:各TiKVインスタンスに書き込まれた合計バイト数
  • 書き込みレートキーの保存:各TiKVインスタンスに書き込まれたキーの合計
  • ホットキャッシュ書き込みエントリ番号:書き込みホットスポット統計モジュールにある各TiKVインスタンスのピアの数
  • セレクターイベント:ホットスポットスケジューリングモジュールのセレクターのイベント数
  • ホットスポット移動リーダーの方向:ホットスポットスケジューリングでのリーダー移動の方向。正の数は、インスタンスへのスケジューリングを意味します。負の数は、インスタンスからスケジュールすることを意味します
  • ホットスポット移動ピアの方向:ホットスポットスケジューリングでのピア移動の方向。正の数は、インスタンスへのスケジューリングを意味します。負の数は、インスタンス外でスケジュールすることを意味します

PD Dashboard - Hot write metrics

統計-ホットリード

  • ホットリージョンのピア分布:各TiKVインスタンスで読み取りホットスポットになったピアリージョンの総数
  • ホットピア領域の合計読み取りバイト数:各TiKVインスタンスで読み取りホットスポットになったピアの合計読み取りバイト数
  • 読み取りレートバイトの保存:各TiKVインスタンスの合計読み取りバイト
  • 読み取り速度キーの保存:各TiKVインスタンスの読み取りキーの合計
  • ホットキャッシュ読み取りエントリ番号:各TiKVインスタンスの読み取りホットスポット統計モジュールにあるピアの数

PD Dashboard - Hot read metrics

スケジューラー

  • スケジューラーが実行中:現在実行中のスケジューラー
  • リーダーの動きのバランス:TiKVインスタンス間のリーダーの動きの詳細
  • リージョンの動きのバランス:TiKVインスタンス間のリージョンの動きの詳細
  • バランスリーダーイベント:バランスリーダーイベントの数
  • バランスリージョンイベント:バランスリージョンイベントの数
  • バランスリーダースケジューラ:バランスリーダースケジューラの内部ステータス
  • バランス領域スケジューラ:バランス領域スケジューラの内部ステータス
  • レプリカチェッカー:レプリカチェッカーのステータス
  • ルールチェッカー:ルールチェッカーのステータス
  • リージョンマージチェッカー:マージチェッカーのステータス
  • フィルターターゲット:ストアがスケジューリングターゲットとして選択されたが、フィルターを通過できなかった試行回数
  • フィルターソース:ストアがスケジューリングソースとして選択されたが、フィルターを通過できなかった試行回数
  • バランスの方向:ストアがスケジュールのターゲットまたはソースとして選択された回数
  • ストア制限:ストアでのスケジューリングのフロー制御制限

PD Dashboard - Scheduler metrics

gRPC

  • 完了したコマンドの割合:gRPCコマンドが完了したコマンドタイプごとの割合
  • 99%完了コマンド期間:gRPCコマンドが完了したコマンドタイプごとの割合(P99)

PD Dashboard - gRPC metrics

etcd

  • トランザクション数の処理:etcdがトランザクションを処理する速度
  • 99%トランザクション処理期間:トランザクション処理率(P99)
  • 99%WAL fsync期間:永続ストレージへのWALの書き込みにかかる時間。 1s未満(P99)
  • 99%ピアラウンドトリップ時間秒:etcdのネットワーク遅延(P99)|値は1s未満です
  • etcd disk WAL fsync rate:永続ストレージへのWALの書き込み速度
  • いかだの用語:いかだの現在の用語
  • Raftコミット済みインデックス:Raftの最後にコミットされたインデックス
  • ラフト適用インデックス:ラフトの最後に適用されたインデックス

PD Dashboard - etcd metrics

TiDB

  • PDサーバーのTSO処理時間とクライアントの受信時間:PDがTSO要求を受信してからPDクライアントがTSO応答を取得するまでの時間
  • リクエスト数の処理:TiDBリクエストの数
  • リクエストの処理時間:TiDBリクエストの処理にかかる時間。 100ms未満である必要があります(P99)

PD Dashboard - TiDB metrics

ハートビート

  • ハートビート領域イベントQPS:キャッシュの更新やデータの永続化など、ハートビートメッセージを処理するQPS
  • リージョンハートビートレポート:インスタンスごとにPDに報告されたハートビートの数
  • リージョンハートビートレポートエラー:ステータスがerrorのハートビートの数
  • アクティブなリージョンハートビートレポート:ステータスがokのハートビートの数
  • リージョンスケジュールプッシュ:TiKVインスタンスごとにPDから送信された対応するスケジュールコマンドの数
  • 99%リージョンのハートビートレイテンシ:TiKVインスタンスごとのハートビートレイテンシ(P99)

PD Dashboard - Heartbeat metrics

リージョンストレージ

  • シンカーインデックス:リーダーによって記録されたリージョン変更履歴の最大インデックス
  • history last index:リージョン変更履歴がフォロワーと正常に同期された最後のインデックス

PD Dashboard - Region storage