主な指標

TiUP を使用して TiDB クラスターをデプロイすると、監視システム (Prometheus & Grafana) が同時にデプロイされます。詳細については、 TiDB 監視フレームワークの概要を参照してください。

Grafana ダッシュボードは、Overview、PD、TiDB、TiKV、Node_exporter、Disk Performance、Performance_overview などを含む一連のサブ ダッシュボードに分かれています。診断に役立つ多くの指標があります。

日常的な操作については、コンポーネント (PD、TiDB、TiKV) のステータスとクラスター全体の概要を、主要なメトリックが表示される概要ダッシュボードから取得できます。このドキュメントでは、これらの主要な指標について詳しく説明します。

主要指標の説明

概要ダッシュボードに表示される主要なメトリックを理解するには、次の表を確認してください。

サービスパネル名説明正常範囲
サービス ポート ステータスサービスアップ各サービスのオンライン ノード数。
PDPDの役割現在の PD の役割。
PDストレージ容量TiDB クラスターの合計ストレージ容量。
PD現在のストレージ サイズTiKV レプリカが占有するスペースを含む、TiDB クラスターの占有ストレージ容量。
PD通常店舗通常状態のノード数。
PD異常な店舗異常状態のノード数。0
PD地域数現在のクラスター内のリージョンの総数。リージョンの数はレプリカの数とは関係がないことに注意してください。
PD99% 完了_cmds_duration_secondspd-server リクエストを完了するまでの 99 パーセンタイル期間。5ms未満
PDHandle_requests_duration_secondsPD 要求のネットワーク継続時間。
PDリージョンの健康各リージョンの状態。通常、保留中のピアの数は 100 未満であり、欠落しているピアの数が常に0を超えるとは限りません。
PDホットライト地域のリーダー分布各 TiKV インスタンスの書き込みホットスポットであるリーダーの総数。
PDホットリード地域のリーダー分布各 TiKV インスタンスの読み取りホットスポットであるリーダーの総数。
PDリージョンハートビート レポートインスタンスごとに PD に報告されたハートビートの数。
PD99%のリージョンハートビートレイテンシーTiKV インスタンスごとのハートビートレイテンシー(P99)。
TiDBステートメント OPSSELECTINSERTUPDATE 、およびその他のタイプのステートメントに従ってカウントされる、1 秒あたりに実行されるさまざまなタイプの SQL ステートメントの数。
TiDB間隔実行時間。
1. クライアントのネットワーク要求が TiDB に送信されてから、TiDB が要求を実行した後に要求がクライアントに返されるまでの時間。通常、クライアント要求は SQL ステートメントの形式で送信されます。ただし、この期間には、 COM_PINGCOM_SLEEPCOM_STMT_FETCH 、およびCOM_SEND_LONG_DATAなどのコマンドの実行時間が含まれる場合があります。
2. TiDB はマルチクエリをサポートしているため、TiDB はselect 1; select 1; select 1;などの複数の SQL ステートメントを一度に送信することをサポートしています。この場合、このクエリの合計実行時間には、すべての SQL ステートメントの実行時間が含まれます。
TiDBインスタンス別 CPSCPS By Instance: 各 TiDB インスタンスのコマンド統計。コマンド実行結果の成功または失敗に従って分類されます。
TiDBクエリ OPM の失敗各 TiDB インスタンスで 1 秒あたりに SQL ステートメントを実行したときに発生したエラーに基づく、エラーの種類 (構文エラーや主キーの競合など) の統計。エラーが発生したモジュールとエラー コードが含まれます。
TiDB接続数各 TiDB インスタンスの接続番号。
TiDBメモリ使用量各 TiDB インスタンスのメモリ使用量統計。プロセスが占有するメモリと Golang がヒープに適用するメモリに分けられます。
TiDB取引OPS1 秒あたりに実行されたトランザクションの数。
TiDB取引期間トランザクションの実行時間
TiDBKV コマンド OPS実行された KV コマンドの数。
TiDBKV コマンド持続時間 99KV コマンドの実行時間。
TiDBPD TSO OPSTiDB が PD から取得する 1 秒あたりの TSO の数。
TiDBPD TSO 待機時間PD が TSO を返すのを TiDB が待機する期間。
TiDBTiClientリージョンエラー OPSTiKV によって返されたリージョン関連のエラーの数。
TiDBロック解決 OPSロックを解決する TiDB 操作の数。 TiDB の読み取りまたは書き込み要求がロックに遭遇すると、ロックを解決しようとします。
TiDBKV バックオフ OPSTiKV から返されたエラーの数。
TiKV盟主各 TiKV ノードのリーダーの数。
TiKV領域各 TiKV ノードのリージョン数。
TiKVCPU各 TiKV ノードの CPU 使用率。
TiKVメモリー各 TiKV ノードのメモリ使用量。
TiKV店舗サイズ各 TiKV インスタンスが使用するストレージ スペースのサイズ。
TiKVcfサイズ各列ファミリーのサイズ (略して CF)。
TiKVチャネルがいっぱい各 TiKV インスタンスの「チャネルがいっぱい」エラーの数。0
TiKVサーバーレポートの失敗各 TiKV インスタンスによって報告されたエラー メッセージの数。0
TiKVスケジューラ保留中のコマンド各 TiKV インスタンスで保留中のコマンドの数。
TiKVコプロセッサーのエグゼキューター数TiKV が 1 秒間に受信したコプロセッサー操作の数。コプロセッサーの各タイプは個別にカウントされます。
TiKVコプロセッサー要求期間コプロセッサーの読み取り要求の処理にかかった時間。
TiKVラフトストアCPUraftstore スレッドの CPU 使用率デフォルトのスレッド数は 2 です ( raftstore.store-pool-sizeで構成)。 1 つのスレッドで 80% を超える値は、CPU 使用率が非常に高いことを示します。
TiKVコプロセッサ CPUコプロセッサー・スレッドの CPU 使用率。
システム情報VコアCPU コアの数。
システム情報メモリーメモリの合計。
システム情報CPU使用率CPU使用率、最大100%。
システム情報荷重[1m]1分以内の過負荷。
システム情報利用可能なメモリ使用可能なメモリのサイズ。
システム情報ネットワーク トラフィックネットワーク トラフィックの統計。
システム情報TCP 再送TOC 再送信の頻度。
システム情報IO 使用率ディスク使用率、最大 100%。通常、使用率が 80% ~ 90% までの場合は、新しいノードの追加を検討する必要があります。

概要ダッシュボードのインターフェース

overview

エコシステム
TiDB
TiKV
TiSpark
Chaos Mesh
© 2022 PingCAP. All Rights Reserved.