主要指標
TiUPを使用して TiDB クラスターをデプロイすると、監視システム (Prometheus および Grafana) も同時にデプロイされます。詳細については、 TiDB 監視フレームワークの概要参照してください。
Grafana ダッシュボードは、Overview、PD、TiDB、TiKV、Node_exporter、Disk Performance、Performance_overview などの一連のサブダッシュボードに分かれています。診断に役立つメトリックが多数あります。
日常的な操作では、主要なメトリックが表示される概要ダッシュボードから、コンポーネント(PD、TiDB、TiKV) のステータスとクラスター全体の概要を取得できます。このドキュメントでは、これらの主要なメトリックについて詳しく説明します。
主要な指標の説明
概要ダッシュボードに表示される主要な指標を理解するには、次の表を確認してください。
サービス | パネル名 | 説明 | 正常範囲 |
---|---|---|---|
サービスポートステータス | サービスアップ | 各サービスのオンラインノード数。 | |
PD | PDの役割 | 現在のPDの役割。 | |
PD | ストレージ容量 | TiDB クラスターの合計storage容量。 | |
PD | 現在のstorageサイズ | TiKV レプリカによって占有されるスペースを含む、TiDB クラスターの占有storage容量。 | |
PD | 通常の店舗 | 正常状態にあるノードの数。 | |
PD | 異常店舗 | 異常状態にあるノードの数。 | 0 |
PD | 地域数 | 現在のクラスター内のリージョンの合計数。リージョンの数はレプリカの数とは関係ないことに注意してください。 | |
PD | 99% 完了コマンド実行時間秒数 | pd-server 要求を完了するまでの 99 パーセンタイル期間。 | 5ミリ秒未満 |
PD | 処理リクエストの所要時間(秒) | PD 要求のネットワーク期間。 | |
PD | リージョンの健康 | 各リージョンの状態。 | 通常、保留中のピアの数は 100 未満であり、不足しているピアの数は必ずしも0 を超えるとは限りません。 |
PD | ホットライトリージョンのリーダー分布 | 各 TiKV インスタンスの書き込みホットスポットであるリーダーの合計数。 | |
PD | 注目の地域のリーダー分布 | 各 TiKV インスタンスの読み取りホットスポットであるリーダーの合計数。 | |
PD | リージョンハートビートレポート | インスタンスごとに PD に報告されるハートビートの数。 | |
PD | 99%リージョンハートビートレイテンシー | TiKV インスタンスごとのハートビートレイテンシー(P99)。 | |
ティビ | ステートメントOPS | 1 秒あたりに実行されるさまざまなタイプの SQL ステートメントの数SELECT 、 INSERT 、 UPDATE 、およびその他のタイプのステートメントに従ってカウントされます。 | |
ティビ | 間隔 | 実行時間。 1. クライアントのネットワーク要求が TiDB に送信されてから、TiDB が要求を実行した後に要求がクライアントに返されるまでの期間。通常、クライアント要求は SQL ステートメントの形式で送信されますが、この期間には COM_PING 、 COM_SLEEP 、 COM_STMT_FETCH 、 COM_SEND_LONG_DATA などのコマンドの実行時間が含まれる場合があります。2. TiDB はマルチクエリをサポートしているため、 select 1; select 1; select 1; のように複数の SQL ステートメントを一度に送信できます。この場合、このクエリの合計実行時間には、すべての SQL ステートメントの実行時間が含まれます。 | |
ティビ | インスタンスごとのCPS | インスタンス別 CPS: コマンド実行結果の成功または失敗に応じて分類された、各 TiDB インスタンスのコマンド統計。 | |
ティビ | クエリ OPM が失敗しました | 各 TiDB インスタンスで 1 秒あたりに SQL ステートメントを実行したときに発生したエラーに基づくエラーの種類 (構文エラーや主キーの競合など) の統計。エラーが発生したモジュールとエラー コードが含まれます。 | |
ティビ | 接続数 | 各 TiDB インスタンスの接続数。 | |
ティビ | メモリ使用量 | 各 TiDB インスタンスのメモリ使用量統計。プロセスによって占有されるメモリと、ヒープ上でGolangによって適用されたメモリに分割されます。 | |
ティビ | トランザクションOPS | 1 秒あたりに実行されるトランザクションの数。 | |
ティビ | トランザクション期間 | トランザクションの実行時間 | |
ティビ | KVコマンドオペレーション | 実行された KV コマンドの数。 | |
ティビ | KV コマンド持続時間 99 | KV コマンドの実行時間。 | |
ティビ | PD TSOオペレーション | TiDB が PD から 1 秒あたりに取得する TSO の数。 | |
ティビ | PD TSO 待機時間 | TiDB が PD が TSO を返すのを待機する期間。 | |
ティビ | TiClientリージョンエラー OPS | TiKV によって返されたリージョン関連エラーの数。 | |
ティビ | ロック解決OPS | ロックを解決する TiDB 操作の数。TiDB の読み取りまたは書き込み要求がロックに遭遇すると、ロックを解決しようとします。 | |
ティビ | KV バックオフ OPS | TiKV によって返されたエラーの数。 | |
ティクヴ | リーダー | 各 TiKV ノード上のリーダーの数。 | |
ティクヴ | 地域 | 各 TiKV ノード上のリージョンの数。 | |
ティクヴ | CPU | 各 TiKV ノードの CPU 使用率。 | |
ティクヴ | メモリ | 各 TiKV ノードのメモリ使用量。 | |
ティクヴ | 店舗規模 | 各 TiKV インスタンスによって使用されるstorage領域のサイズ。 | |
ティクヴ | cfサイズ | 各カラムファミリー(略して CF) のサイズ。 | |
ティクヴ | チャンネル満杯 | 各 TiKV インスタンス上の「チャネルがいっぱい」エラーの数。 | 0 |
ティクヴ | サーバーレポートの失敗 | 各 TiKV インスタンスによって報告されたエラー メッセージの数。 | 0 |
ティクヴ | スケジューラ保留コマンド | 各 TiKV インスタンス上の保留中のコマンドの数。 | |
ティクヴ | コプロセッサ実行者数 | TiKV が 1 秒あたりに受信したコプロセッサ操作の数。コプロセッサの種類ごとに個別にカウントされます。 | |
ティクヴ | コプロセッサ要求期間 | コプロセッサの読み取り要求を処理するのに費やされた時間。 | |
ティクヴ | いかだストアCPU | raftstoreスレッドのCPU使用率 | デフォルトのスレッド数は 2 です ( raftstore.store-pool-size で設定)。1 つのスレッドの値が 80% を超えると、CPU 使用率が非常に高いことを示します。 |
ティクヴ | コプロセッサーCPU | コプロセッサ スレッドの CPU 使用率。 | |
システム情報 | Vコア | CPU コアの数。 | |
システム情報 | メモリ | 合計メモリ。 | |
システム情報 | CPU使用率 | CPU使用率、最大100%。 | |
システム情報 | 荷重[1m] | 1分以内に過負荷になります。 | |
システム情報 | 使用可能なメモリ | 使用可能なメモリのサイズ。 | |
システム情報 | ネットワークトラフィック | ネットワーク トラフィックの統計。 | |
システム情報 | TCP 再送信 | TOC 再送信の頻度。 | |
システム情報 | IO 使用率 | ディスク使用率は最大 100% です。一般的には、使用率が 80% ~ 90% までになると、新しいノードの追加を検討する必要があります。 |