TiDBBinlog監視

TiDB Binlogを正常にデプロイしたら、Grafana Web (デフォルトのアドレス: http://grafana_ip:3000 、デフォルトのアカウント: admin、パスワード: admin) にアクセスして、 PumpとDrainerの状態を確認できます。

指標のモニタリング

TiDB Binlog は、 PumpとDrainerの 2 つのコンポーネントで構成されています。このセクションでは、 PumpとDrainerの監視メトリクスを示します。

Pump監視指標

Pumpモニタリングメトリックを理解するには、次の表を確認してください。

Pump監視指標	説明
収納サイズ	合計ディスク容量 (容量) と使用可能なディスク容量 (使用可能) を記録します。
メタデータ	各Pumpノードが削除できるbinlogの最大の TSO ( `gc_tso` ) と、保存されたbinlogの最大のコミット TSO ( `max_commit_tso` ) を記録します。
インスタンスごとにBinlog QPS を書き込む	各Pumpノードが受信したbinlogリクエストの書き込みの QPS を表示します
Binlogレイテンシーの書き込み	binlogを書き込む各Pumpノードのレイテンシーを記録します。
ストレージ書き込みBinlogサイズ	Pumpによって書き込まれたbinlogデータのサイズを表示します
ストレージ書き込みBinlogレイテンシ	Pumpstorageモジュールのbinlog書き込みのレイテンシーを記録します
タイプ別Pump保管エラー	エラーの種類に基づいてカウントされた、 Pumpで発生したエラーの数を記録します
TiKV のクエリ	Pump がTiKV を介してトランザクションステータスを照会する回数

Drainerモニタリング指標

Drainerモニタリングメトリックを理解するには、次の表を確認してください。

Drainerモニタリング指標	説明
チェックポイント TSO	Drainer がすでにダウンストリームにレプリケートしたbinlogの最大 TSO 時間を示します。現在の時刻を使用してbinlogのタイムスタンプを差し引くことで、ラグを取得できます。ただし、タイムスタンプはマスタークラスタの PD によって割り当てられ、PD の時刻によって決定されることに注意してください。
Pumpハンドル TSO	Drainer が各Pumpノードから取得したbinlogファイルの中で最大の TSO 時間を記録します
Pump NodeID によるBinlog QPS のプル	Drainer が各Pumpノードからbinlog を取得したときの QPS を表示します
Pumpによる 95% のBinlogリーチ期間	binlogがPumpに書き込まれてからDrainerがbinlogを取得するまでの遅延を記録します。
タイプ別エラー	Drainerで発生したエラーの数を、エラーの種類に基づいてカウントして表示します
SQL クエリ時間	Drainerがダウンストリームで SQL ステートメントを実行するのにかかる時間を記録します
Drainerイベント	「ddl」、「insert」、「delete」、「update」、「flush」、「savepoint」など、さまざまなタイプのイベントの数を表示します
実行時間	binlog をダウンストリーム同期モジュールに書き込むのにかかる時間を記録します
95% のBinlogサイズ	Drainer が各Pumpノードから取得するbinlogデータのサイズを表示します
DDL ジョブ数	Drainerによって処理された DDL ステートメントの数を記録します
キューサイズ	ワークキューのサイズをDrainerに記録する

アラートルール

このセクションでは、TiDB Binlogのアラートルールを示します。重大度レベルに応じて、TiDB Binlogアラートルールは 3 つのカテゴリ (高から低) に分類されます: 緊急レベル、重大レベル、警告レベルです。

緊急レベルのアラート

緊急レベルのアラートは、多くの場合、サービスまたはノードの障害によって発生します。手動による介入がすぐに必要です。

`binlog_pump_storage_error_count`

アラートルール:
changes(binlog_pump_storage_error_count[1m]) > 0
説明：
Pumpはbinlogデータをローカルstorageに書き込むことができません。
解決：
pump_storage_error監視に異常がないか確認し、 Pump のログを確認して原因を突き止めてください。

重大レベルのアラート

重大レベルのアラートについては、異常なメトリックを注意深く監視する必要があります。

`binlog_drainer_checkpoint_high_delay`

アラートルール:
(time() - binlog_drainer_checkpoint_tso / 1000) > 3600
説明：
Drainerレプリケーションの遅延が 1 時間を超えています。
解決：
- Pumpからデータを取得するのが遅すぎるかどうかを確認します。
  Pumpのhandle tsoをチェックして、各Pumpの最新メッセージの時刻を取得できます。Pumpのレイテンシーが大きいかどうかを確認し、対応するPumpが正常に動作していることを確認します。
- Drainer eventとDrainer execute latencyに基づいて、ダウンストリームでデータをレプリケートするのが遅すぎるかどうかを確認します。
  - Drainer execute timeが大きすぎる場合は、Drainer がDrainerされたマシンとターゲットデータベースがデプロイされたマシンの間のネットワーク帯域幅とレイテンシー、およびターゲットデータベースの状態を確認します。
  - Drainerexecute timeが大きすぎず、Drainereventが小さすぎる場合は、 work countとbatchを追加して再試行します。
- 上記の 2 つの解決策が機能しない場合は、PingCAP またはコミュニティから支持を得ます。

警告レベルのアラート

警告レベルのアラートは、問題またはエラーのリマインダーです。

`binlog_pump_write_binlog_rpc_duration_seconds_bucket`

アラートルール:
histogram_quantile(0.9, rate(binlog_pump_rpc_duration_seconds_bucket{method="WriteBinlog"}[5m])) > 1
説明：
Pump がbinlogを書き込む TiDB 要求を処理するには時間がかかりすぎます。
解決：
- ディスクパフォーマンスのプレッシャーを確認し、 node exportedでディスクパフォーマンスの監視を確認します。
- disk latencyとutil両方が低い場合、PingCAP またはコミュニティからの支持を得ます。

`binlog_pump_storage_write_binlog_duration_time_bucket`

アラートルール:
histogram_quantile(0.9, rate(binlog_pump_storage_write_binlog_duration_time_bucket{type="batch"}[5m])) > 1
説明：
Pump がローカルbinlog をローカルディスクに書き込むのにかかる時間。
解決：
Pumpのローカルディスクの状態を確認し、問題を修正してください。

`binlog_pump_storage_available_size_less_than_20G`

アラートルール:
binlog_pump_storage_storage_size_bytes{type="available"} < 20 * 1024 * 1024 * 1024
説明：
Pumpの使用可能なディスク容量は 20 GB 未満です。
解決：
Pumpgc_tsoが正常かどうかを確認します。そうでない場合は、 Pumpの GC 時間構成を調整するか、対応するPump をオフラインにします。

`binlog_drainer_checkpoint_tso_no_change_for_1m`

アラートルール:
changes(binlog_drainer_checkpoint_tso[1m]) < 1
説明：
Drainer checkpointは 1 分間更新されていません。
解決：
オフラインになっていないすべてのポンプが正常に動作しているかどうかを確認します。

`binlog_drainer_execute_duration_time_more_than_10s`

アラートルール:
histogram_quantile(0.9, rate(binlog_drainer_execute_duration_time_bucket[1m])) > 10
説明：
Drainer がデータを TiDB にレプリケートするのにかかるトランザクション時間。大きすぎると、データのDrainerレプリケーションが影響を受けます。
解決：
- TiDB クラスターの状態を確認します。
- Drainerログまたはモニターを確認してください。 DDL 操作がこの問題の原因である場合は、無視してかまいません。

TiDBBinlog監視

指標のモニタリング

Pump監視指標

Drainerモニタリング指標

アラート ルール

緊急レベルのアラート

binlog_pump_storage_error_count

重大レベルのアラート

binlog_drainer_checkpoint_high_delay

警告レベルのアラート

binlog_pump_write_binlog_rpc_duration_seconds_bucket

binlog_pump_storage_write_binlog_duration_time_bucket

binlog_pump_storage_available_size_less_than_20G

binlog_drainer_checkpoint_tso_no_change_for_1m

binlog_drainer_execute_duration_time_more_than_10s

このページは役に立ちましたか？