データ移行の監視指標

DM クラスターが TiUP を使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker によって提供されるモニタリング メトリクスについて説明します。

仕事

Grafana ダッシュボードでは、DM のデフォルト名はDM-taskです。

overview

Overviewには、現在選択されているタスクのすべての DM-worker および DM-master インスタンスまたはソースのいくつかのモニタリング メトリックが含まれます。現在の既定のアラート ルールは、単一の DM-worker/DM-master インスタンス/ソースのみを対象としています。

指標名説明アラート重大度
タスクの状態移行のサブタスクの状態なしなし
ストレージ容量リレーログが占有するディスクの合計ストレージ容量なしなし
保管残りリレーログが占有するディスクの残りのストレージ容量なしなし
マスターとリレー間の binlog ファイルのギャップrelay処理単位が上流のマスターより遅れている binlog ファイルの数なしなし
ロードの進行状況ロード ユニットのロード プロセスが完了した割合。値は 0% から 100% の間ですなしなし
マスターとシンサー間の binlog ファイルのギャップバイナリログ レプリケーション ユニットがアップストリーム マスターの背後にあるバイナリログ ファイルの数なしなし
シャードロックの解決現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味しますなしなし

操作エラー

指標名説明アラート重大度
操作エラーの前に操作前のエラー数なしなし
ソースバウンドエラーデータ ソース バインド操作のエラー数なしなし
起動エラーサブタスク開始時のエラー数なしなし
一時停止エラーサブタスクの一時停止中のエラー数なしなし
再開エラーサブタスクの再開中のエラーの数なしなし
自動再開エラーサブタスクの自動再開中のエラー数なしなし
更新エラーサブタスクの更新中のエラー数なしなし
停止エラーサブタスク停止中のエラー数なしなし

高可用性

指標名説明アラート重大度
1 分あたりの dm-masters 開始リーダー コンポーネントの数リーダー関連のコンポーネントを有効にする DM マスターの 1 分あたりの試行回数なしなし
異なる州の労働者の数さまざまな州の DM ワーカーの数一部の DM ワーカーは 1 時間以上オフラインになっています致命的
労働者国家DM ワーカーの状態なしなし
ワーカーイベントエラー数さまざまなタイプの DM-worker エラーの数なしなし
1 分あたりのシャード ddl エラー1 分あたりのさまざまなタイプのシャーディング DDL エラーの数シャーディング DDL エラーが発生する致命的
保留中のシャード ddl の数保留中のシャーディング DDL 操作の数保留中のシャーディング DDL 操作が 1 時間以上存在している致命的

タスクの状態

指標名説明アラート重大度
タスクの状態サブタスクの状態サブタスクが 20 分以上Pausedの状態にあると、アラートが発生します致命的

ダンプ・ロードユニット

次のメトリックは、 task-modefullまたはallモードの場合にのみ表示されます。

指標名説明アラート重大度
ロードの進行状況ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% ですなしなし
データファイルサイズロード ユニットによってインポートされたフル データ内のデータ ファイルの合計サイズ ( INSERT INTOステートメントを含む)なしなし
ダンプ プロセスがエラーで終了するダンプ ユニットが DM-worker 内でエラーに遭遇し、終了します。即時アラート致命的
ロード プロセスがエラーで終了するロード ユニットが DM-worker 内でエラーに遭遇し、終了します。即時アラート致命的
テーブル数ロード ユニットによってインポートされた完全なデータ内のテーブルの総数なしなし
データファイル数ロード ユニットによってインポートされたフル データ内のデータ ファイルの総数 ( INSERT INTOステートメントを含む)なしなし
トランザクション実行レイテンシーロード単位でのトランザクション実行のレイテンシー(秒)なしなし
ステートメント実行レイテンシーロード単位でのステートメントの実行時間 (秒単位)なしなし
残り時間負荷単位でデータを複製する残り時間 (秒)なしなし

Binlogのレプリケーション

次のメトリックは、 task-modeincrementalまたはallモードの場合にのみ表示されます。

指標名説明アラート重大度
同期の残り時間syncerが上流のマスターで完全に移行されるまでにかかる予測残り時間 (分単位)なしなし
レプリケートラグゲージバイナリログをアップストリームからダウンストリームに複製するのにかかるレイテンシー(秒単位)なしなし
レプリケート ラグ ヒストグラムアップストリームからダウンストリームへのバイナリログの複製のヒストグラム (秒単位)。統計メカニズムが異なるため、データが不正確である可能性があることに注意してくださいなしなし
プロセスがエラーで存在しますbinlog レプリケーション ユニットが DM-worker 内でエラーに遭遇し、終了する即時アラート致命的
マスターとシンサー間の binlog ファイルのギャップsyncer処理単位が上流のマスターより遅れている binlog ファイルの数syncerの処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
Relay と Syncer の間の binlog ファイルのギャップsyncerrelay遅れている binlog ファイルの数1 番目の処理単位がrelay番目の処理単位よりも遅れている binlog ファイルの数がsyncerを超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
binlog イベントの QPS単位時間あたりに受信した binlog イベントの数 (この数には、スキップする必要があるイベントは含まれません)なしなし
スキップされた binlog イベントの QPSスキップする必要がある単位時間あたりの受信バイナリ ログ イベントの数なしなし
binlog イベント期間の読み取りバイナリログ レプリケーション ユニットがリレー ログまたはアップストリーム MySQL からバイナリログを読み取る期間 (秒単位)なしなし
binlog イベント期間の変換バイナリログ レプリケーション ユニットがバイナリログを解析して SQL ステートメントに変換する期間 (秒単位)なしなし
ディスパッチ binlog イベント期間バイナリログ レプリケーション ユニットがバイナリログ イベントをディスパッチする期間 (秒単位)なしなし
トランザクション実行レイテンシーバイナリログ レプリケーション ユニットがダウンストリームへのトランザクションを実行する期間 (秒単位)なしなし
binlog イベントのサイズバイナリログ レプリケーション ユニットがリレー ログまたは上流の MySQL から読み取るバイナリログ イベントのサイズなしなし
DML キューの残りの長さ残りの DML ジョブ キューの長さなしなし
合計 SQL ジョブ単位時間あたりの新規追加ジョブ数なしなし
完了した SQL ジョブ単位時間あたりの終了ジョブ数なしなし
ステートメント実行レイテンシーバイナリログ レプリケーション ユニットがダウンストリームに対してステートメントを実行する期間 (秒単位)なしなし
ジョブ期間を追加binlog レプリケーション ユニットがジョブをキューに追加する期間 (秒単位)なしなし
DML 競合検出期間binlog レプリケーション ユニットが DML で競合を検出する期間 (秒単位)なしなし
スキップされたイベント期間バイナリログ レプリケーション ユニットがバイナリログ イベントをスキップする期間 (秒単位)なしなし
同期されていないテーブル現在のサブタスクでシャード DDL ステートメントを受け取っていないテーブルの数なしなし
シャードロックの解決現在のサブタスクがシャード DDL ロックが解決されるのを待っているかどうか。 0 より大きい値は、シャード DDL ロックが解決されるのを待っていることを示しますなしなし
理想的な QPSDMの実行時間が0のときに達成できる最高のQPSなしなし
binlog イベント行binlog イベントの行数なしなし
終了したトランザクションの合計終了したトランザクションの合計数なしなし
レプリケーション トランザクション バッチダウンストリームに対して実行されたトランザクションの sql 行の数なしなし
フラッシュ チェックポイントの時間間隔チェックポイントをフラッシュする時間間隔 (秒単位)なしなし

中継ログ

ノート:

現在、DM v2.0 はリレー ログ機能の有効化をサポートしていません。

指標名説明アラート重大度
ストレージ容量中継ログが占有するディスクの記憶容量なしなし
保管残りリレーログが占有するディスクの残りのストレージ容量値が 10G を下回ると、アラートが必要になります致命的
プロセスはエラーで終了しますリレー ログで DM-worker 内でエラーが発生し、終了します即時アラート致命的
リレー ログ データの破損破損したリレー ログ ファイルの数即時アラート緊急
マスターからバイナリログを読み取れませんリレー ログが上流の MySQL から binlog を読み取るときに発生したエラーの数即時アラート致命的
リレーログの書き込みに失敗しましたリレー ログが binlog をディスクに書き込むときに発生したエラーの数即時アラート致命的
binlog ファイルのインデックスリレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。なしなし
マスターとリレー間の binlog ファイルのギャップアップストリーム マスターの背後にあるリレー ログ内の binlog ファイルの数relayの処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
ビンログ位置最新の中継ログファイルの書き込みオフセットなしなし
binlog イベント期間の読み取りリレー ログが上流の MySQL から binlog を読み取る期間 (秒単位)なしなし
リレーログの書き込み期間リレー ログが毎回 binlog をディスクに書き込む期間 (秒単位)なしなし
binlog イベントのサイズリレー ログがディスクに書き込む単一の binlog イベントのサイズなしなし

実例

Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instanceです。

中継ログ

指標名説明アラート重大度
ストレージ容量リレーログが占有するディスクの総記憶容量なしなし
保管残りリレーログが占有するディスク内の残りのストレージ容量値が 10G 未満になるとアラートが発生します致命的
プロセスはエラーで終了しますDM-worker でリレー ログにエラーが発生し、終了する即時アラート致命的
リレー ログ データの破損破損したリレー ログの数即時アラート緊急
マスターからバイナリログを読み取れませんリレー ログが上流の MySQL から binlog を読み取るときに発生したエラーの数即時アラート致命的
リレーログの書き込みに失敗しましたリレー ログが binlog をディスクに書き込むときに発生したエラーの数即時アラート致命的
binlog ファイルのインデックスリレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。なしなし
マスターとリレー間の binlog ファイルのギャップrelay処理単位が上流のマスターより遅れている binlog ファイルの数relayの処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
ビンログ位置最新の中継ログファイルの書き込みオフセットなしなし
バイナリログ期間の読み取りリレーログが上流の MySQL からバイナリログを読み取る期間 (秒単位)なしなし
リレーログの書き込み期間リレーログがバイナリログを毎回ディスクに書き込む期間 (秒単位)なしなし
バイナリログサイズリレー ログがディスクに書き込む単一の binlog イベントのサイズなしなし

仕事

指標名説明アラート重大度
タスクの状態移行のサブタスクの状態サブタスクが 10 分以上一時停止されると、アラートが発生します致命的
ロードの進行状況ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% ですなしなし
マスターとシンサー間の binlog ファイルのギャップバイナリログ レプリケーション ユニットがアップストリーム マスターの背後にあるバイナリログ ファイルの数なしなし
シャードロックの解決現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味しますなしなし
エコシステム
TiDB
TiKV
TiSpark
Chaos Mesh
© 2022 PingCAP. All Rights Reserved.