データ移行の監視指標

DM クラスターがTiUPを使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker によって提供されるモニタリング メトリクスについて説明します。

タスク

Grafana ダッシュボードでは、DM のデフォルト名はDM-taskです。

overview

Overviewは、現在選択されているタスクのすべての DM-worker および DM-master インスタンスまたはソースのいくつかのモニタリング メトリックが含まれます。現在の既定のアラート ルールは、単一の DM-worker/DM-master インスタンス/ソースのみを対象としています。

指標名説明アラート重大度
タスクの状態移行のサブタスクの状態なしなし
storage力リレーログが占有するディスクの合計storage容量なしなし
storage残りリレーログが占有するディスクの残りのstorage容量なしなし
マスターとリレー間のbinlogファイルのギャップrelay処理単位が上流のマスターより遅れているbinlogファイルの数なしなし
ロードの進行状況ロード ユニットのロード プロセスが完了した割合。値は 0% から 100% の間ですなしなし
マスターとシンサー間のbinlogファイルのギャップbinlogレプリケーション ユニットがアップストリーム マスターの背後にあるbinlogファイルの数なしなし
シャードロックの解決現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味しますなしなし

操作エラー

指標名説明アラート重大度
操作エラーの前に操作前のエラー数なしなし
ソースバウンドエラーデータ ソース バインド操作のエラー数なしなし
起動エラーサブタスク開始時のエラー数なしなし
一時停止エラーサブタスクの一時停止中のエラー数なしなし
再開エラーサブタスクの再開中のエラーの数なしなし
自動再開エラーサブタスクの自動再開中のエラー数なしなし
更新エラーサブタスクの更新中のエラー数なしなし
停止エラーサブタスク停止中のエラー数なしなし

高可用性

指標名説明アラート重大度
1 分あたりの dm-masters 開始リーダー コンポーネントの数リーダー関連のコンポーネントを有効にする DM マスターの 1 分あたりの試行回数なしなし
異なる州の労働者の数さまざまな州の DM ワーカーの数一部の DM ワーカーは 1 時間以上オフラインになっています致命的
労働者国家DM ワーカーの状態なしなし
ワーカーイベントエラー数さまざまなタイプの DM-worker エラーの数なしなし
1 分あたりのシャード ddl エラー1 分あたりのさまざまなタイプのシャーディング DDL エラーの数シャーディング DDL エラーが発生する致命的
保留中のシャード ddl の数保留中のシャーディング DDL 操作の数保留中のシャーディング DDL 操作が 1 時間以上存在している致命的

タスクの状態

指標名説明アラート重大度
タスクの状態サブタスクの状態サブタスクが 20 分以上Pausedの状態にあると、アラートが発生します致命的

ダンプ・ロードユニット

次のメトリックは、 task-mode fullまたはallモードの場合にのみ表示されます。

指標名説明アラート重大度
ロードの進行状況ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% ですなしなし
データファイルサイズロード ユニットによってインポートされたフル データ内のデータ ファイルの合計サイズ ( INSERT INTOステートメントを含む)なしなし
ダンプ プロセスがエラーで終了するダンプ ユニットが DM-worker 内でエラーに遭遇し、終了します。即時アラート致命的
ロード プロセスがエラーで終了するロード ユニットが DM-worker 内でエラーに遭遇し、終了します。即時アラート致命的
テーブル数ロード ユニットによってインポートされた完全なデータ内のテーブルの総数なしなし
データファイル数ロード ユニットによってインポートされたフル データ内のデータ ファイルの総数 ( INSERT INTOステートメントを含む)なしなし
トランザクション実行レイテンシーロード単位でのトランザクション実行のレイテンシー(秒)なしなし
ステートメント実行レイテンシーロード単位でのステートメントの実行時間 (秒単位)なしなし
残り時間負荷単位でデータを複製する残り時間 (秒)なしなし

Binlogのレプリケーション

次のメトリックは、 task-mode incrementalまたはallモードの場合にのみ表示されます。

指標名説明アラート重大度
同期の残り時間syncerが上流のマスターで完全に移行されるまでにかかる予測残り時間 (分単位)なしなし
レプリケートラグゲージbinlogをアップストリームからダウンストリームに複製するのにかかるレイテンシー(秒単位)なしなし
レプリケート ラグ ヒストグラムアップストリームからダウンストリームへのbinlogの複製のヒストグラム (秒単位)。統計メカニズムが異なるため、データが不正確である可能性があることに注意してくださいなしなし
プロセスがエラーで存在しますbinlogレプリケーション ユニットが DM-worker 内でエラーに遭遇し、終了する即時アラート致命的
マスターとシンサー間のbinlogファイルのギャップsyncer処理単位が上流のマスターより遅れているbinlogファイルの数syncerの処理単位が上流のマスターより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
Relay と Syncer の間のbinlogファイルのギャップsyncerrelay遅れているbinlogファイルの数syncer処理単位がrelayの処理単位よりも遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
binlogイベントの QPS単位時間あたりに受信したbinlogイベントの数 (この数には、スキップする必要があるイベントは含まれません)なしなし
スキップされたbinlogイベントの QPSスキップする必要がある単位時間あたりの受信binlogイベントの数なしなし
binlogイベント期間の読み取りbinlogレプリケーション ユニットがリレー ログまたはアップストリーム MySQL からbinlogを読み取る期間 (秒単位)なしなし
binlogイベント期間の変換binlogレプリケーション ユニットがbinlogを解析して SQL ステートメントに変換する期間 (秒単位)なしなし
ディスパッチbinlogイベント期間binlogレプリケーション ユニットがbinlogイベントをディスパッチする期間 (秒単位)なしなし
トランザクション実行レイテンシーbinlogレプリケーション ユニットがダウンストリームへのトランザクションを実行する期間 (秒単位)なしなし
binlogイベントのサイズbinlogレプリケーション ユニットがリレー ログまたは上流の MySQL から読み取るbinlogイベントのサイズなしなし
DML キューの残りの長さ残りの DML ジョブ キューの長さなしなし
合計 SQL ジョブ単位時間あたりの新規追加ジョブ数なしなし
完了した SQL ジョブ単位時間あたりの終了ジョブ数なしなし
ステートメント実行レイテンシーbinlogレプリケーション ユニットがダウンストリームに対してステートメントを実行する期間 (秒単位)なしなし
ジョブ期間を追加binlogレプリケーション ユニットがジョブをキューに追加する期間 (秒単位)なしなし
DML 競合検出期間binlogレプリケーション ユニットが DML で競合を検出する期間 (秒単位)なしなし
スキップされたイベント期間binlogレプリケーション ユニットがbinlogイベントをスキップする期間 (秒単位)なしなし
同期されていないテーブル現在のサブタスクでシャード DDL ステートメントを受け取っていないテーブルの数なしなし
シャードロックの解決現在のサブタスクがシャード DDL ロックが解決されるのを待っているかどうか。 0 より大きい値は、シャード DDL ロックが解決されるのを待っていることを示しますなしなし
理想的な QPSDMの実行時間が0のときに達成できる最高のQPSなしなし
binlogイベント行binlogイベントの行数なしなし
終了したトランザクションの合計終了したトランザクションの合計数なしなし
レプリケーション トランザクション バッチダウンストリームに対して実行されたトランザクションの sql 行の数なしなし
フラッシュ チェックポイントの時間間隔チェックポイントをフラッシュする時間間隔 (秒単位)なしなし

中継ログ

ノート:

現在、DM v2.0 はリレー ログ機能の有効化をサポートしていません。

指標名説明アラート重大度
storage力中継ログが占有するディスクのstorage容量なしなし
storage残りリレーログが占有するディスクの残りのstorage容量値が 10G を下回ると、アラートが必要になります致命的
プロセスはエラーで終了しますリレー ログで DM-worker 内でエラーが発生し、終了します即時アラート致命的
リレー ログ データの破損破損したリレー ログ ファイルの数即時アラート緊急
マスターからbinlogを読み取れませんリレー ログが上流の MySQL からbinlogを読み取るときに発生したエラーの数即時アラート致命的
リレーログの書き込みに失敗しましたリレー ログがbinlog をディスクに書き込むときに発生したエラーの数即時アラート致命的
binlogファイルのインデックスリレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。なしなし
マスターとリレー間のbinlogファイルのギャップアップストリーム マスターの背後にあるリレー ログ内のbinlogファイルの数relayの処理単位が上流のマスターより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
binlog位置最新の中継ログファイルの書き込みオフセットなしなし
binlogイベント期間の読み取りリレー ログが上流の MySQL からbinlogを読み取る期間 (秒単位)なしなし
リレーログの書き込み期間リレー ログが毎回binlog をディスクに書き込む期間 (秒単位)なしなし
binlogイベントのサイズリレー ログがディスクに書き込む単一のbinlogイベントのサイズなしなし

実例

Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instanceです。

中継ログ

指標名説明アラート重大度
storage力リレーログが占有するディスクの総storage容量なしなし
storage残りリレーログが占有するディスク内の残りのstorage容量値が 10G 未満になるとアラートが発生します致命的
プロセスはエラーで終了しますDM-worker でリレー ログにエラーが発生し、終了する即時アラート致命的
リレー ログ データの破損破損したリレー ログの数即時アラート緊急
マスターからbinlogを読み取れませんリレー ログが上流の MySQL からbinlogを読み取るときに発生したエラーの数即時アラート致命的
リレーログの書き込みに失敗しましたリレー ログがbinlog をディスクに書き込むときに発生したエラーの数即時アラート致命的
binlogファイルのインデックスリレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。なしなし
マスターとリレー間のbinlogファイルのギャップrelay処理単位が上流のマスターより遅れているbinlogファイルの数relayの処理単位が上流のマスターより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。致命的
binlog位置最新の中継ログファイルの書き込みオフセットなしなし
binlog期間の読み取りリレーログが上流の MySQL からbinlogを読み取る期間 (秒単位)なしなし
リレーログの書き込み期間リレーログがbinlogを毎回ディスクに書き込む期間 (秒単位)なしなし
binlogサイズリレー ログがディスクに書き込む単一のbinlogイベントのサイズなしなし

タスク

指標名説明アラート重大度
タスクの状態移行のサブタスクの状態サブタスクが 10 分以上一時停止されると、アラートが発生します致命的
ロードの進行状況ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% ですなしなし
マスターとシンサー間のbinlogファイルのギャップbinlogレプリケーション ユニットがアップストリーム マスターの背後にあるbinlogファイルの数なしなし
シャードロックの解決現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味しますなしなし

このページは役に立ちましたか?