重要
このページは英語版のページを機械翻訳しています。原文は
こちらからご覧ください。
データ移行の監視指標
DM クラスターがTiUPを使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker によって提供されるモニタリング メトリクスについて説明します。
タスク
Grafana ダッシュボードでは、DM のデフォルト名はDM-task
です。
overview
Overview
は、現在選択されているタスクのすべての DM-worker および DM-master インスタンスまたはソースのいくつかのモニタリング メトリックが含まれます。現在の既定のアラート ルールは、単一の DM-worker/DM-master インスタンス/ソースのみを対象としています。
指標名 | 説明 | アラート | 重大度 |
---|
タスクの状態 | 移行のサブタスクの状態 | なし | なし |
storage力 | リレーログが占有するディスクの合計storage容量 | なし | なし |
storage残り | リレーログが占有するディスクの残りのstorage容量 | なし | なし |
マスターとリレー間のbinlogファイルのギャップ | relay 処理単位が上流のマスターより遅れているbinlogファイルの数 | なし | なし |
ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値は 0% から 100% の間です | なし | なし |
マスターとシンサー間のbinlogファイルのギャップ | binlogレプリケーション ユニットがアップストリーム マスターの背後にあるbinlogファイルの数 | なし | なし |
シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します | なし | なし |
操作エラー
指標名 | 説明 | アラート | 重大度 |
---|
操作エラーの前に | 操作前のエラー数 | なし | なし |
ソースバウンドエラー | データ ソース バインド操作のエラー数 | なし | なし |
起動エラー | サブタスク開始時のエラー数 | なし | なし |
一時停止エラー | サブタスクの一時停止中のエラー数 | なし | なし |
再開エラー | サブタスクの再開中のエラーの数 | なし | なし |
自動再開エラー | サブタスクの自動再開中のエラー数 | なし | なし |
更新エラー | サブタスクの更新中のエラー数 | なし | なし |
停止エラー | サブタスク停止中のエラー数 | なし | なし |
高可用性
指標名 | 説明 | アラート | 重大度 |
---|
1 分あたりの dm-masters 開始リーダー コンポーネントの数 | リーダー関連のコンポーネントを有効にする DM マスターの 1 分あたりの試行回数 | なし | なし |
異なる州の労働者の数 | さまざまな州の DM ワーカーの数 | 一部の DM ワーカーは 1 時間以上オフラインになっています | 致命的 |
労働者国家 | DM ワーカーの状態 | なし | なし |
ワーカーイベントエラー数 | さまざまなタイプの DM-worker エラーの数 | なし | なし |
1 分あたりのシャード ddl エラー | 1 分あたりのさまざまなタイプのシャーディング DDL エラーの数 | シャーディング DDL エラーが発生する | 致命的 |
保留中のシャード ddl の数 | 保留中のシャーディング DDL 操作の数 | 保留中のシャーディング DDL 操作が 1 時間以上存在している | 致命的 |
タスクの状態
指標名 | 説明 | アラート | 重大度 |
---|
タスクの状態 | サブタスクの状態 | サブタスクが 20 分以上Paused の状態にあると、アラートが発生します | 致命的 |
ダンプ・ロードユニット
次のメトリックは、 task-mode
full
またはall
モードの場合にのみ表示されます。
指標名 | 説明 | アラート | 重大度 |
---|
ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% です | なし | なし |
データファイルサイズ | ロード ユニットによってインポートされたフル データ内のデータ ファイルの合計サイズ ( INSERT INTO ステートメントを含む) | なし | なし |
ダンプ プロセスがエラーで終了する | ダンプ ユニットが DM-worker 内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
ロード プロセスがエラーで終了する | ロード ユニットが DM-worker 内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
テーブル数 | ロード ユニットによってインポートされた完全なデータ内のテーブルの総数 | なし | なし |
データファイル数 | ロード ユニットによってインポートされたフル データ内のデータ ファイルの総数 ( INSERT INTO ステートメントを含む) | なし | なし |
トランザクション実行レイテンシー | ロード単位でのトランザクション実行のレイテンシー(秒) | なし | なし |
ステートメント実行レイテンシー | ロード単位でのステートメントの実行時間 (秒単位) | なし | なし |
残り時間 | 負荷単位でデータを複製する残り時間 (秒) | なし | なし |
Binlogのレプリケーション
次のメトリックは、 task-mode
incremental
またはall
モードの場合にのみ表示されます。
指標名 | 説明 | アラート | 重大度 |
---|
同期の残り時間 | syncer が上流のマスターで完全に移行されるまでにかかる予測残り時間 (分単位) | なし | なし |
レプリケートラグゲージ | binlogをアップストリームからダウンストリームに複製するのにかかるレイテンシー(秒単位) | なし | なし |
レプリケート ラグ ヒストグラム | アップストリームからダウンストリームへのbinlogの複製のヒストグラム (秒単位)。統計メカニズムが異なるため、データが不正確である可能性があることに注意してください | なし | なし |
プロセスがエラーで存在します | binlogレプリケーション ユニットが DM-worker 内でエラーに遭遇し、終了する | 即時アラート | 致命的 |
マスターとシンサー間のbinlogファイルのギャップ | syncer 処理単位が上流のマスターより遅れているbinlogファイルの数 | syncer の処理単位が上流のマスターより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
Relay と Syncer の間のbinlogファイルのギャップ | syncer がrelay 遅れているbinlogファイルの数 | syncer 処理単位がrelay の処理単位よりも遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
binlogイベントの QPS | 単位時間あたりに受信したbinlogイベントの数 (この数には、スキップする必要があるイベントは含まれません) | なし | なし |
スキップされたbinlogイベントの QPS | スキップする必要がある単位時間あたりの受信binlogイベントの数 | なし | なし |
binlogイベント期間の読み取り | binlogレプリケーション ユニットがリレー ログまたはアップストリーム MySQL からbinlogを読み取る期間 (秒単位) | なし | なし |
binlogイベント期間の変換 | binlogレプリケーション ユニットがbinlogを解析して SQL ステートメントに変換する期間 (秒単位) | なし | なし |
ディスパッチbinlogイベント期間 | binlogレプリケーション ユニットがbinlogイベントをディスパッチする期間 (秒単位) | なし | なし |
トランザクション実行レイテンシー | binlogレプリケーション ユニットがダウンストリームへのトランザクションを実行する期間 (秒単位) | なし | なし |
binlogイベントのサイズ | binlogレプリケーション ユニットがリレー ログまたは上流の MySQL から読み取るbinlogイベントのサイズ | なし | なし |
DML キューの残りの長さ | 残りの DML ジョブ キューの長さ | なし | なし |
合計 SQL ジョブ | 単位時間あたりの新規追加ジョブ数 | なし | なし |
完了した SQL ジョブ | 単位時間あたりの終了ジョブ数 | なし | なし |
ステートメント実行レイテンシー | binlogレプリケーション ユニットがダウンストリームに対してステートメントを実行する期間 (秒単位) | なし | なし |
ジョブ期間を追加 | binlogレプリケーション ユニットがジョブをキューに追加する期間 (秒単位) | なし | なし |
DML 競合検出期間 | binlogレプリケーション ユニットが DML で競合を検出する期間 (秒単位) | なし | なし |
スキップされたイベント期間 | binlogレプリケーション ユニットがbinlogイベントをスキップする期間 (秒単位) | なし | なし |
同期されていないテーブル | 現在のサブタスクでシャード DDL ステートメントを受け取っていないテーブルの数 | なし | なし |
シャードロックの解決 | 現在のサブタスクがシャード DDL ロックが解決されるのを待っているかどうか。 0 より大きい値は、シャード DDL ロックが解決されるのを待っていることを示します | なし | なし |
理想的な QPS | DMの実行時間が0のときに達成できる最高のQPS | なし | なし |
binlogイベント行 | binlogイベントの行数 | なし | なし |
終了したトランザクションの合計 | 終了したトランザクションの合計数 | なし | なし |
レプリケーション トランザクション バッチ | ダウンストリームに対して実行されたトランザクションの sql 行の数 | なし | なし |
フラッシュ チェックポイントの時間間隔 | チェックポイントをフラッシュする時間間隔 (秒単位) | なし | なし |
中継ログ
ノート:
現在、DM v2.0 はリレー ログ機能の有効化をサポートしていません。
指標名 | 説明 | アラート | 重大度 |
---|
storage力 | 中継ログが占有するディスクのstorage容量 | なし | なし |
storage残り | リレーログが占有するディスクの残りのstorage容量 | 値が 10G を下回ると、アラートが必要になります | 致命的 |
プロセスはエラーで終了します | リレー ログで DM-worker 内でエラーが発生し、終了します | 即時アラート | 致命的 |
リレー ログ データの破損 | 破損したリレー ログ ファイルの数 | 即時アラート | 緊急 |
マスターからbinlogを読み取れません | リレー ログが上流の MySQL からbinlogを読み取るときに発生したエラーの数 | 即時アラート | 致命的 |
リレーログの書き込みに失敗しました | リレー ログがbinlog をディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
binlogファイルのインデックス | リレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。 | なし | なし |
マスターとリレー間のbinlogファイルのギャップ | アップストリーム マスターの背後にあるリレー ログ内のbinlogファイルの数 | relay の処理単位が上流のマスターより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
binlog位置 | 最新の中継ログファイルの書き込みオフセット | なし | なし |
binlogイベント期間の読み取り | リレー ログが上流の MySQL からbinlogを読み取る期間 (秒単位) | なし | なし |
リレーログの書き込み期間 | リレー ログが毎回binlog をディスクに書き込む期間 (秒単位) | なし | なし |
binlogイベントのサイズ | リレー ログがディスクに書き込む単一のbinlogイベントのサイズ | なし | なし |
実例
Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instance
です。
中継ログ
指標名 | 説明 | アラート | 重大度 |
---|
storage力 | リレーログが占有するディスクの総storage容量 | なし | なし |
storage残り | リレーログが占有するディスク内の残りのstorage容量 | 値が 10G 未満になるとアラートが発生します | 致命的 |
プロセスはエラーで終了します | DM-worker でリレー ログにエラーが発生し、終了する | 即時アラート | 致命的 |
リレー ログ データの破損 | 破損したリレー ログの数 | 即時アラート | 緊急 |
マスターからbinlogを読み取れません | リレー ログが上流の MySQL からbinlogを読み取るときに発生したエラーの数 | 即時アラート | 致命的 |
リレーログの書き込みに失敗しました | リレー ログがbinlog をディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
binlogファイルのインデックス | リレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。 | なし | なし |
マスターとリレー間のbinlogファイルのギャップ | relay 処理単位が上流のマスターより遅れているbinlogファイルの数 | relay の処理単位が上流のマスターより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
binlog位置 | 最新の中継ログファイルの書き込みオフセット | なし | なし |
binlog期間の読み取り | リレーログが上流の MySQL からbinlogを読み取る期間 (秒単位) | なし | なし |
リレーログの書き込み期間 | リレーログがbinlogを毎回ディスクに書き込む期間 (秒単位) | なし | なし |
binlogサイズ | リレー ログがディスクに書き込む単一のbinlogイベントのサイズ | なし | なし |
タスク
指標名 | 説明 | アラート | 重大度 |
---|
タスクの状態 | 移行のサブタスクの状態 | サブタスクが 10 分以上一時停止されると、アラートが発生します | 致命的 |
ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% です | なし | なし |
マスターとシンサー間のbinlogファイルのギャップ | binlogレプリケーション ユニットがアップストリーム マスターの背後にあるbinlogファイルの数 | なし | なし |
シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します | なし | なし |