データ移行の監視指標
DM クラスターが TiUP を使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker によって提供されるモニタリング メトリクスについて説明します。
仕事
Grafana ダッシュボードでは、DM のデフォルト名はDM-taskです。
overview
Overviewには、現在選択されているタスクのすべての DM-worker および DM-master インスタンスまたはソースのいくつかのモニタリング メトリックが含まれます。現在の既定のアラート ルールは、単一の DM-worker/DM-master インスタンス/ソースのみを対象としています。
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| タスクの状態 | 移行のサブタスクの状態 | なし | なし | 
| ストレージ容量 | リレーログが占有するディスクの合計ストレージ容量 | なし | なし | 
| 保管残り | リレーログが占有するディスクの残りのストレージ容量 | なし | なし | 
| マスターとリレー間の binlog ファイルのギャップ | relay処理単位が上流のマスターより遅れている binlog ファイルの数 | なし | なし | 
| ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値は 0% から 100% の間です | なし | なし | 
| マスターとシンサー間の binlog ファイルのギャップ | バイナリログ レプリケーション ユニットがアップストリーム マスターの背後にあるバイナリログ ファイルの数 | なし | なし | 
| シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します | なし | なし | 
操作エラー
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| 操作エラーの前に | 操作前のエラー数 | なし | なし | 
| ソースバウンドエラー | データ ソース バインド操作のエラー数 | なし | なし | 
| 起動エラー | サブタスク開始時のエラー数 | なし | なし | 
| 一時停止エラー | サブタスクの一時停止中のエラー数 | なし | なし | 
| 再開エラー | サブタスクの再開中のエラーの数 | なし | なし | 
| 自動再開エラー | サブタスクの自動再開中のエラー数 | なし | なし | 
| 更新エラー | サブタスクの更新中のエラー数 | なし | なし | 
| 停止エラー | サブタスク停止中のエラー数 | なし | なし | 
高可用性
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| 1 分あたりの dm-masters 開始リーダー コンポーネントの数 | リーダー関連のコンポーネントを有効にする DM マスターの 1 分あたりの試行回数 | なし | なし | 
| 異なる州の労働者の数 | さまざまな州の DM ワーカーの数 | 一部の DM ワーカーは 1 時間以上オフラインになっています | 致命的 | 
| 労働者国家 | DM ワーカーの状態 | なし | なし | 
| ワーカーイベントエラー数 | さまざまなタイプの DM-worker エラーの数 | なし | なし | 
| 1 分あたりのシャード ddl エラー | 1 分あたりのさまざまなタイプのシャーディング DDL エラーの数 | シャーディング DDL エラーが発生する | 致命的 | 
| 保留中のシャード ddl の数 | 保留中のシャーディング DDL 操作の数 | 保留中のシャーディング DDL 操作が 1 時間以上存在している | 致命的 | 
タスクの状態
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| タスクの状態 | サブタスクの状態 | サブタスクが 20 分以上Pausedの状態にあると、アラートが発生します | 致命的 | 
ダンプ・ロードユニット
次のメトリックは、 task-modeがfullまたはallモードの場合にのみ表示されます。
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% です | なし | なし | 
| データファイルサイズ | ロード ユニットによってインポートされたフル データ内のデータ ファイルの合計サイズ ( INSERT INTOステートメントを含む) | なし | なし | 
| ダンプ プロセスがエラーで終了する | ダンプ ユニットが DM-worker 内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 | 
| ロード プロセスがエラーで終了する | ロード ユニットが DM-worker 内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 | 
| テーブル数 | ロード ユニットによってインポートされた完全なデータ内のテーブルの総数 | なし | なし | 
| データファイル数 | ロード ユニットによってインポートされたフル データ内のデータ ファイルの総数 ( INSERT INTOステートメントを含む) | なし | なし | 
| トランザクション実行レイテンシー | ロード単位でのトランザクション実行のレイテンシー(秒) | なし | なし | 
| ステートメント実行レイテンシー | ロード単位でのステートメントの実行時間 (秒単位) | なし | なし | 
| 残り時間 | 負荷単位でデータを複製する残り時間 (秒) | なし | なし | 
Binlogのレプリケーション
次のメトリックは、 task-modeがincrementalまたはallモードの場合にのみ表示されます。
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| 同期の残り時間 | syncerが上流のマスターで完全に移行されるまでにかかる予測残り時間 (分単位) | なし | なし | 
| レプリケートラグゲージ | バイナリログをアップストリームからダウンストリームに複製するのにかかるレイテンシー(秒単位) | なし | なし | 
| レプリケート ラグ ヒストグラム | アップストリームからダウンストリームへのバイナリログの複製のヒストグラム (秒単位)。統計メカニズムが異なるため、データが不正確である可能性があることに注意してください | なし | なし | 
| プロセスがエラーで存在します | binlog レプリケーション ユニットが DM-worker 内でエラーに遭遇し、終了する | 即時アラート | 致命的 | 
| マスターとシンサー間の binlog ファイルのギャップ | syncer処理単位が上流のマスターより遅れている binlog ファイルの数 | syncerの処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| Relay と Syncer の間の binlog ファイルのギャップ | syncerがrelay遅れている binlog ファイルの数 | 1 番目の処理単位がrelay番目の処理単位よりも遅れている binlog ファイルの数がsyncerを超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| binlog イベントの QPS | 単位時間あたりに受信した binlog イベントの数 (この数には、スキップする必要があるイベントは含まれません) | なし | なし | 
| スキップされた binlog イベントの QPS | スキップする必要がある単位時間あたりの受信バイナリ ログ イベントの数 | なし | なし | 
| binlog イベント期間の読み取り | バイナリログ レプリケーション ユニットがリレー ログまたはアップストリーム MySQL からバイナリログを読み取る期間 (秒単位) | なし | なし | 
| binlog イベント期間の変換 | バイナリログ レプリケーション ユニットがバイナリログを解析して SQL ステートメントに変換する期間 (秒単位) | なし | なし | 
| ディスパッチ binlog イベント期間 | バイナリログ レプリケーション ユニットがバイナリログ イベントをディスパッチする期間 (秒単位) | なし | なし | 
| トランザクション実行レイテンシー | バイナリログ レプリケーション ユニットがダウンストリームへのトランザクションを実行する期間 (秒単位) | なし | なし | 
| binlog イベントのサイズ | バイナリログ レプリケーション ユニットがリレー ログまたは上流の MySQL から読み取るバイナリログ イベントのサイズ | なし | なし | 
| DML キューの残りの長さ | 残りの DML ジョブ キューの長さ | なし | なし | 
| 合計 SQL ジョブ | 単位時間あたりの新規追加ジョブ数 | なし | なし | 
| 完了した SQL ジョブ | 単位時間あたりの終了ジョブ数 | なし | なし | 
| ステートメント実行レイテンシー | バイナリログ レプリケーション ユニットがダウンストリームに対してステートメントを実行する期間 (秒単位) | なし | なし | 
| ジョブ期間を追加 | binlog レプリケーション ユニットがジョブをキューに追加する期間 (秒単位) | なし | なし | 
| DML 競合検出期間 | binlog レプリケーション ユニットが DML で競合を検出する期間 (秒単位) | なし | なし | 
| スキップされたイベント期間 | バイナリログ レプリケーション ユニットがバイナリログ イベントをスキップする期間 (秒単位) | なし | なし | 
| 同期されていないテーブル | 現在のサブタスクでシャード DDL ステートメントを受け取っていないテーブルの数 | なし | なし | 
| シャードロックの解決 | 現在のサブタスクがシャード DDL ロックが解決されるのを待っているかどうか。 0 より大きい値は、シャード DDL ロックが解決されるのを待っていることを示します | なし | なし | 
| 理想的な QPS | DMの実行時間が0のときに達成できる最高のQPS | なし | なし | 
| binlog イベント行 | binlog イベントの行数 | なし | なし | 
| 終了したトランザクションの合計 | 終了したトランザクションの合計数 | なし | なし | 
| レプリケーション トランザクション バッチ | ダウンストリームに対して実行されたトランザクションの sql 行の数 | なし | なし | 
| フラッシュ チェックポイントの時間間隔 | チェックポイントをフラッシュする時間間隔 (秒単位) | なし | なし | 
中継ログ
ノート:
現在、DM v2.0 はリレー ログ機能の有効化をサポートしていません。
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| ストレージ容量 | 中継ログが占有するディスクの記憶容量 | なし | なし | 
| 保管残り | リレーログが占有するディスクの残りのストレージ容量 | 値が 10G を下回ると、アラートが必要になります | 致命的 | 
| プロセスはエラーで終了します | リレー ログで DM-worker 内でエラーが発生し、終了します | 即時アラート | 致命的 | 
| リレー ログ データの破損 | 破損したリレー ログ ファイルの数 | 即時アラート | 緊急 | 
| マスターからバイナリログを読み取れません | リレー ログが上流の MySQL から binlog を読み取るときに発生したエラーの数 | 即時アラート | 致命的 | 
| リレーログの書き込みに失敗しました | リレー ログが binlog をディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 | 
| binlog ファイルのインデックス | リレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。 | なし | なし | 
| マスターとリレー間の binlog ファイルのギャップ | アップストリーム マスターの背後にあるリレー ログ内の binlog ファイルの数 | relayの処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| ビンログ位置 | 最新の中継ログファイルの書き込みオフセット | なし | なし | 
| binlog イベント期間の読み取り | リレー ログが上流の MySQL から binlog を読み取る期間 (秒単位) | なし | なし | 
| リレーログの書き込み期間 | リレー ログが毎回 binlog をディスクに書き込む期間 (秒単位) | なし | なし | 
| binlog イベントのサイズ | リレー ログがディスクに書き込む単一の binlog イベントのサイズ | なし | なし | 
実例
Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instanceです。
中継ログ
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| ストレージ容量 | リレーログが占有するディスクの総記憶容量 | なし | なし | 
| 保管残り | リレーログが占有するディスク内の残りのストレージ容量 | 値が 10G 未満になるとアラートが発生します | 致命的 | 
| プロセスはエラーで終了します | DM-worker でリレー ログにエラーが発生し、終了する | 即時アラート | 致命的 | 
| リレー ログ データの破損 | 破損したリレー ログの数 | 即時アラート | 緊急 | 
| マスターからバイナリログを読み取れません | リレー ログが上流の MySQL から binlog を読み取るときに発生したエラーの数 | 即時アラート | 致命的 | 
| リレーログの書き込みに失敗しました | リレー ログが binlog をディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 | 
| binlog ファイルのインデックス | リレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。 | なし | なし | 
| マスターとリレー間の binlog ファイルのギャップ | relay処理単位が上流のマスターより遅れている binlog ファイルの数 | relayの処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| ビンログ位置 | 最新の中継ログファイルの書き込みオフセット | なし | なし | 
| バイナリログ期間の読み取り | リレーログが上流の MySQL からバイナリログを読み取る期間 (秒単位) | なし | なし | 
| リレーログの書き込み期間 | リレーログがバイナリログを毎回ディスクに書き込む期間 (秒単位) | なし | なし | 
| バイナリログサイズ | リレー ログがディスクに書き込む単一の binlog イベントのサイズ | なし | なし | 
仕事
| 指標名 | 説明 | アラート | 重大度 | 
|---|
| タスクの状態 | 移行のサブタスクの状態 | サブタスクが 10 分以上一時停止されると、アラートが発生します | 致命的 | 
| ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% です | なし | なし | 
| マスターとシンサー間の binlog ファイルのギャップ | バイナリログ レプリケーション ユニットがアップストリーム マスターの背後にあるバイナリログ ファイルの数 | なし | なし | 
| シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します | なし | なし |