データ移行監視メトリクス
DM クラスターがTiUPを使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker によって提供される監視メトリクスについて説明します。
タスク
Grafana ダッシュボードでは、DM のデフォルト名はDM-taskです。
overview
Overviewは、現在選択されているタスク内のすべての DM ワーカーおよび DM マスターのインスタンスまたはソースの監視メトリクスが含まれます。現在のデフォルトのアラート ルールは、単一の DM ワーカー/DM マスター インスタンス/ソースのみを対象としています。
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| タスクの状態 | 移行のサブタスクの状態 | 該当なし | 該当なし | 
| storage容量 | リレーログが占有するディスクの総storage容量 | 該当なし | 該当なし | 
| storageが残っている | リレーログが占有するディスクの残りのstorage容量 | 該当なし | 該当なし | 
| マスターとリレー間のbinlogファイルのギャップ | relayプロセッシング ユニットが上流マスターより遅れているbinlogファイルの数 | 該当なし | 該当なし | 
| ロードの進行状況 | ロードユニットの完了したロードプロセスの割合。値は 0% ~ 100% です | 該当なし | 該当なし | 
| マスターとシンサーの間のbinlogファイルのギャップ | binlogレプリケーションユニットがアップストリームマスターよりも遅れているbinlogファイルの数 | 該当なし | 該当なし | 
| シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します。 | 該当なし | 該当なし | 
操作ミス
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| 操作ミスが起こる前に | 操作前のエラーの数 | 該当なし | 該当なし | 
| ソースバインドエラー | データソースバインディング操作のエラー数 | 該当なし | 該当なし | 
| 起動エラー | サブタスクの開始時のエラーの数 | 該当なし | 該当なし | 
| 一時停止エラー | サブタスクの一時停止中のエラーの数 | 該当なし | 該当なし | 
| 再開エラー | サブタスクの再開中のエラーの数 | 該当なし | 該当なし | 
| 自動再開エラー | サブタスクの自動再開中のエラーの数 | 該当なし | 該当なし | 
| アップデートエラー | サブタスクの更新中のエラーの数 | 該当なし | 該当なし | 
| 停止エラー | サブタスク停止中のエラーの数 | 該当なし | 該当なし | 
高可用性
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| 1 分あたりの dm-master 開始リーダー コンポーネントの数 | DM マスターがリーダー関連コンポーネントを有効にしようとする 1 分あたりの試行回数 | 該当なし | 該当なし | 
| さまざまな州の労働者の数 | さまざまな州の DM ワーカーの数 | 一部の DM ワーカーが 1 時間以上オフラインになっています | 致命的 | 
| 労働者の状態 | DMワーカーの状態 | 該当なし | 該当なし | 
| ワーカーイベントエラーの数 | さまざまなタイプの DM ワーカーエラーの数 | 該当なし | 該当なし | 
| 1 分あたりのシャード DDL エラー | 1 分あたりのさまざまなタイプのシャーディング DDL エラーの数 | シャーディング DDL エラーが発生する | 致命的 | 
| 保留中のシャード DDL の数 | 保留中のシャーディング DDL 操作の数 | 保留中のシャーディング DDL 操作が 1 時間以上存在している | 致命的 | 
タスクの状態
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| タスクの状態 | サブタスクの状態 | サブタスクが 20 分以上Paused状態になるとアラートが発生します | 致命的 | 
ダンプ/ロードユニット
次のメトリクスは、 task-mode fullまたはallモードの場合にのみ表示されます。
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| ダンプの進行状況 | ダンプ ユニットの完了したダンプ プロセスの割合。値の範囲は0%~100%です。 | 該当なし | 該当なし | 
| ロードの進行状況 | ロードユニットの完了したロードプロセスの割合。値の範囲は0%~100%です。 | 該当なし | 該当なし | 
| チェックサムの進行状況 | ロードユニットがダンプを完了した後に完了したチェックサムプロセスの割合。値の範囲は0%~100%です。 | 該当なし | 該当なし | 
| ロードユニットの合計バイト数 | ロードユニットによるインポートプロセスの解析段階、データKVの生成段階、およびインデックスKVの生成段階で処理されたバイト数 | 該当なし | 該当なし | 
| チャンクプロセスの継続時間 | ロード ユニットがデータ ソース ファイル チャンクを処理する時間 (秒単位) | 該当なし | 該当なし | 
| データファイルのサイズ | ロードユニットによってインポートされた全データ内のデータファイルの合計サイズ( INSERT INTOステートメントを含む) | 該当なし | 該当なし | 
| ダンププロセスがエラーで終了します | ダンプ ユニットは DM ワーカー内でエラーが発生し、終了します。 | 即時アラート | 致命的 | 
| ロードプロセスがエラーで終了します | ロード ユニットは DM ワーカー内でエラーが発生し、終了します。 | 即時アラート | 致命的 | 
Binlogレプリケーション
次のメトリクスは、 task-mode incrementalまたはallモードの場合にのみ表示されます。
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| 同期までの残り時間 | syncerが上流マスターに完全に移行されるまでにかかる予測残り時間 (分単位) | 該当なし | 該当なし | 
| ラグゲージを複製する | binlogをアップストリームからダウンストリームに複製するのにかかるレイテンシー(秒単位) | 該当なし | 該当なし | 
| 遅延ヒストグラムを複製する | 上流から下流へのbinlogの複製のヒストグラム (秒単位)。統計メカニズムが異なるため、データは不正確である可能性があることに注意してください | 該当なし | 該当なし | 
| プロセスが存在しますがエラーが発生します | binlogレプリケーション ユニットは DM ワーカー内でエラーが発生し、終了します。 | 即時アラート | 致命的 | 
| マスターとシンサーの間のbinlogファイルのギャップ | syncerプロセッシング ユニットが上流マスターより遅れているbinlogファイルの数 | syncerプロセッシング ユニットがアップストリーム マスターの背後にあるbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| リレーとシンサーの間のbinlogファイルのギャップ | syncerがrelayよりも後ろにあるbinlogファイルの数 | syncerプロセッシング ユニットがrelayプロセッシング ユニットより遅れているbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| binlogイベント QPS | 単位時間当たりに受信したbinlogイベントの数 (この数には、スキップする必要があるイベントは含まれません) | 該当なし | 該当なし | 
| スキップされたbinlogイベント QPS | スキップする必要がある、単位時間当たりに受信したbinlogイベントの数 | 該当なし | 該当なし | 
| binlog読み取りイベント期間 | binlogレプリケーション ユニットがリレー ログまたはアップストリーム MySQL からbinlogを読み取る期間 (秒単位) | 該当なし | 該当なし | 
| 変換binlogイベントの期間 | binlogレプリケーションユニットがbinlogを解析して SQL ステートメントに変換する時間 (秒単位) | 該当なし | 該当なし | 
| ディスパッチbinlogイベントの継続時間 | binlogレプリケーション ユニットがbinlogイベントを送出する期間 (秒単位) | 該当なし | 該当なし | 
| トランザクション実行レイテンシー | binlogレプリケーションユニットがダウンストリームへのトランザクションを実行する時間(秒単位) | 該当なし | 該当なし | 
| binlogイベントのサイズ | binlogレプリケーション ユニットがリレー ログまたはアップストリーム MySQL から読み取るbinlogイベントのサイズ | 該当なし | 該当なし | 
| DML キューの残りの長さ | 残りの DML ジョブ キューの長さ | 該当なし | 該当なし | 
| SQLジョブの合計数 | 単位時間当たりの新規追加ジョブ数 | 該当なし | 該当なし | 
| 完了した SQL ジョブ | 単位時間あたりに完了したジョブの数 | 該当なし | 該当なし | 
| ステートメント実行のレイテンシー | binlogレプリケーション ユニットがダウンストリームに対してステートメントを実行する時間 (秒単位) | 該当なし | 該当なし | 
| ジョブ期間を追加する | binlogレプリケーション ユニットがジョブをキューに追加する期間 (秒単位) | 該当なし | 該当なし | 
| DML 競合検出期間 | binlogレプリケーションユニットが DML の競合を検出する期間 (秒単位) | 該当なし | 該当なし | 
| スキップされたイベント期間 | binlogレプリケーション ユニットがbinlogイベントをスキップする期間 (秒単位) | 該当なし | 該当なし | 
| 同期されていないテーブル | 現在のサブタスクでシャード DDL ステートメントを受け取っていないテーブルの数 | 該当なし | 該当なし | 
| シャードロックの解決 | 現在のサブタスクがシャード DDL ロックの解決を待機しているかどうか。 0 より大きい値は、シャード DDL ロックが解決されるのを待っていることを示します。 | 該当なし | 該当なし | 
| 理想的なQPS | DM の実行時間が 0 の場合に達成できる最高の QPS | 該当なし | 該当なし | 
| binlogイベント行 | binlogイベントの行数 | 該当なし | 該当なし | 
| 完了したトランザクションの合計 | 完了したトランザクションの合計数 | 該当なし | 該当なし | 
| レプリケーショントランザクションバッチ | ダウンストリームに対して実行されたトランザクション内の SQL 行の数 | 該当なし | 該当なし | 
| チェックポイントのフラッシュ時間間隔 | チェックポイントをフラッシュする時間間隔 (秒単位) | 該当なし | 該当なし | 
リレーログ
ノート:
現在、DM v2.0 はリレー ログ機能の有効化をサポートしていません。
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| storage容量 | リレーログが占有するディスクのstorage容量 | 該当なし | 該当なし | 
| storageが残っている | リレーログが占有しているディスクの残りのstorage容量 | 値が 10G より小さい場合はアラートが必要です | 致命的 | 
| プロセスがエラーで終了する | リレーログは DM ワーカー内でエラーが発生し、終了します | 即時アラート | 致命的 | 
| リレーログデータの破損 | 破損したリレーログファイルの数 | 即時アラート | 緊急 | 
| マスターからのbinlogの読み取りに失敗します | リレーログが上流の MySQL からbinlogを読み取るときに発生したエラーの数 | 即時アラート | 致命的 | 
| リレーログの書き込みに失敗する | リレー ログがbinlogをディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 | 
| binlogファイルのインデックス | リレーログファイルの最大インデックス番号。たとえば、「value = 1」は「relay-log.000001」を示します。 | 該当なし | 該当なし | 
| マスターとリレー間のbinlogファイルのギャップ | 上流マスターの背後にあるリレー ログ内のbinlogファイルの数 | relayプロセッシング ユニットがアップストリーム マスターの背後にあるbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| binlogpos | 最新のリレーログファイルの書き込みオフセット | 該当なし | 該当なし | 
| binlog読み取りイベント期間 | リレーログが上流の MySQL からbinlogを読み取る期間 (秒単位) | 該当なし | 該当なし | 
| 書き込みリレーログ期間 | リレー ログが毎回ディスクにbinlogを書き込む期間 (秒単位) | 該当なし | 該当なし | 
| binlogイベントのサイズ | リレーログがディスクに書き込む単一のbinlogイベントのサイズ | 該当なし | 該当なし | 
実例
Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instanceです。
リレーログ
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| storage容量 | リレーログが占有するディスクの総storage容量 | 該当なし | 該当なし | 
| storageが残っている | リレーログが占有するディスク内の残りのstorage容量 | 値が 10G より小さくなるとアラートが発生します | 致命的 | 
| プロセスがエラーで終了する | リレー ログは DM ワーカーでエラーが発生し、終了します | 即時アラート | 致命的 | 
| リレーログデータの破損 | 破損したリレーログの数 | 即時アラート | 緊急 | 
| マスターからのbinlogの読み取りに失敗します | リレーログが上流の MySQL からbinlogを読み取るときに発生したエラーの数 | 即時アラート | 致命的 | 
| リレーログの書き込みに失敗する | リレー ログがbinlogをディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 | 
| binlogファイルのインデックス | リレーログファイルの最大インデックス番号。たとえば、「value = 1」は「relay-log.000001」を示します。 | 該当なし | 該当なし | 
| マスターとリレー間のbinlogファイルのギャップ | relayプロセッシング ユニットが上流マスターより遅れているbinlogファイルの数 | relayプロセッシング ユニットがアップストリーム マスターの背後にあるbinlogファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 | 
| binlogpos | 最新のリレーログファイルの書き込みオフセット | 該当なし | 該当なし | 
| binlogの読み取り期間 | リレーログがアップストリーム MySQL からbinlogを読み取る期間 (秒単位) | 該当なし | 該当なし | 
| 書き込みリレーログ期間 | リレー ログが毎回ディスクにbinlogを書き込む時間 (秒単位) | 該当なし | 該当なし | 
| binlogサイズ | リレーログがディスクに書き込む単一のbinlogイベントのサイズ | 該当なし | 該当なし | 
タスク
| メトリクス名 | 説明 | アラート | 重大度レベル | 
|---|
| タスクの状態 | 移行のサブタスクの状態 | サブタスクが 10 分以上一時停止されるとアラートが発生します | 致命的 | 
| ロードの進行状況 | ロードユニットの完了したロードプロセスの割合。値の範囲は0%~100%です。 | 該当なし | 該当なし | 
| マスターとシンサーの間のbinlogファイルのギャップ | binlogレプリケーションユニットがアップストリームマスターよりも遅れているbinlogファイルの数 | 該当なし | 該当なし | 
| シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します。 | 該当なし | 該当なし |