データ移行監視メトリクス
DM クラスターがTiUPを使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker が提供する監視メトリクスについて説明します。
タスク
Grafana ダッシュボードでは、DM のデフォルト名はDM-taskです。
overview
Overview 、現在選択されているタスク内のすべての DM ワーカーおよび DM マスターインスタンスまたはソースの監視メトリクスが含まれています。現在のデフォルトのアラートルールは、単一の DM ワーカー/DM マスターインスタンス/ソースのみに適用されます。
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| タスク状態 | 移行のサブタスクの状態 | 該当なし | 該当なし |
| storage容量 | リレーログが占めるディスクの総storage容量 | 該当なし | 該当なし |
| storage残り | リレーログが占めるディスクの残りstorage容量 | 該当なし | 該当なし |
| マスターとリレー間のbinlogファイルのギャップ | relay処理ユニットが上流マスターより遅れているbinlogファイルの数 | 該当なし | 該当なし |
| 読み込みの進行状況 | ロードユニットの完了したロードプロセスの割合。値は0%~100%です。 | 該当なし | 該当なし |
| マスターと同期サーバー間のbinlogファイルのギャップ | binlogレプリケーションユニットが上流マスターより遅れているbinlogファイルの数 | 該当なし | 該当なし |
| シャードロックの解決 | 現在のサブタスクがシャーディングDDLの移行を待機しているかどうか。0より大きい値は、現在のサブタスクがシャーディングDDLの移行を待機していることを意味します。 | 該当なし | 該当なし |
操作エラー
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| 操作エラーが発生する前に | 操作前のエラー数 | 該当なし | 該当なし |
| ソース境界エラー | データソースバインディング操作のエラー数 | 該当なし | 該当なし |
| 開始エラー | サブタスクの開始時に発生したエラーの数 | 該当なし | 該当なし |
| 一時停止エラー | サブタスクの一時停止中に発生したエラーの数 | 該当なし | 該当なし |
| 再開エラー | サブタスクの再開中に発生したエラーの数 | 該当なし | 該当なし |
| 自動再開エラー | サブタスクの自動再開中に発生したエラーの数 | 該当なし | 該当なし |
| 更新エラー | サブタスクの更新中に発生したエラーの数 | 該当なし | 該当なし |
| 停止エラー | サブタスクの停止中に発生したエラーの数 | 該当なし | 該当なし |
高可用性
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| 1分あたりのDMマスター開始リーダーコンポーネントの数 | DM マスターがリーダー関連コンポーネントを有効にしようとする 1 分あたりの試行回数 | 該当なし | 該当なし |
| 異なる州の労働者の数 | 各州のDM労働者の数 | 一部の DM ワーカーが 1 時間以上オフラインになっています | 致命的 |
| 労働者国家 | DMワーカーの状態 | 該当なし | 該当なし |
| ワーカーイベントエラーの数 | DMワーカーエラーのさまざまなタイプの数 | 該当なし | 該当なし |
| 1分あたりのシャードDDLエラー | 1 分あたりのさまざまな種類のシャーディング DDL エラーの数 | シャーディングDDLエラーが発生した場合 | 致命的 |
| 保留中のシャード DDL の数 | 保留中のシャーディングDDL操作の数 | 保留中のシャーディング DDL 操作が 1 時間以上経過している | 致命的 |
タスクの状態
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| タスク状態 | サブタスクの状態 | サブタスクが20分以上Paused状態にある場合、アラートが発生します。 | 致命的 |
ダンプ/ロードユニット
次のメトリックは、 task-modeがfullまたはallモードの場合にのみ表示されます。
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| ダンプの進行状況 | ダンプユニットの完了したダンプ処理の割合。値の範囲は0%~100%です。 | 該当なし | 該当なし |
| 読み込みの進行状況 | ロードユニットの完了したロードプロセスの割合。値の範囲は0%~100%です。 | 該当なし | 該当なし |
| チェックサムの進行状況 | ロードユニットがダンプを終了した後のチェックサム処理の完了率。値の範囲は0%~100%です。 | 該当なし | 該当なし |
| ロードユニットの合計バイト数 | ロードユニットによるインポートプロセスの解析、データKVの生成、およびインデックスKVの生成の各段階で処理されたバイト | 該当なし | 該当なし |
| チャンク処理期間 | ロードユニットがデータソースファイルチャンクを処理する時間(秒) | 該当なし | 該当なし |
| データファイルサイズ | ロードユニットによってインポートされた完全なデータ内のデータファイルの合計サイズ( INSERT INTOステートメントを含む) | 該当なし | 該当なし |
| ダンププロセスがエラーで終了しました | ダンプユニットはDMワーカー内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
| ロードプロセスがエラーで終了しました | ロードユニットはDMワーカー内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
Binlogレプリケーション
次のメトリックは、 task-modeがincrementalまたはallモードの場合にのみ表示されます。
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| 同期の残り時間 | syncerアップストリーム マスターに完全に移行されるまでにかかる予測残り時間 (分) | 該当なし | 該当なし |
| 遅延ゲージを複製する | binlogを上流から下流に複製するのにかかるレイテンシー時間(秒) | 該当なし | 該当なし |
| 複製ラグヒストグラム | 上流から下流へのbinlogの複製のヒストグラム(秒単位)。統計メカニズムが異なるため、データが不正確になる可能性があることに注意してください。 | 該当なし | 該当なし |
| プロセスはエラーありで存在します | binlogレプリケーションユニットはDMワーカー内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
| マスターと同期サーバー間のbinlogファイルのギャップ | syncer処理ユニットが上流マスターより遅れているbinlogファイルの数 | syncer処理ユニットが上流マスターより遅れているbinlogファイルの数が1つ(> 1)を超え、その状態が10分以上続くと、アラートが発生します。 | 致命的 |
| リレーと同期の間のbinlogファイルのギャップ | syncerがrelay遅れているbinlogファイルの数 | syncer処理ユニットがrelay処理ユニットより遅れているbinlogファイルの数が1つを超え(>1)、その状態が10分以上続くと、アラートが発生します。 | 致命的 |
| binlogイベントQPS | 単位時間あたりに受信したbinlogイベントの数 (この数にはスキップする必要があるイベントは含まれません) | 該当なし | 該当なし |
| スキップされたbinlogイベントQPS | スキップする必要がある単位時間あたりに受信されたbinlogイベントの数 | 該当なし | 該当なし |
| binlogイベントの期間の読み取り | binlogレプリケーションユニットがリレーログまたは上流のMySQLからbinlogを読み取る時間(秒) | 該当なし | 該当なし |
| binlogイベント期間の変換 | binlogレプリケーションユニットがbinlogを解析してSQL文に変換する時間(秒) | 該当なし | 該当なし |
| ディスパッチbinlogイベント期間 | binlogレプリケーションユニットがbinlogイベントを送信する期間(秒) | 該当なし | 該当なし |
| トランザクション実行のレイテンシー | binlogレプリケーションユニットが下流へのトランザクションを実行する期間(秒) | 該当なし | 該当なし |
| binlogイベントサイズ | binlogレプリケーションユニットがリレーログまたは上流のMySQLから読み取るbinlogイベントのサイズ | 該当なし | 該当なし |
| DMLキューの残り長さ | 残りのDMLジョブキューの長さ | 該当なし | 該当なし |
| 合計SQLジョブ数 | 単位時間あたりの新規雇用数 | 該当なし | 該当なし |
| 完了したSQLジョブ | 単位時間あたりの完了した仕事の数 | 該当なし | 該当なし |
| ステートメント実行のレイテンシー | binlogレプリケーションユニットが下流へのステートメントを実行する期間(秒) | 該当なし | 該当なし |
| ジョブ期間を追加する | binlogレプリケーションユニットがキューにジョブを追加する期間(秒) | 該当なし | 該当なし |
| DML競合検出期間 | binlogレプリケーションユニットがDMLの競合を検出する期間(秒) | 該当なし | 該当なし |
| スキップされたイベントの継続時間 | binlogレプリケーションユニットがbinlogイベントをスキップする期間(秒) | 該当なし | 該当なし |
| 同期されていないテーブル | 現在のサブタスクでシャードDDL文を受け取っていないテーブルの数 | 該当なし | 該当なし |
| シャードロックの解決 | 現在のサブタスクがシャードDDLロックの解決を待機しているかどうか。0より大きい値は、シャードDDLロックの解決を待機していることを示します。 | 該当なし | 該当なし |
| 理想的なQPS | DMの実行時間が0のときに達成できる最高のQPS | 該当なし | 該当なし |
| binlogイベント行 | binlogイベントの行数 | 該当なし | 該当なし |
| 完了した取引の合計 | 完了した取引の合計数 | 該当なし | 該当なし |
| レプリケーショントランザクションバッチ | 下流に実行されたトランザクション内のSQL行の数 | 該当なし | 該当なし |
| フラッシュチェックポイントの時間間隔 | チェックポイントをフラッシュする時間間隔(秒) | 該当なし | 該当なし |
リレーログ
注記:
現在、DM v2.0 ではリレー ログ機能の有効化はサポートされていません。
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| storage容量 | リレーログが占有するディスクのstorage容量 | 該当なし | 該当なし |
| storage残り | リレーログが占有するディスクの残りstorage容量 | 値が10G未満になるとアラートが必要になります | 致命的 |
| プロセスはエラーで終了しました | リレーログはDMワーカー内でエラーが発生し、終了します。 | 即時アラート | 致命的 |
| リレーログデータの破損 | 破損したリレーログファイルの数 | 即時アラート | 緊急 |
| マスターからのbinlogの読み取りに失敗しました | リレーログが上流のMySQLからbinlogを読み込む際に発生したエラーの数 | 即時アラート | 致命的 |
| リレーログの書き込みに失敗しました | リレーログがbinlogをディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
| binlogファイルインデックス | リレーログファイルの最大インデックス番号。例えば、「value = 1」は「relay-log.000001」を示します。 | 該当なし | 該当なし |
| マスターとリレー間のbinlogファイルのギャップ | 上流マスターの背後にあるリレーログ内のbinlogファイルの数 | relay処理ユニットが上流マスターより遅れているbinlogファイルの数が1つ(> 1)を超え、その状態が10分以上続くと、アラートが発生します。 | 致命的 |
| binlogポジション | 最新のリレーログファイルの書き込みオフセット | 該当なし | 該当なし |
| binlogイベントの期間の読み取り | リレーログが上流のMySQLからbinlogを読み取る時間(秒) | 該当なし | 該当なし |
| 書き込みリレーログ期間 | リレーログが毎回ディスクにbinlogを書き込む時間(秒) | 該当なし | 該当なし |
| binlogイベントサイズ | リレーログがディスクに書き込む単一のbinlogイベントのサイズ | 該当なし | 該当なし |
実例
Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instanceです。
リレーログ
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| storage容量 | リレーログが占有するディスクの総storage容量 | 該当なし | 該当なし |
| storage残り | リレーログが占めるディスク内の残りのstorage容量 | 値が10G未満になるとアラートが発生します | 致命的 |
| プロセスはエラーで終了しました | リレーログはDMワーカーでエラーが発生し、終了します | 即時アラート | 致命的 |
| リレーログデータの破損 | 破損したリレーログの数 | 即時アラート | 緊急 |
| マスターからのbinlogの読み取りに失敗しました | リレーログが上流のMySQLからbinlogを読み込む際に発生したエラーの数 | 即時アラート | 致命的 |
| リレーログの書き込みに失敗しました | リレーログがbinlogをディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
| binlogファイルインデックス | リレーログファイルの最大インデックス番号。例えば、「value = 1」は「relay-log.000001」を示します。 | 該当なし | 該当なし |
| マスターとリレー間のbinlogファイルのギャップ | relay処理ユニットが上流マスターより遅れているbinlogファイルの数 | relay処理ユニットが上流マスターより遅れているbinlogファイルの数が1つ(> 1)を超え、その状態が10分以上続くと、アラートが発生します。 | 致命的 |
| binlogポジション | 最新のリレーログファイルの書き込みオフセット | 該当なし | 該当なし |
| binlogの読み取り期間 | リレーログが上流のMySQLからbinlogを読み取る時間(秒) | 該当なし | 該当なし |
| 書き込みリレーログ期間 | リレーログがbinlogをディスクに書き込む時間(秒) | 該当なし | 該当なし |
| binlogのサイズ | リレーログがディスクに書き込む単一のbinlogイベントのサイズ | 該当なし | 該当なし |
タスク
| メトリック名 | 説明 | 警告 | 重大度レベル |
|---|
| タスク状態 | 移行のサブタスクの状態 | サブタスクが10分以上一時停止されるとアラートが発生します | 致命的 |
| 読み込みの進行状況 | ロードユニットの完了したロードプロセスの割合。値の範囲は0%~100%です。 | 該当なし | 該当なし |
| マスターと同期サーバー間のbinlogファイルのギャップ | binlogレプリケーションユニットが上流マスターより遅れているbinlogファイルの数 | 該当なし | 該当なし |
| シャードロックの解決 | 現在のサブタスクがシャーディングDDLの移行を待機しているかどうか。0より大きい値は、現在のサブタスクがシャーディングDDLの移行を待機していることを意味します。 | 該当なし | 該当なし |