重要
古いバージョンの TiDB データベース (TiDB {{ curdocVersion }}) のドキュメントを表示しています。TiDBデータベースの最新の安定バージョンを使用することをお勧めします。
データ移行監視メトリクス
DMクラスタがTiUPを使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-workerが提供する監視メトリックについて説明します。
仕事
Grafanaダッシュボードでは、DMのデフォルト名はDM-taskです。
overview
Overviewには、現在選択されているタスクのすべてのDM-workerおよびDM-masterインスタンスまたはソースの監視メトリックが含まれています。現在のデフォルトのアラートルールは、単一のDM-worker/DM-masterインスタンス/ソースのみを対象としています。
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| タスクの状態 | 移行のためのサブタスクの状態 | 該当なし | 該当なし |
| ストレージ容量 | リレーログが占めるディスクの合計ストレージ容量 | 該当なし | 該当なし |
| ストレージは残ります | リレーログが占めるディスクの残りのストレージ容量 | 該当なし | 該当なし |
| マスターとリレー間のbinlogファイルのギャップ | relayの処理装置がアップストリーム・マスターの背後にあるbinlogファイルの数 | 該当なし | 該当なし |
| ロードの進行状況 | ロードユニットの完了したロードプロセスのパーセンテージ。値は0%〜100%の間です | 該当なし | 該当なし |
| マスターとシンカー間のbinlogファイルのギャップ | binlogレプリケーションユニットがアップストリームマスターの背後にあるbinlogファイルの数 | 該当なし | 該当なし |
| シャードロックの解決 | 現在のサブタスクがシャーディングDDL移行を待機しているかどうか。 0より大きい値は、現在のサブタスクがシャーディングDDL移行を待機していることを意味します | 該当なし | 該当なし |
操作エラー
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| 操作エラーの前 | 操作前のエラーの数 | 該当なし | 該当なし |
| ソースバウンドエラー | データソースバインディング操作のエラー数 | 該当なし | 該当なし |
| 開始エラー | サブタスクの開始中のエラーの数 | 該当なし | 該当なし |
| 一時停止エラー | サブタスクの一時停止中のエラーの数 | 該当なし | 該当なし |
| 再開エラー | サブタスクの再開中のエラーの数 | 該当なし | 該当なし |
| 自動再開エラー | サブタスクの自動再開中のエラーの数 | 該当なし | 該当なし |
| 更新エラー | サブタスクの更新中のエラーの数 | 該当なし | 該当なし |
| 停止エラー | サブタスクの停止中のエラーの数 | 該当なし | 該当なし |
高可用性
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| 1分あたりのdm-masters開始リーダーコンポーネントの数 | 1分あたりのリーダー関連コンポーネントを有効にするDMマスターの試行回数 | 該当なし | 該当なし |
| 異なる州の労働者の数 | さまざまな州のDM労働者の数 | 一部のDMワーカーは、1時間以上オフラインになっています | 致命的 |
| 労働者の状態 | DMワーカーの状態 | 該当なし | 該当なし |
| ワーカーイベントエラーの数 | さまざまなタイプのDMワーカーエラーの数 | 該当なし | 該当なし |
| 1分あたりのシャードddlエラー | 1分あたりのさまざまなタイプのシャーディングDDLエラーの数 | シャーディングDDLエラーが発生します | 致命的 |
| 保留中のシャードddlの数 | 保留中のシャーディングDDL操作の数 | 保留中のシャーディングDDL操作が1時間以上存在している | 致命的 |
タスクの状態
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| タスクの状態 | サブタスクの状態 | サブタスクが20分を超えてPaused状態になっていると、アラートが発生します。 | 致命的 |
ダンプ/ロードユニット
次のメトリックは、 task-modeがfullまたはallモードの場合にのみ表示されます。
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| ロードの進行状況 | ロードユニットの完了したロードプロセスのパーセンテージ。値の範囲は0%〜100%です | 該当なし | 該当なし |
| データファイルサイズ | ロードユニットによってインポートされた完全なデータ内のデータファイル( INSERT INTOステートメントを含む)の合計サイズ | 該当なし | 該当なし |
| ダンププロセスがエラーで終了します | ダンプユニットはDMワーカー内でエラーに遭遇し、終了します | 即時アラート | 致命的 |
| ロードプロセスはエラーで終了します | ロードユニットはDMワーカー内でエラーに遭遇し、終了します | 即時アラート | 致命的 |
| テーブル数 | ロードユニットによってインポートされた完全データ内のテーブルの総数 | 該当なし | 該当なし |
| データファイル数 | ロードユニットによってインポートされた完全なデータ内のデータファイルの総数( INSERT INTOのステートメントを含む) | 該当なし | 該当なし |
| トランザクション実行レイテンシ | ロードユニットによるトランザクションの実行の待機時間(秒単位) | 該当なし | 該当なし |
| ステートメント実行レイテンシ | ロードユニットによるステートメントの実行時間(秒単位) | 該当なし | 該当なし |
| 残り時間 | ロードユニットによるデータの複製の残り時間(秒単位) | 該当なし | 該当なし |
Binlogレプリケーション
次のメトリックは、 task-modeがincrementalまたはallモードの場合にのみ表示されます。
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| 同期する残り時間 | syncerがアップストリームマスターに完全に移行されるまでにかかる予測残り時間(分単位) | 該当なし | 該当なし |
| ラグゲージを複製する | binlogをアップストリームからダウンストリームに複製するのにかかる待ち時間(秒単位) | 該当なし | 該当なし |
| ラグヒストグラムを複製する | binlogをアップストリームからダウンストリームに複製するヒストグラム(秒単位)。統計メカニズムが異なるため、データが不正確になる可能性があることに注意してください | 該当なし | 該当なし |
| プロセスはエラーで存在します | binlogレプリケーションユニットでDMワーカー内でエラーが発生し、終了します | 即時アラート | 致命的 |
| マスターとシンカー間のbinlogファイルのギャップ | syncerの処理装置がアップストリーム・マスターの背後にあるbinlogファイルの数 | syncerのプロセッシングユニットがアップストリームマスターの背後にあるbinlogファイルの数が1(> 1)を超え、状態が10分以上続くと、アラートが発生します。 | 致命的 |
| リレーとシンカー間のbinlogファイルのギャップ | syncerがrelayより遅れているbinlogファイルの数 | 1つの処理装置がrelayの処理装置の後ろにあるbinlogファイルの数がsyncerを超え(> 1)、状態が10分以上続くと、アラートが発生します。 | 致命的 |
| binlogイベントQPS | 単位時間あたりに受信されたbinlogイベントの数(この数には、スキップする必要のあるイベントは含まれていません) | 該当なし | 該当なし |
| binlogイベントQPSをスキップしました | スキップする必要がある単位時間あたりに受信されたbinlogイベントの数 | 該当なし | 該当なし |
| binlogイベント期間の読み取り | binlogレプリケーションユニットがリレーログまたはアップストリームMySQLからbinlogを読み取る期間(秒単位) | 該当なし | 該当なし |
| binlogイベント期間の変換 | binlogレプリケーションユニットがbinlogを解析してSQLステートメントに変換する期間(秒単位) | 該当なし | 該当なし |
| binlogイベント期間のディスパッチ | binlogレプリケーションユニットがbinlogイベントをディスパッチする期間(秒単位) | 該当なし | 該当なし |
| トランザクション実行レイテンシ | binlogレプリケーションユニットがダウンストリームへのトランザクションを実行する期間(秒単位) | 該当なし | 該当なし |
| binlogイベントサイズ | binlogレプリケーションユニットがリレーログまたはアップストリームMySQLから読み取るbinlogイベントのサイズ | 該当なし | 該当なし |
| DMLキューは長さのままです | 残りのDMLジョブキューの長さ | 該当なし | 該当なし |
| 総sqlsジョブ | 単位時間あたりに新しく追加されたジョブの数 | 該当なし | 該当なし |
| 終了したsqlsジョブ | 単位時間あたりの完了したジョブの数 | 該当なし | 該当なし |
| ステートメント実行レイテンシ | binlogレプリケーションユニットがダウンストリームに対してステートメントを実行する期間(秒単位) | 該当なし | 該当なし |
| 仕事の期間を追加する | binlogレプリケーションユニットがキューにジョブを追加する期間(秒単位) | 該当なし | 該当なし |
| DML競合検出期間 | binlogレプリケーションユニットがDMLで競合を検出する期間(秒単位) | 該当なし | 該当なし |
| スキップされたイベント期間 | binlogレプリケーションユニットがbinlogイベントをスキップする期間(秒単位) | 該当なし | 該当なし |
| 同期されていないテーブル | 現在のサブタスクでシャードDDLステートメントを受け取っていないテーブルの数 | 該当なし | 該当なし |
| シャードロックの解決 | 現在のサブタスクがシャードDDLロックの解決を待機しているかどうか。 0より大きい値は、シャードDDLロックが解決されるのを待機していることを示します | 該当なし | 該当なし |
| 理想的なQPS | DMの実行時間が0のときに達成できる最高のQPS | 該当なし | 該当なし |
| binlogイベント行 | binlogイベントの行数 | 該当なし | 該当なし |
| 完了したトランザクションの合計 | 完了したトランザクションの総数 | 該当なし | 該当なし |
| レプリケーショントランザクションバッチ | ダウンストリームに対して実行されたトランザクションのSQL行の数 | 該当なし | 該当なし |
| チェックポイントの時間間隔をフラッシュする | チェックポイントをフラッシュするための時間間隔(秒単位) | 該当なし | 該当なし |
リレーログ
ノート:
現在、DMv2.0はリレーログ機能の有効化をサポートしていません。
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| ストレージ容量 | リレーログが占めるディスクのストレージ容量 | 該当なし | 該当なし |
| ストレージは残ります | リレーログが占めるディスクの残りのストレージ容量 | 値が10G未満になると、アラートが必要になります | 致命的 |
| プロセスはエラーで終了します | リレーログでDMワーカー内でエラーが発生し、終了します | 即時アラート | 致命的 |
| リレーログデータの破損 | 破損したリレーログファイルの数 | 即時アラート | 緊急 |
| マスターからのbinlogの読み取りに失敗する | リレーログがアップストリームMySQLからbinlogを読み取るときに発生したエラーの数 | 即時アラート | 致命的 |
| リレーログの書き込みに失敗しました | リレーログがbinlogをディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
| binlogファイルインデックス | リレーログファイルの最大インデックス番号。たとえば、「value = 1」は、「relay-log.000001」を示します。 | 該当なし | 該当なし |
| マスターとリレー間のbinlogファイルのギャップ | アップストリームマスターの背後にあるリレーログ内のbinlogファイルの数 | relayのプロセッシングユニットがアップストリームマスターの背後にあるbinlogファイルの数が1を超え(> 1)、状態が10分以上続くと、アラートが発生します。 | 致命的 |
| binlog pos | 最新のリレーログファイルの書き込みオフセット | 該当なし | 該当なし |
| binlogイベント期間の読み取り | リレーログがアップストリームMySQLからbinlogを読み取る期間(秒単位) | 該当なし | 該当なし |
| リレーログ期間の書き込み | リレーログが毎回binlogをディスクに書き込む時間(秒単位) | 該当なし | 該当なし |
| binlogイベントサイズ | リレーログがディスクに書き込む単一のbinlogイベントのサイズ | 該当なし | 該当なし |
実例
Grafanaダッシュボードでは、インスタンスのデフォルト名はDM-instanceです。
リレーログ
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| ストレージ容量 | リレーログが占めるディスクの合計ストレージ容量 | 該当なし | 該当なし |
| ストレージは残ります | リレーログが占めるディスク内の残りのストレージ容量 | 値が10G未満になると、アラートが発生します | 致命的 |
| プロセスはエラーで終了します | リレーログでDM-workerでエラーが発生し、終了します | 即時アラート | 致命的 |
| リレーログデータの破損 | 破損したリレーログの数 | 即時アラート | 緊急 |
| マスターからのbinlogの読み取りに失敗する | リレーログがアップストリームMySQLからbinlogを読み取るときに発生したエラーの数 | 即時アラート | 致命的 |
| リレーログの書き込みに失敗しました | リレーログがbinlogをディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
| binlogファイルインデックス | リレーログファイルの最大インデックス番号。たとえば、「value = 1」は、「relay-log.000001」を示します。 | 該当なし | 該当なし |
| マスターとリレー間のbinlogファイルのギャップ | relayの処理装置がアップストリーム・マスターの背後にあるbinlogファイルの数 | relayのプロセッシングユニットがアップストリームマスターの背後にあるbinlogファイルの数が1(> 1)を超え、状態が10分以上続くと、アラートが発生します。 | 致命的 |
| binlog pos | 最新のリレーログファイルの書き込みオフセット | 該当なし | 該当なし |
| binlog期間の読み取り | リレーログがアップストリームMySQLからbinlogを読み取る期間(秒単位) | 該当なし | 該当なし |
| リレーログ期間の書き込み | リレーログが毎回binlogをディスクに書き込む時間(秒単位) | 該当なし | 該当なし |
| binlogサイズ | リレーログがディスクに書き込む単一のbinlogイベントのサイズ | 該当なし | 該当なし |
仕事
| メトリック名 | 説明 | アラート | 重大度レベル |
|---|
| タスクの状態 | 移行のためのサブタスクの状態 | サブタスクが10分を超えて一時停止された場合、アラートが発生します | 致命的 |
| ロードの進行状況 | ロードユニットの完了したロードプロセスのパーセンテージ。値の範囲は0%〜100%です | 該当なし | 該当なし |
| マスターとシンカー間のbinlogファイルのギャップ | binlogレプリケーションユニットがアップストリームマスターの背後にあるbinlogファイルの数 | 該当なし | 該当なし |
| シャードロックの解決 | 現在のサブタスクがシャーディングDDL移行を待機しているかどうか。 0より大きい値は、現在のサブタスクがシャーディングDDL移行を待機していることを意味します | 該当なし | 該当なし |