TiDB データ移行でのアラートの処理
本書では、DM内のアラート情報への対処方法を紹介します。
高可用性に関するアラート
DM_master_all_down
説明:
すべての DM マスター ノードがオフラインの場合、このアラートがトリガーされます。
解決:
次の手順を実行してアラートを処理できます。
- クラスタの環境を確認してください。
- トラブルシューティングのためにすべての DM マスター ノードのログを確認します。
DM_worker_offline
説明:
DM ワーカー ノードが 1 時間以上オフラインになっている場合、このアラートがトリガーされます。高可用性アーキテクチャでは、このアラートはタスクを直接中断しない可能性がありますが、中断のリスクは増加します。
解決:
次の手順を実行してアラートを処理できます。
- 対応する DM ワーカー ノードの動作ステータスをビュー。
- ノードが接続されているかどうかを確認します。
- ログを通じてエラーのトラブルシューティングを行います。
DM_DDL_error
説明:
このエラーは、DM がシャーディング DDL 操作を処理しているときに発生します。
解決:
DM のトラブルシューティングを参照してください。
DM_pending_DDL
説明:
シャーディング DDL 操作が 1 時間以上保留されている場合、このアラートがトリガーされます。
解決:
シナリオによっては、保留中のシャーディング DDL 操作がユーザーの期待どおりである場合があります。それ以外の場合は、解決策についてDM でシャーディング DDL ロックを手動で処理するを参照してください。
タスクのステータスに関連するアラート ルール
DM_task_state
説明:
DM ワーカーのサブタスクが 20 分以上
Paused
状態になると、アラートがトリガーされます。解決:
DM のトラブルシューティングを参照してください。
リレーログに関するアラートルール
DM_relay_process_exits_with_error
説明:
リレー ログ処理ユニットで自動回復不可能なエラー (たとえば、 binlogファイルが見つからない) が発生したとき、または短期間に複数の回復可能なエラー (たとえば、ネットワークの問題) が発生したとき (たとえば、3 回以上) 2 分以内)、このアラートがトリガーされます。
解決:
DM のトラブルシューティングを参照してください。
DM_remain_storage_of_relay_log
説明:
リレー ログが保存されているディスクの空き容量が 10G 未満になると、アラートがトリガーされます。
解決策:
アラートを処理するには、次の方法を使用できます。
- 不要なデータを手動で削除して、ディスクの空き容量を増やします。
- リレーログの自動データパージ戦略またはデータを手動で消去するを再構成します。
- コマンド
pause-relay
を実行して中継ログの取得処理を一時停止します。十分な空きディスク容量が確保できたら、コマンドresume-relay
を実行してプロセスを再開します。リレー ログの取得プロセスが一時停止された後は、取得されていないアップストリームのbinlogファイルを削除しないでください。
DM_relay_log_data_corruption
説明:
リレー ログ処理ユニットが上流から読み取ったbinlogイベントを検証し、異常なチェックサム情報を検出すると、このユニットは
Paused
状態に移行し、アラートがトリガーされます。解決:
DM のトラブルシューティングを参照してください。
DM_fail_to_read_binlog_from_master
説明:
リレー ログ処理ユニットがアップストリームからbinlogイベントを読み取ろうとしたときにエラーが発生した場合、このユニットは
Paused
状態に移行し、アラートがトリガーされます。解決:
DM のトラブルシューティングを参照してください。
DM_fail_to_write_relay_log
説明:
リレー ログ処理ユニットがbinlogイベントをリレー ログ ファイルに書き込もうとしたときにエラーが発生した場合、このユニットは
Paused
状態に移行し、アラートがトリガーされます。解決:
DM のトラブルシューティングを参照してください。
DM_binlog_file_gap_between_master_relay
説明:
現在のアップストリーム MySQL/MariaDB 内のbinlogファイルの数が、リレー ログ処理ユニットによってプルされた最新のbinlogファイルの数を 10 分間に 1つ以上超えると、アラートがトリガーされます。
解決:
DM のトラブルシューティングを参照してください。
ダンプ/ロードに関連するアラート ルール
DM_dump_process_exists_with_error
説明:
ダンプ処理ユニットで自動回復不可能なエラー (たとえば、 binlogファイルが見つからない) が発生したとき、または短期間に複数の回復可能なエラー (たとえば、ネットワークの問題) が発生したとき (たとえば、3 回以上) 2 分)、このアラートがトリガーされます。
解決:
DM のトラブルシューティングを参照してください。
DM_load_process_exists_with_error
説明:
ロード処理ユニットで自動回復不可能なエラー (たとえば、 binlogファイルが見つからない) が発生したとき、または短期間に複数の回復可能なエラー (たとえば、ネットワークの問題) が発生したとき (たとえば、3 回以上) 2 分)、このアラートがトリガーされます。
解決:
DM のトラブルシューティングを参照してください。
binlogレプリケーションに関連するアラートルール
DM_sync_process_exists_with_error
説明:
binlogレプリケーション処理ユニットで自動回復不可能なエラー (たとえば、binlogファイルが見つからない) が発生したとき、または短期間 (たとえば、3 回以上) に複数の回復可能なエラー (たとえば、ネットワークの問題) が発生したとき。 2 分以内)、このアラートがトリガーされます。
解決:
DM のトラブルシューティングを参照してください。
DM_binlog_file_gap_between_master_syncer
説明:
現在のアップストリーム MySQL/MariaDB 内のbinlogファイルの数が、リレー ログ処理ユニットによって処理された最新のbinlogファイルの数を 10 分間に 1つ以上超えると、アラートがトリガーされます。
解決:
パフォーマンスの問題に対処するを参照してください。
DM_binlog_file_gap_between_relay_syncer
説明:
現在のリレー ログ処理ユニット内のbinlogファイルの数が、binlogレプリケーション処理ユニットによって処理される最新のbinlogファイルの数を 10 分間に 1つ以上超えると、アラートがトリガーされます。
解決:
パフォーマンスの問題に対処するを参照してください。