アラートを処理する
このドキュメントでは、DMでアラート情報を処理する方法を紹介します。
高可用性に関連するアラート
DM_master_all_down
説明:
すべてのDMマスターノードがオフラインの場合、このアラートがトリガーされます。
解決:
アラートを処理するには、次の手順を実行できます。
- クラスタの環境を確認してください。
- トラブルシューティングについては、すべてのDMマスターノードのログを確認してください。
DM_worker_offline
説明:
DMワーカーノードが1時間以上オフラインの場合、このアラートがトリガーされます。高可用性アーキテクチャでは、このアラートはタスクを直接中断しない可能性がありますが、中断のリスクが高まります。
解決:
アラートを処理するには、次の手順を実行できます。
- 対応するDM-workerノードの動作ステータスを表示します。
- ノードが接続されているか確認してください。
- ログを介してエラーをトラブルシューティングします。
DM_DDL_error
説明:
このエラーは、DMがシャーディングDDL操作を処理しているときに発生します。
解決:
DMのトラブルシューティングを参照してください。
DM_pending_DDL
説明:
シャーディングDDL操作が1時間以上保留されている場合、このアラートがトリガーされます。
解決:
一部のシナリオでは、保留中のシャーディングDDL操作がユーザーの期待どおりになる場合があります。それ以外の場合、解決策についてはDMでシャーディングDDLロックを手動で処理するを参照してください。
タスクステータスに関連するアラートルール
DM_task_state
説明:
DM-workerのサブタスクが20分を超えて
Paused
状態になると、アラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
リレーログに関連するアラートルール
DM_relay_process_exits_with_error
説明:
リレーログ処理ユニットがエラーに遭遇すると、このユニットは
Paused
状態に移行し、アラートが即座にトリガーされます。解決:
DMのトラブルシューティングを参照してください。
DM_remain_storage_of_relay_log
説明:
リレーログが配置されているディスクの空き容量が10G未満の場合、アラートがトリガーされます。
ソリューション:
アラートを処理するには、次の方法を使用できます。
- 不要なデータを手動で削除して、空きディスク容量を増やします。
- リレーログの自動データパージ戦略またはデータを手動でパージするを再構成します。
- コマンド
pause-relay
を実行して、リレーログプルプロセスを一時停止します。十分な空きディスク容量ができたら、コマンドresume-relay
を実行してプロセスを再開します。リレーログプルプロセスが一時停止した後、プルされていないアップストリームbinlogファイルをパージしてはならないことに注意してください。
DM_relay_log_data_corruption
説明:
リレーログ処理ユニットがアップストリームから読み取ったbinlogイベントを検証し、異常なチェックサム情報を検出すると、このユニットは
Paused
状態に移行し、すぐにアラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
DM_fail_to_read_binlog_from_master
説明:
リレーログ処理ユニットがアップストリームからbinlogイベントを読み取ろうとしたときにエラーが発生した場合、このユニットは
Paused
状態に移行し、すぐにアラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
DM_fail_to_write_relay_log
説明:
リレーログ処理ユニットがbinlogイベントをリレーログファイルに書き込もうとしたときにエラーが発生した場合、このユニットは
Paused
状態に移行し、すぐにアラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
DM_binlog_file_gap_between_master_relay
説明:
現在のアップストリームMySQL/MariaDB内のbinlogファイルの数が、リレーログ処理ユニットによってプルされた最新のbinlogファイルの数を10分間1以上超えると、アラートがトリガーされます。
解決:
DMのトラブルシューティングを参照してください。
ダンプ/ロードに関連するアラートルール
DM_dump_process_exists_with_error
説明:
ダンプ処理装置でエラーが発生すると、本装置は
Paused
状態に移行し、直ちにアラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
DM_load_process_exists_with_error
説明:
負荷処理装置でエラーが発生すると、本装置は
Paused
状態に移行し、直ちにアラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
binlogレプリケーションに関連するアラートルール
DM_sync_process_exists_with_error
説明:
binlogレプリケーション処理ユニットでエラーが発生すると、このユニットは
Paused
状態に移行し、すぐにアラートがトリガーされます。解決:
DMのトラブルシューティングを参照してください。
DM_binlog_file_gap_between_master_syncer
説明:
現在のアップストリームMySQL/MariaDB内のbinlogファイルの数が、リレーログ処理ユニットによって処理された最新のbinlogファイルの数を10分間1以上超えると、アラートがトリガーされます。
解決:
パフォーマンスの問題を処理するを参照してください。
DM_binlog_file_gap_between_relay_syncer
説明:
現在のリレーログ処理装置内のbinlogファイルの数が、binlog複製処理装置によって処理された最新のbinlogファイルの数を10分間1以上超えると、アラートがトリガーされます。
解決:
パフォーマンスの問題を処理するを参照してください。