アラートの処理

このドキュメントでは、DM でアラート情報を処理する方法を紹介します。

DM_master_all_down

  • 説明:

    すべての DM マスター ノードがオフラインの場合、このアラートがトリガーされます。

  • 解決:

    アラートを処理するには、次の手順を実行できます。

    1. クラスタの環境を確認してください。
    2. トラブルシューティングのために、すべての DM マスター ノードのログを確認します。

DM_worker_offline

  • 説明:

    DM-worker ノードが 1 時間以上オフラインの場合、このアラートがトリガーされます。高可用性アーキテクチャでは、このアラートによってタスクが直接中断されることはありませんが、中断のリスクが高まります。

  • 解決:

    アラートを処理するには、次の手順を実行できます。

    1. 対応する DM-worker ノードの動作ステータスをビューします。
    2. ノードが接続されているかどうかを確認します。
    3. ログを使用してエラーをトラブルシューティングします。

DM_DDL_error

DM_pending_DDL

  • 説明:

    シャーディング DDL 操作が 1 時間以上保留されている場合、このアラートがトリガーされます。

  • 解決:

    一部のシナリオでは、保留中のシャーディング DDL 操作は、ユーザーが期待するものである可能性があります。それ以外の場合は、解決策についてDM でシャーディング DDL ロックを手動で処理するを参照してください。

DM_task_state

  • 説明:

    DM-worker のサブタスクが 20 分以上Pausedの状態にある場合、アラートがトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_relay_process_exits_with_error

  • 説明:

    リレー ログ処理ユニットでエラーが発生すると、このユニットはPaused状態に移行し、アラートがすぐにトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_remain_storage_of_relay_log

  • 説明:

    中継ログが配置されているディスクの空き容量が 10G 未満になると、アラートがトリガーされます。

  • ソリューション:

    アラートを処理するには、次の方法を使用できます。

    • 不要なデータを手動で削除して、ディスクの空き容量を増やします。
    • リレー ログの自動データ パージ戦略またはデータを手動で消去するを再設定します。
    • コマンドpause-relayを実行して、リレー ログのプル プロセスを一時停止します。十分な空きディスク領域ができたら、コマンドresume-relayを実行してプロセスを再開します。リレー ログのプル プロセスが一時停止された後は、プルされていないアップストリームの binlog ファイルを削除しないでください。

DM_relay_log_data_corruption

  • 説明:

    中継ログ処理部は、上流から読み込んだbinlogイベントを検証し、異常なチェックサム情報を検出するとPaused状態に移行し、即座にアラートを発します。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_fail_to_read_binlog_from_master

  • 説明:

    リレー ログ処理ユニットが上流から binlog イベントを読み込もうとしてエラーが発生した場合、このユニットはPaused状態に移行し、すぐにアラートがトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_fail_to_write_relay_log

  • 説明:

    リレー ログ処理ユニットが binlog イベントをリレー ログ ファイルに書き込もうとしたときにエラーが発生した場合、このユニットは状態Pausedに移行し、すぐにアラートがトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_binlog_file_gap_between_master_relay

  • 説明:

    現在の上流の MySQL/MariaDB 内の binlog ファイルの数が、リレー ログ処理ユニットによってプルされた最新の binlog ファイルの数を 10 分間で 1つ以上超えると、アラートがトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_dump_process_exists_with_error

  • 説明:

    Dump 処理ユニットでエラーが発生すると、このユニットはPaused状態に移行し、アラートがすぐにトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_load_process_exists_with_error

  • 説明:

    Load 処理ユニットでエラーが発生すると、このユニットはPaused状態に移行し、アラートがすぐにトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_sync_process_exists_with_error

  • 説明:

    binlog レプリケーション処理ユニットでエラーが発生すると、このユニットはPaused状態に移行し、アラートがすぐにトリガーされます。

  • 解決:

    DM のトラブルシューティングを参照してください。

DM_binlog_file_gap_between_master_syncer

  • 説明:

    現在の上流の MySQL/MariaDB 内の binlog ファイルの数が、リレー ログ処理ユニットによって処理された最新の binlog ファイルの数を 10 分間以上1 つ超えると、アラートがトリガーされます。

  • 解決:

    パフォーマンスの問題を処理するを参照してください。

DM_binlog_file_gap_between_relay_syncer

  • 説明:

    現在のリレー ログ処理ユニット内のバイナリ ログ ファイルの数が、バイナリ ログ レプリケーション処理ユニットによって処理された最新のバイナリ ログ ファイルの数を 10 分間以上1 つ超えると、アラートがトリガーされます。

  • 解決:

    パフォーマンスの問題を処理するを参照してください。

エコシステム
TiDB
TiKV
TiSpark
Chaos Mesh
© 2022 PingCAP. All Rights Reserved.