TiCDCアラートルール

このドキュメントでは、TiCDC アラート ルールと対応するソリューションについて説明します。重大度レベルは、降順で、重大警告です。

重大なアラート

このセクションでは、重要なアラートと解決策について説明します。

cdc_checkpoint_high_delay

重大なアラートの場合、異常な監視メトリックに細心の注意を払う必要があります。

cdc_resolvedts_high_delay

ticdc_changefeed_failed

  • アラートルール:

    (max_over_time(ticdc_owner_status[1m]) == 2) > 0

  • 説明:

    レプリケーション タスクで回復不可能なエラーが発生し、失敗状態になります。

  • 解決:

    このアラートはレプリケーションの中断に似ています。 TiCDC はレプリケーションの中断を処理しますを参照してください。

警告アラート

警告アラートは、問題またはエラーを通知するものです。

cdc_multiple_owners

  • アラートルール:

    sum(rate(ticdc_owner_ownership_counter[30s])) >= 2

  • 説明:

    TiCDC クラスターには複数の所有者が存在します。

  • 解決:

    根本原因を特定するために TiCDC ログを収集します。

cdc_no_owner

  • アラートルール:

    sum(rate(ticdc_owner_ownership_counter[240s])) < 0.5

  • 説明:

    TiCDC クラスターに 10 分以上所有者が存在しません。

  • 解決:

    根本原因を特定するために TiCDC ログを収集します。

ticdc_changefeed_meet_error

ticdc_processor_exit_with_error_count

tikv_cdc_min_resolved_ts_no_change_for_1m

  • アラートルール:

    changes(tikv_cdc_min_resolved_ts[1m]) < 1 and ON (instance) tikv_cdc_region_resolve_status{status="resolved"} > 0 and ON (instance) tikv_cdc_captured_region_total > 0

  • 説明:

    TiKV CDC の最小解決 TS 1 は 1 分間進んでいません。

  • 解決:

    根本原因を特定するために TiKV ログを収集します。

tikv_cdc_scan_duration_seconds_more_than_10min

  • アラートルール:

    histogram_quantile(0.9, rate(tikv_cdc_scan_duration_seconds_bucket{}[1m])) > 600

  • 説明:

    TiKV CDC モジュールは、増分レプリケーションを 10 分以上スキャンしました。

  • 解決:

    根本原因を特定するために、TiCDC 監視メトリックと TiKV ログを収集します。

ticdc_sink_execution_error

  • アラートルール:

    changes(ticdc_sink_execution_error[1m]) > 0

  • 説明:

    レプリケーション タスクがダウンストリームにデータを書き込むときにエラーが発生します。

  • 解決:

    根本的な原因は多数考えられますTiCDC のトラブルシューティング参照してください。

ticdc_memory_abnormal

  • アラートルール:

    go_memstats_heap_alloc_bytes{job="ticdc"} > 1e+10

  • 説明:

    TiCDC ヒープメモリ使用量が 10 GiB を超えています。

  • 解決:

    根本原因を特定するために TiCDC ログを収集します。

このページは役に立ちましたか?