TiCDC アラート ルール

この文書では、TiCDC アラート ルールと対応するソリューションについて説明します。重大度レベルは降順で、 CriticalWarningになります。

重大なアラート

このセクションでは、重要なアラートと解決策を紹介します。

cdc_checkpoint_high_delay

重要なアラートの場合は、異常な監視メトリクスに細心の注意を払う必要があります。

cdc_resolvedts_high_delay

ticdc_changefeed_failed

  • アラート ルール:

    (max_over_time(ticdc_owner_status[1m]) == 2) > 0

  • 説明:

    レプリケーション タスクで回復不可能なエラーが発生し、失敗状態になります。

  • 解決:

    このアラートはレプリケーションの中断に似ています。 TiCDC によるレプリケーションの中断の処理を参照してください。

ticdc_processor_exit_with_error_count

警告アラート

警告アラートは、問題またはエラーを通知するものです。

cdc_multiple_owners

  • アラート ルール:

    sum(rate(ticdc_owner_ownership_counter[30s])) >= 2

  • 説明:

    TiCDC クラスターには複数の所有者がいます。

  • 解決:

    TiCDC ログを収集して根本原因を特定します。

cdc_sink_flush_duration_time_more_than_10s

  • アラート ルール:

    histogram_quantile(0.9, rate(ticdc_sink_txn_worker_flush_duration[1m])) > 10

  • 説明:

    レプリケーション タスクでは、ダウンストリーム データベースにデータを書き込むのに 10 秒以上かかります。

  • 解決:

    下流データベースに問題がないか確認してください。

cdc_processor_checkpoint_tso_no_change_for_1m

ticdc_puller_entry_sorter_sort_bucket

  • アラート ルール:

    histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_sort_bucket{}[1m])) > 1

  • 説明:

    TiCDC プラー エントリ ソーターの遅延が長すぎます。

  • 解決:

    TiCDC ログを収集して根本原因を特定します。

ticdc_puller_entry_sorter_merge_bucket

  • アラート ルール:

    histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_merge_bucket{}[1m])) > 1

  • 説明:

    TiCDC プラーのエントリー・ソーターのマージの遅延が長すぎます。

  • 解決:

    TiCDC ログを収集して根本原因を特定します。

tikv_cdc_min_resolved_ts_no_change_for_1m

  • アラート ルール:

    changes(tikv_cdc_min_resolved_ts[1m]) < 1 and ON (instance) tikv_cdc_region_resolve_status{status="resolved"} > 0 and ON (instance) tikv_cdc_captured_region_total > 0

  • 説明:

    TiKV CDC の最小解決済み TS 1 は 1 分間進んでいません。

  • 解決:

    TiKV ログを収集して根本原因を特定します。

tikv_cdc_scan_duration_seconds_more_than_10min

  • アラート ルール:

    histogram_quantile(0.9, rate(tikv_cdc_scan_duration_seconds_bucket{}[1m])) > 600

  • 説明:

    TiKV CDC モジュールは、増分レプリケーションを 10 分以上スキャンしました。

  • 解決:

    TiCDC モニタリング メトリックと TiKV ログを収集して、根本原因を特定します。

ticdc_sink_mysql_execution_error

  • アラート ルール:

    changes(ticdc_sink_mysql_execution_error[1m]) > 0

  • 説明:

    レプリケーション タスクがダウンストリーム MySQL にデータを書き込むときにエラーが発生します。

  • 解決:

    考えられる根本原因は多数あります。 TiCDC のトラブルシューティングを参照してください。

ticdc_memory_abnormal

  • アラート ルール:

    go_memstats_heap_alloc_bytes{job="ticdc"} > 1e+10

  • 説明:

    TiCDC ヒープメモリの使用量が 10 GiB を超えています。

  • 解決:

    TiCDC ログを収集して根本原因を特定します。

このページは役に立ちましたか?

Playground
新規
登録なしで TiDB の機能をワンストップでインタラクティブに体験できます。
製品
TiDB Cloud
TiDB
価格
PoC お問い合わせ
エコシステム
TiKV
TiFlash
OSS Insight
© 2024 PingCAP. All Rights Reserved.
Privacy Policy.