重要
このページは英語版のページを機械翻訳しています。原文はこちらからご覧ください。

TiCDCアラートルール

このドキュメントでは、TiCDCアラートルールと対応するソリューションについて説明します。降順で、重大度レベルは次のとおりです。重大警告

重要なアラート

このセクションでは、重要なアラートとソリューションを紹介します。

cdc_checkpoint_high_delay

重要なアラートの場合、異常な監視メトリックに細心の注意を払う必要があります。

cdc_resolvedts_high_delay

ticdc_processor_exit_with_error_count

警告アラート

警告アラートは、問題またはエラーのリマインダーです。

cdc_multiple_owners

  • アラートルール:

    sum(rate(ticdc_owner_ownership_counter[30s])) >= 2

  • 説明:

    TiCDCクラスタには複数の所有者がいます。

  • 解決:

    TiCDCログを収集して、根本原因を特定します。

ticdc_mounter_unmarshal_and_mount_time_more_than_1s

  • アラートルール:

histogram_quantile(0.9, rate(ticdc_mounter_unmarshal_and_mount_bucket[1m])) * 1000 > 1000

  • 説明:

    データ変更のマーシャリングを解除するには、レプリケーションタスクに1秒以上かかります。

  • 解決:

    TiCDCログを収集して、根本原因を特定します。

cdc_sink_execute_duration_time_more_than_10s

  • アラートルール:

    histogram_quantile(0.9, rate(ticdc_sink_txn_exec_duration_bucket[1m])) > 10

  • 説明:

    ダウンストリームデータベースにデータを書き込むには、レプリケーションタスクに10秒以上かかります。

  • 解決:

    ダウンストリームデータベースに問題があるかどうかを確認します。

cdc_processor_checkpoint_tso_no_change_for_1m

ticdc_puller_entry_sorter_sort_bucket

  • アラートルール:

    histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_sort_bucket{}[1m])) > 1

  • 説明:

    TiCDCプラーエントリーソーターの遅延が長すぎます。

  • 解決:

    TiCDCログを収集して、根本原因を特定します。

ticdc_puller_entry_sorter_merge_bucket

  • アラートルール:

    histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_merge_bucket{}[1m])) > 1

  • 説明:

    TiCDCプラーエントリソーターマージの遅延が長すぎます。

  • 解決:

    TiCDCログを収集して、根本原因を特定します。

tikv_cdc_min_resolved_ts_no_change_for_1m

  • アラートルール:

    changes(tikv_cdc_min_resolved_ts[1m]) < 1 and ON (instance) tikv_cdc_region_resolve_status{status="resolved"} > 0

  • 説明:

    TiKVCDCの最小解決済みTS1が1分間進んでいません。

  • 解決:

    TiKVログを収集して、根本原因を特定します。

tikv_cdc_scan_duration_seconds_more_than_10min

  • アラートルール:

    histogram_quantile(0.9, rate(tikv_cdc_scan_duration_seconds_bucket{}[1m])) > 600

  • 説明:

    TiKV CDCモジュールは、10分を超えて増分レプリケーションをスキャンしました。

  • 解決:

    TiCDCモニタリングメトリックとTiKVログを収集して、根本原因を特定します。

ticdc_sink_mysql_execution_error

  • アラートルール:

    changes(ticdc_sink_mysql_execution_error[1m]) > 0

  • 説明:

    レプリケーションタスクがダウンストリームのMySQLにデータを書き込むときにエラーが発生します。

  • 解決:

    考えられる根本的な原因はたくさんあります。 TiCDCのトラブルシューティングを参照してください。

ticdc_memory_abnormal

  • アラートルール:

    go_memstats_heap_alloc_bytes{job="ticdc"} > 1e+10

  • 説明:

    TiCDCヒープメモリ使用量が10GiBを超えています。

  • 解決:

    TiCDCログを収集して、根本原因を特定します。