TiCDC アラート ルール
この文書では、TiCDC アラート ルールと対応するソリューションについて説明します。重大度レベルは降順で、 Critical 、 Warningになります。
重大なアラート
このセクションでは、重要なアラートと解決策を紹介します。
cdc_checkpoint_high_delay
重要なアラートの場合は、異常な監視メトリクスに細心の注意を払う必要があります。
アラート ルール:
(time() - ticdc_owner_checkpoint_ts / 1000) > 600
説明:
レプリケーション タスクが 10 分以上遅延しています。
解決:
TiCDC ハンドル レプリケーションの中断を参照してください。
cdc_resolvedts_high_delay
アラート ルール:
(time() - ticdc_owner_resolved_ts / 1000) > 300
説明:
レプリケーション タスクの解決された TS が 5 分以上遅れています。
解決:
TiCDC ハンドル レプリケーションの中断を参照してください。
ticdc_processor_exit_with_error_count
アラート ルール:
changes(ticdc_processor_exit_with_error_count[1m]) > 0
説明:
レプリケーションタスクはエラーを報告して終了します。
解決:
TiCDC ハンドル レプリケーションの中断を参照してください。
警告アラート
警告アラートは、問題またはエラーを通知するものです。
cdc_multiple_owners
アラート ルール:
sum(rate(ticdc_owner_ownership_counter[30s])) >= 2
説明:
TiCDC クラスターには複数の所有者がいます。
解決:
TiCDC ログを収集して根本原因を特定します。
cdc_sink_flush_duration_time_more_than_10s
アラート ルール:
histogram_quantile(0.9, rate(ticdc_sink_txn_worker_flush_duration[1m])) > 10
説明:
レプリケーション タスクでは、ダウンストリーム データベースにデータを書き込むのに 10 秒以上かかります。
解決:
下流データベースに問題がないか確認してください。
cdc_processor_checkpoint_tso_no_change_for_1m
アラート ルール:
changes(ticdc_processor_checkpoint_ts[1m]) < 1
説明:
レプリケーション タスクが 1 分以上進んでいません。
解決:
TiCDC ハンドル レプリケーションの中断を参照してください。
ticdc_puller_entry_sorter_sort_bucket
アラート ルール:
histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_sort_bucket{}[1m])) > 1
説明:
TiCDC プラー エントリ ソーターの遅延が長すぎます。
解決:
TiCDC ログを収集して根本原因を特定します。
ticdc_puller_entry_sorter_merge_bucket
アラート ルール:
histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_merge_bucket{}[1m])) > 1
説明:
TiCDC プラーのエントリー・ソーターのマージの遅延が長すぎます。
解決:
TiCDC ログを収集して根本原因を特定します。
tikv_cdc_min_resolved_ts_no_change_for_1m
アラート ルール:
changes(tikv_cdc_min_resolved_ts[1m]) < 1 and ON (instance) tikv_cdc_region_resolve_status{status="resolved"} > 0
説明:
TiKV CDC の最小解決済み TS 1 は 1 分間進んでいません。
解決:
TiKV ログを収集して根本原因を特定します。
tikv_cdc_scan_duration_seconds_more_than_10min
アラート ルール:
histogram_quantile(0.9, rate(tikv_cdc_scan_duration_seconds_bucket{}[1m])) > 600
説明:
TiKV CDC モジュールは、増分レプリケーションを 10 分以上スキャンしました。
解決:
TiCDC モニタリング メトリックと TiKV ログを収集して、根本原因を特定します。
ticdc_sink_mysql_execution_error
アラート ルール:
changes(ticdc_sink_mysql_execution_error[1m]) > 0
説明:
レプリケーション タスクがダウンストリーム MySQL にデータを書き込むときにエラーが発生します。
解決:
考えられる根本原因は多数あります。 TiCDC のトラブルシューティングを参照してください。
ticdc_memory_abnormal
アラート ルール:
go_memstats_heap_alloc_bytes{job="ticdc"} > 1e+10
説明:
TiCDC ヒープメモリの使用量が 10 GiB を超えています。
解決:
TiCDC ログを収集して根本原因を特定します。