TiCDCアラートルール
このドキュメントでは、TiCDCアラートルールと対応するソリューションについて説明します。降順で、重大度レベルは次のとおりです。重大、警告。
重要なアラート
このセクションでは、重要なアラートとソリューションを紹介します。
cdc_checkpoint_high_delay
重要なアラートの場合、異常な監視メトリックに細心の注意を払う必要があります。
アラートルール:
(time()-ticdc_processor_checkpoint_ts / 1000)> 600
説明:
レプリケーションタスクは10分以上遅れます。
解決:
TiCDCはレプリケーションの中断を処理しますを参照してください。
cdc_resolvedts_high_delay
アラートルール:
(time()-ticdc_processor_resolved_ts / 1000)> 300
説明:
レプリケーションタスクの解決済みTSが10分以上遅れています。
解決:
TiCDCはレプリケーションの中断を処理しますを参照してください。
ticdc_processor_exit_with_error_count
アラートルール:
changes(ticdc_processor_exit_with_error_count[1m]) > 0
説明:
レプリケーションタスクはエラーを報告して終了します。
解決:
TiCDCはレプリケーションの中断を処理しますを参照してください。
警告アラート
警告アラートは、問題またはエラーのリマインダーです。
cdc_multiple_owners
アラートルール:
sum(rate(ticdc_owner_ownership_counter[30s])) >= 2
説明:
TiCDCクラスタには複数の所有者がいます。
解決:
TiCDCログを収集して、根本的な原因を特定します。
ticdc_mounter_unmarshal_and_mount_time_more_than_1s
- アラートルール:
histogram_quantile(0.9, rate(ticdc_mounter_unmarshal_and_mount_bucket[1m])) * 1000 > 1000
説明:
データ変更のマーシャリングを解除するには、レプリケーションタスクに1秒以上かかります。
解決:
TiCDCログを収集して、根本的な原因を特定します。
cdc_sink_execute_duration_time_more_than_10s
アラートルール:
histogram_quantile(0.9, rate(ticdc_sink_txn_exec_duration_bucket[1m])) > 10
説明:
ダウンストリームデータベースにデータを書き込むには、レプリケーションタスクに10秒以上かかります。
解決:
ダウンストリームデータベースに問題があるかどうかを確認します。
cdc_processor_checkpoint_tso_no_change_for_1m
アラートルール:
changes(ticdc_processor_checkpoint_ts[1m]) < 1
説明:
レプリケーションタスクが1分以上進行していません。
解決:
TiCDCはレプリケーションの中断を処理しますを参照してください。
ticdc_puller_entry_sorter_sort_bucket
アラートルール:
histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_sort_bucket{}[1m])) > 1
説明:
TiCDCプラーエントリーソーターの遅延が長すぎます。
解決:
TiCDCログを収集して、根本的な原因を特定します。
ticdc_puller_entry_sorter_merge_bucket
アラートルール:
histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_merge_bucket{}[1m])) > 1
説明:
TiCDCプラーエントリソーターマージの遅延が長すぎます。
解決:
TiCDCログを収集して、根本的な原因を特定します。
tikv_cdc_min_resolved_ts_no_change_for_1m
アラートルール:
changes(tikv_cdc_min_resolved_ts[1m]) < 1 and ON (instance) tikv_cdc_region_resolve_status{status="resolved"} > 0
説明:
TiKVCDCの最小解決済みTS1が1分間進んでいません。
解決:
TiKVログを収集して、根本的な原因を特定します。
tikv_cdc_scan_duration_seconds_more_than_10min
アラートルール:
histogram_quantile(0.9, rate(tikv_cdc_scan_duration_seconds_bucket{}[1m])) > 600
説明:
TiKV CDCモジュールは、10分を超えて増分レプリケーションをスキャンしました。
解決:
TiCDCモニタリングメトリックとTiKVログを収集して、根本原因を特定します。
ticdc_sink_mysql_execution_error
アラートルール:
changes(ticdc_sink_mysql_execution_error[1m]) > 0
説明:
レプリケーションタスクがダウンストリームのMySQLにデータを書き込むときにエラーが発生します。
解決:
考えられる根本的な原因はたくさんあります。 TiCDCのトラブルシューティングを参照してください。
ticdc_memory_abnormal
アラートルール:
go_memstats_heap_alloc_bytes{job="ticdc"} > 1e+10
説明:
TiCDCヒープメモリ使用量が10GiBを超えています。
解決:
TiCDCログを収集して、根本的な原因を特定します。