TiCDC のパフォーマンス分析およびチューニング方法

このドキュメントでは、TiCDC リソースの使用率と主要なパフォーマンスメトリクスを紹介します。パフォーマンス概要ダッシュボードのCDCパネルを通じて、データレプリケーションにおける TiCDC パフォーマンスを監視および評価できます。

TiCDC クラスターのリソース使用率

次の 3 つのメトリックを使用すると、TiCDC クラスターのリソース使用率をすぐに取得できます。

CPU 使用率: TiCDC ノードごとの CPU 使用率。
メモリ使用量: TiCDC ノードごとのメモリ使用量。
ゴルーチン数: TiCDC ノードごとのゴルーチンの数。

TiCDC データレプリケーションの主要な指標

TiCDC 全体的な指標

次のメトリクスを使用すると、TiCDC データレプリケーションの概要を把握できます。

チェンジフィードチェックポイントラグ: アップストリームとダウンストリーム間のデータレプリケーションの進行ラグ (秒単位で測定)。
TiCDC がデータを消費してダウンストリームに書き込む速度がアップストリームのデータ変更に追いついていれば、このメトリクスは小さなレイテンシー範囲内 (通常は 10 秒以内) に収まります。そうしないと、この指標は増加し続けることになります。
このメトリクス (つまりChangefeed checkpoint lag ) が増加する場合、一般的な理由は次のとおりです。
- システムリソースの不足: TiCDC の CPU、メモリ、またはディスク容量が不十分な場合、データ処理が遅くなりすぎて、TiCDC 変更フィードのチェックポイントが長くなる可能性があります。
- ネットワークの問題: TiCDC でネットワークの中断、遅延、または帯域幅不足が発生すると、データ転送速度に影響を与える可能性があり、その結果、TiCDC 変更フィードのチェックポイントが長くなります。
- アップストリームでの高い QPS: TiCDC によって処理されるデータが大きすぎる場合、データ処理タイムアウトが発生する可能性があり、その結果、TiCDC 変更フィードのチェックポイントが増加します。通常、単一の TiCDC ノードは最大約 60K の QPS を処理できます。
- データベースの問題:
  - 上流の TiKV クラスターのmin resolved tsと最新の PD TSO の間のギャップは重大です。この問題は通常、アップストリームの書き込みワークロードが過度に重い場合に、TiKV が解決された ts を時間内に進めることができないために発生します。
  - ダウンストリームデータベースの書き込みレイテンシーが長く、TiCDC がデータをダウンストリームにタイムリーに複製できなくなります。
変更フィード解決 ts ラグ: TiCDC ノードの内部レプリケーションステータスとアップストリームの間の進行ラグ (秒単位で測定)。このメトリクスが高い場合は、TiCDC Puller または Sorter モジュールのデータ処理能力が不十分であるか、ネットワークレイテンシーまたはディスク読み取り/書き込み速度の遅さの問題が発生している可能性があることを示します。このような場合、TiCDC を効率的かつ安定的に動作させるには、TiCDC ノードの数を増やしたり、ネットワーク構成を最適化するなどの適切な措置を講じる必要があります。
チェンジフィードのステータス: チェンジフィードのステータスの説明については、チェンジフィード状態転送を参照してください。

例 1: 単一 TiCDC ノードの場合、高いアップストリーム QPS による高いチェックポイントラグ

次の図に示すように、アップストリーム QPS が高すぎて、クラスター内に TiCDC ノードが 1 つしかないため、TiCDC ノードは過負荷になり、CPU 使用率が高くなり、 Changefeed checkpoint lagとChangefeed resolved ts lagの両方が増加し続けます。チェンジフィードのステータスは断続的に0から1に移行し、チェンジフィードでエラーが発生し続けていることを示します。次のようにリソースを追加することで、この問題の解決を試みることができます。

TiCDC ノードをさらに追加する: TiCDC クラスターを複数のノードにスケールアウトして、処理能力を向上させます。
TiCDC ノードリソースの最適化: TiCDC ノードの CPU およびメモリ構成を増やしてパフォーマンスを向上させます。

データフローのスループットメトリックとダウンストリームレイテンシー

次のメトリクスを使用して、TiCDC のデータフロースループットとダウンストリームレイテンシーを知ることができます。

Puller 出力イベント/秒: TiCDC ノードの Puller モジュールが Sorter モジュールに送信する 1 秒あたりの行数。
ソーター出力イベント/秒: TiCDC ノードのソーターモジュールがマウンターモジュールに送信する 1 秒あたりの行数。
マウンター出力イベント/秒: TiCDC ノードのマウンターモジュールがシンクモジュールに送信する 1 秒あたりの行数。
テーブルシンク出力イベント/秒: TiCDC ノードのテーブルソーターモジュールがシンクモジュールに送信する 1 秒あたりの行数。
SinkV2 - シンクフラッシュ行数/秒: TiCDC ノードのシンクモジュールがダウンストリームに送信する 1 秒あたりの行数。
トランザクションシンクのフルフラッシュ期間: TiCDC ノードの MySQL シンクによるダウンストリームトランザクションの書き込みの平均レイテンシーと p999レイテンシー。
MQ ワーカーのメッセージ送信期間パーセンタイル: ダウンストリームが Kafka である場合の MQ ワーカーによるメッセージ送信のレイテンシー。
Kafka 送信バイト: MQ ワークロードでのダウンストリームトランザクションの書き込みトラフィック。

例 2: TiCDC データレプリケーションのパフォーマンスに対するダウンストリームデータベースの書き込み速度の影響

次の図に示すように、アップストリームとダウンストリームの両方が TiDB クラスターです。 TiCDC Puller output events/sメトリックは、アップストリームデータベースの QPS を示します。 Transaction Sink Full Flush Durationメトリックは、ダウンストリームデータベースの平均書き込みレイテンシーを示します。最初のワークロードでは高く、2 番目のワークロードでは低くなります。

最初のワークロード中は、ダウンストリーム TiDB クラスターのデータの書き込みが遅いため、TiCDC はアップストリーム QPS に遅れる速度でデータを消費し、 Changefeed checkpoint lagが継続的に増加します。ただし、 Changefeed resolved ts lag 300 ミリ秒以内にとどまっており、レプリケーションの遅延とスループットのボトルネックがプーラーモジュールとソーターモジュールによって引き起こされているのではなく、下流のシンクモジュールによって引き起こされていることを示しています。
2 番目のワークロード中は、ダウンストリーム TiDB クラスターのデータ書き込み速度が速いため、TiCDC はアップストリームに完全に追いつく速度でデータをレプリケートします。1 とChangefeed checkpoint lag Changefeed resolved ts lag 500 ミリ秒以内に留まり、これは TiCDC にとって比較的理想的なレプリケーション速度です。

TiCDC のパフォーマンス分析およびチューニング方法

TiCDC クラスターのリソース使用率

TiCDC データ レプリケーションの主要な指標

TiCDC 全体的な指標

データ フローのスループット メトリックとダウンストリームレイテンシー

このページは役に立ちましたか？

TiCDC データレプリケーションの主要な指標

データフローのスループットメトリックとダウンストリームレイテンシー