TiDB アップストリームおよびダウンストリーム クラスタのデータ チェック
TiCDC を使用して TiDB のアップストリームおよびダウンストリーム クラスターを構築する場合、レプリケーションを停止せずにアップストリームおよびダウンストリーム データの整合性を検証する必要がある場合があります。通常のレプリケーション モードでは、TiCDC はデータが最終的に一貫していることのみを保証しますが、レプリケーション プロセス中にデータが一貫していることを保証することはできません。したがって、動的に変化するデータの整合性を検証することは困難です。そのようなニーズを満たすために、TiCDC は Syncpoint 機能を提供します。
Syncpoint は、TiDB が提供するスナップショット機能を使用し、TiCDC がレプリケーション プロセス中にアップストリームとダウンストリームのスナップショット間で一貫性を持つts-mapを維持できるようにします。このように、動的データの整合性を検証する問題は、静的なスナップショット データの整合性を検証する問題に変換され、ほぼリアルタイムの検証の効果が得られます。
同期点機能を有効にするには、レプリケーション タスクの作成時に TiCDC 構成項目の値をenable-sync-pointからtrueに設定します。同期点を有効にした後、TiCDC は、データ複製プロセス中に TiCDC パラメータsync-point-intervalに従って定期的にアップストリームとダウンストリームのスナップショットを調整し、アップストリームとダウンストリームの TSO 対応をダウンストリームtidb_cdc.syncpoint_v1テーブルに保存します。
次に、sync-diff-inspector でsnapshotを構成するだけで、TiDB の上流と下流のクラスターのデータを検証できます。次の TiCDC 構成例では、作成されたレプリケーション タスクの同期点を有効にします。
# Enables SyncPoint.
enable-sync-point = true
# Aligns the upstream and downstream snapshots every 5 minutes
sync-point-interval = "5m"
# Cleans up the ts-map data in the downstream tidb_cdc.syncpoint_v1 table every hour
sync-point-retention = "1h"
ステップ 1: ts-mapを取得する
下流の TiDB クラスターで次の SQL ステートメントを実行して、上流の TSO ( primary_ts ) と下流の TSO ( secondary_ts ) を取得できます。
select * from tidb_cdc.syncpoint_v1;
+------------------+----------------+--------------------+--------------------+---------------------+
| ticdc_cluster_id | changefeed | primary_ts | secondary_ts | created_at |
+------------------+----------------+--------------------+--------------------+---------------------+
| default | test-2 | 435953225454059520 | 435953235516456963 | 2022-09-13 08:40:15 |
+------------------+----------------+--------------------+--------------------+---------------------+
前述のsyncpoint_v1表のフィールドは、次のように説明されています。
ticdc_cluster_id: このレコードの TiCDC クラスターの ID。changefeed: このレコードの変更フィードの ID。異なる TiCDC クラスターには同じ名前の変更フィードがある可能性があるため、変更フィードによって挿入されたts-mapを TiCDC クラスター ID と変更フィード ID で確認する必要があります。primary_ts: アップストリーム データベース スナップショットのタイムスタンプ。secondary_ts: ダウンストリーム データベース スナップショットのタイムスタンプ。created_at: このレコードが挿入された時刻。
ステップ 2: スナップショットを構成する
ステップ1で取得したts-map情報を利用して、上流データベースと下流データベースのスナップショット情報を設定します。
Datasource configセクションの設定例を次に示します。
######################### Datasource config ########################
[data-sources.uptidb]
host = "172.16.0.1"
port = 4000
user = "root"
password = ""
snapshot = "435953225454059520"
[data-sources.downtidb]
host = "172.16.0.2"
port = 4000
user = "root"
snapshot = "435953235516456963"
ノート
- TiCDC が変更フィードを作成する前に、TiCDC 構成項目
enable-sync-pointの値がtrueに設定されていることを確認してください。このようにしてのみ、同期点が有効になり、ts-mapがダウンストリームに保存されます。完全な構成については、 TiCDC タスク構成ファイルを参照してください。 - TiKV のガベージ コレクション (GC) 時間を変更して、スナップショットに対応する履歴データがデータ チェック中に GC によって収集されないようにします。確認後、GC 時間を 1 時間に変更し、設定を元に戻すことをお勧めします。
- 上記の例は、
Datasource configのセクションのみを示しています。完全な構成については、 sync-diff-inspector ユーザーガイドを参照してください。 - v6.4.0 以降、TiCDC Syncpoint 機能を使用できるのは、
SYSTEM_VARIABLES_ADMINまたはSUPER特権を持つ changefeed のみです。