重要

このページは英語版のページを機械翻訳しています。原文はこちらからご覧ください。

Kafka にデータを複製する

このドキュメントでは、TiCDC を使用して増分データを Apache Kafka に複製する変更フィードを作成する方法について説明します。

レプリケーションタスクを作成する

次のコマンドを実行してレプリケーションタスクを作成します。

cdc cli changefeed create \
    --server=http://10.0.10.25:8300 \
    --sink-uri="kafka://127.0.0.1:9092/topic-name?protocol=canal-json&kafka-version=2.4.0&partition-num=6&max-message-bytes=67108864&replication-factor=1" \
    --changefeed-id="simple-replication-task"

Create changefeed successfully!
ID: simple-replication-task
Info: {"sink-uri":"kafka://127.0.0.1:9092/topic-name?protocol=canal-json&kafka-version=2.4.0&partition-num=6&max-message-bytes=67108864&replication-factor=1","opts":{},"create-time":"2023-11-28T22:04:08.103600025+08:00","start-ts":415241823337054209,"target-ts":0,"admin-job-type":0,"sort-engine":"unified","sort-dir":".","config":{"case-sensitive":false,"filter":{"rules":["*.*"],"ignore-txn-start-ts":null,"ddl-allow-list":null},"mounter":{"worker-num":16},"sink":{"dispatchers":null},"scheduler":{"type":"table-number","polling-time":-1}},"state":"normal","history":null,"error":null}

--server : TiCDC クラスター内の任意の TiCDCサーバーのアドレス。
--changefeed-id : レプリケーションタスクの ID。形式は^[a-zA-Z0-9]+(\-[a-zA-Z0-9]+)*$の正規表現と一致する必要があります。この ID が指定されていない場合、TiCDC は ID として UUID (バージョン 4 形式) を自動的に生成します。
--sink-uri : レプリケーションタスクのダウンストリームアドレス。詳細については、 kafkaでシンク URI を設定する参照してください。
--start-ts : 変更フィードの開始 TSO を指定します。この TSO から、TiCDC クラスターはデータのプルを開始します。デフォルト値は現在の時刻です。
--target-ts : 変更フィード終了 TSO を指定します。この TSO まで、TiCDC クラスターはデータのプルを停止します。デフォルト値は空です。つまり、TiCDC はデータのプルを自動的に停止しません。
--config : changefeed設定ファイルを指定します。詳細についてはTiCDC Changefeedコンフィグレーションパラメータ参照してください。

サポートされている Kafka バージョン

次の表は、各 TiCDC バージョンでサポートされる最小 Kafka バージョンを示しています。

TiCDC バージョン	サポートされている最小の Kafka バージョン
TiCDC >= v8.1.0	2.1.0
v7.6.0 <= TiCDC < v8.1.0	2.4.0
v7.5.2 <= TiCDC < v8.0.0	2.1.0
v7.5.0 <= TiCDC < v7.5.2	2.4.0
v6.5.0 <= TiCDC < v7.5.0	2.1.0
v6.1.0 <= TiCDC < v6.5.0	2.0.0

Kafka のシンク URI を構成する

シンク URI は、TiCDC ターゲットシステムの接続情報を指定するために使用されます。形式は次のとおりです。

[scheme]://[host]:[port][/path]?[query_parameters]

ヒント：
ダウンストリーム Kafka に複数のホストまたはポートがある場合は、シンク URI に複数の[host]:[port]設定できます。例:
[scheme]://[host]:[port],[host]:[port],[host]:[port][/path]?[query_parameters]

サンプル構成:

--sink-uri="kafka://127.0.0.1:9092/topic-name?protocol=canal-json&kafka-version=2.4.0&partition-num=6&max-message-bytes=67108864&replication-factor=1"

以下は、Kafka に設定できるシンク URI パラメータと値の説明です。

パラメータ/パラメータ値	説明
`127.0.0.1`	ダウンストリーム Kafka サービスの IP アドレス。
`9092`	ダウンストリーム Kafka のポート。
`topic-name`	変数。Kafka トピックの名前。
`protocol`	メッセージが Kafka に出力されるプロトコル。値のオプションは`canal-json` 、 `open-protocol` 、 `avro` 、 `debezium` 、 `simple`です。
`kafka-version`	ダウンストリーム Kafka のバージョン。この値は、ダウンストリーム Kafka の実際のバージョンと一致している必要があります。
`kafka-client-id`	レプリケーションタスクの Kafka クライアント ID を指定します (オプション。デフォルトは`TiCDC_sarama_producer_replication ID` )。
`partition-num`	ダウンストリーム Kafka パーティションの数 (オプション。値は実際のパーティション数以下にする必要があります。そうでない場合、レプリケーションタスクを正常に作成できません。デフォルトは`3` )。
`max-message-bytes`	Kafka ブローカーに毎回送信されるデータの最大サイズ (オプション、デフォルトは`10MB` )。v5.0.6 および v4.0.6 から、デフォルト値は`64MB`と`256MB`から`10MB`に変更されました。
`replication-factor`	保存できる Kafka メッセージレプリカの数 (オプション、デフォルトは`1` )。この値は、Kafka の値`min.insync.replicas`以上である必要があります。
`required-acks`	`Produce`リクエストで使用されるパラメータ。ブローカーが応答する前に受信する必要があるレプリカ確認応答の数を通知します。値のオプションは、 `0` ( `NoResponse` : 応答なし、 `TCP ACK`のみが提供されます)、 `1` ( `WaitForLocal` : ローカルコミットが正常に送信された後にのみ応答します)、および`-1` ( `WaitForAll` : すべてのレプリケートされたレプリカが正常にコミットされた後に応答します。ブローカーの`min.insync.replicas`構成項目を使用して、レプリケートされたレプリカの最小数を設定できます) です。(オプション、デフォルト値は`-1`です)。
`compression`	メッセージを送信するときに使用する圧縮アルゴリズム (値のオプションは`none` 、 `lz4` 、 `gzip` 、 `snappy` 、 `zstd`で、デフォルトは`none`です)。Snappy 圧縮ファイルは公式Snappyフォーマットである必要があります。Snappy 圧縮の他のバリアントはサポートされていません。
`auto-create-topic`	渡された`topic-name` Kafka クラスターに存在しない場合に、TiCDC がトピックを自動的に作成するかどうかを決定します (オプション、デフォルトは`true` )。
`enable-tidb-extension`	オプション。デフォルトは`false`です。出力プロトコルが`canal-json`場合、値が`true`であれば、TiCDC はウォーターマークイベントを送信し、 TiDB拡張フィールド Kafka メッセージに追加します。v6.1.0 以降では、このパラメータは`avro`プロトコルにも適用されます。値が`true`の場合、TiCDC は3つのTiDB拡張フィールド Kafka メッセージに追加します。
`max-batch-size`	v4.0.9 の新機能。メッセージプロトコルが 1 つの Kafka メッセージに複数のデータ変更を出力することをサポートしている場合、このパラメーターは 1 つの Kafka メッセージ内のデータ変更の最大数を指定します。現在、Kafka の`protocol`が`open-protocol` (オプション、デフォルトは`16` ) の場合にのみ有効です。
`enable-tls`	ダウンストリーム Kafka インスタンスに接続するために TLS を使用するかどうか (オプション、デフォルトは`false` )。
`ca`	ダウンストリーム Kafka インスタンスに接続するために必要な CA 証明書ファイルのパス (オプション)。
`cert`	ダウンストリーム Kafka インスタンスに接続するために必要な証明書ファイルのパス (オプション)。
`key`	ダウンストリーム Kafka インスタンスに接続するために必要な証明書キーファイルのパス (オプション)。
`insecure-skip-verify`	ダウンストリーム Kafka インスタンスに接続するときに証明書の検証をスキップするかどうか (オプション、デフォルトは`false` )。
`sasl-user`	ダウンストリーム Kafka インスタンスに接続するために必要な SASL/PLAIN または SASL/SCRAM 認証の ID (authcid) (オプション)。
`sasl-password`	ダウンストリーム Kafka インスタンスに接続するために必要な SASL/PLAIN または SASL/SCRAM 認証のパスワード (オプション)。特殊文字が含まれている場合は、URL エンコードする必要があります。
`sasl-mechanism`	ダウンストリーム Kafka インスタンスに接続するために必要な SASL 認証の名前。値は`plain` 、 `scram-sha-256` 、 `scram-sha-512` 、または`gssapi`になります。
`sasl-gssapi-auth-type`	gssapi 認証タイプ。値は`user`または`keytab` (オプション) です。
`sasl-gssapi-keytab-path`	gssapi キータブパス (オプション)。
`sasl-gssapi-kerberos-config-path`	gssapi kerberos 構成パス (オプション)。
`sasl-gssapi-service-name`	gssapi サービス名 (オプション)。
`sasl-gssapi-user`	gssapi 認証のユーザー名 (オプション)。
`sasl-gssapi-password`	gssapi 認証のパスワード (オプション)。特殊文字が含まれている場合は、URL エンコードする必要があります。
`sasl-gssapi-realm`	gssapi レルム名 (オプション)。
`sasl-gssapi-disable-pafxfast`	gssapi PA-FX-FAST を無効にするかどうか (オプション)。
`dial-timeout`	ダウンストリーム Kafka との接続を確立する際のタイムアウト。デフォルト値は`10s`です。
`read-timeout`	ダウンストリーム Kafka から返される応答を取得する際のタイムアウト。デフォルト値は`10s`です。
`write-timeout`	ダウンストリーム Kafka にリクエストを送信する際のタイムアウト。デフォルト値は`10s`です。
`avro-decimal-handling-mode`	`avro`プロトコルでのみ有効です。Avro が DECIMAL フィールドを処理する方法を決定します。値は`string`または`precise`で、DECIMAL フィールドを文字列または正確な浮動小数点数にマッピングすることを示します。
`avro-bigint-unsigned-handling-mode`	`avro`プロトコルでのみ有効です。Avro が BIGINT UNSIGNED フィールドを処理する方法を決定します。値は`string`または`long`で、BIGINT UNSIGNED フィールドを 64 ビットの符号付き数値または文字列にマッピングすることを示します。

ベストプラクティス

独自の Kafka Topic を作成することをお勧めします。少なくとも、Topic が Kafka ブローカーに送信できる各メッセージの最大データ量と、下流の Kafka パーティションの数を設定する必要があります。changefeed を作成する場合、これら 2 つの設定はそれぞれmax-message-bytesとpartition-numに対応します。
まだ存在しないトピックで changefeed を作成すると、TiCDC はpartition-numとreplication-factorパラメータを使用してトピックを作成しようとします。これらのパラメータを明示的に指定することをお勧めします。
ほとんどの場合、 canal-jsonプロトコルを使用することをお勧めします。

注記：
protocolがopen-protocol場合、TiCDC は複数のイベントを 1 つの Kafka メッセージにエンコードし、 max-message-bytesで指定された長さを超えるメッセージの生成を回避します。単一行変更イベントのエンコードされた結果がmax-message-bytesの値を超えると、変更フィードはエラーを報告し、ログを出力。

TiCDCはKafkaの認証と認可を使用します

以下は、Kafka SASL 認証を使用する場合の例です。

SASL/プレーン

--sink-uri="kafka://127.0.0.1:9092/topic-name?kafka-version=2.4.0&sasl-user=alice-user&sasl-password=alice-secret&sasl-mechanism=plain"

SASL/SCRAM
SCRAM-SHA-256 と SCRAM-SHA-512 は PLAIN 方式に似ています。対応する認証方法としてsasl-mechanism指定するだけです。

SASL/GSSAPI

SASL/GSSAPI user認証:

--sink-uri="kafka://127.0.0.1:9092/topic-name?kafka-version=2.4.0&sasl-mechanism=gssapi&sasl-gssapi-auth-type=user&sasl-gssapi-kerberos-config-path=/etc/krb5.conf&sasl-gssapi-service-name=kafka&sasl-gssapi-user=alice/for-kafka&sasl-gssapi-password=alice-secret&sasl-gssapi-realm=example.com"

sasl-gssapi-userとsasl-gssapi-realmの値は、Kerberos で指定された原理に関連しています。たとえば、プリンシパルがalice/for-kafka@example.comに設定されている場合、 sasl-gssapi-userとsasl-gssapi-realmそれぞれalice/for-kafkaとexample.comとして指定されます。

SASL/GSSAPI keytab認証:

--sink-uri="kafka://127.0.0.1:9092/topic-name?kafka-version=2.4.0&sasl-mechanism=gssapi&sasl-gssapi-auth-type=keytab&sasl-gssapi-kerberos-config-path=/etc/krb5.conf&sasl-gssapi-service-name=kafka&sasl-gssapi-user=alice/for-kafka&sasl-gssapi-keytab-path=/var/lib/secret/alice.key&sasl-gssapi-realm=example.com"

SASL/GSSAPI 認証方式の詳細については、 GSSAPI の設定参照してください。

TLS/SSL暗号化
Kafka ブローカーで TLS/SSL 暗号化が有効になっている場合は、 --sink-uriに-enable-tls=trueパラメータを追加する必要があります。自己署名証明書を使用する場合は、 --sink-uriにca 、 cert 、 keyも指定する必要があります。

ACL 認証

TiCDC が適切に機能するために必要な最小限の権限セットは次のとおりです。

トピックリソースタイプのCreate 、 Write 、およびDescribe権限。
クラスタリソースタイプに対するDescribeConfigの権限。

各権限の使用シナリオは次のとおりです。

リソースタイプ	操作の種類	シナリオ
クラスタ	`DescribeConfig`	変更フィードの実行中にクラスターのメタデータを取得します
トピック	`Describe`	チェンジフィードの開始時にトピックを作成しようとします
トピック	`Create`	チェンジフィードの開始時にトピックを作成しようとします
トピック	`Write`	トピックにデータを送信する

変更フィードを作成または開始するときに、指定された Kafka トピックがすでに存在する場合は、 DescribeおよびCreate権限を無効にすることができます。

TiCDC を Kafka Connect (Confluent Platform) と統合する

Confluent が提供するデータコネクタ使用してリレーショナルデータベースまたは非リレーショナルデータベースにデータをストリーミングするには、 avroプロトコル使用し、 schema-registryでConfluent スキーマレジストリの URL を指定する必要があります。

サンプル構成:

--sink-uri="kafka://127.0.0.1:9092/topic-name?&protocol=avro&replication-factor=3" --schema-registry="http://127.0.0.1:8081" --config changefeed_config.toml

[sink]
dispatchers = [
 {matcher = ['*.*'], topic = "tidb_{schema}_{table}"},
]

詳細な統合ガイドについては、 TiDB と Confluent Platform の統合に関するクイックスタートガイド参照してください。

TiCDC を AWS Glue スキーマレジストリと統合する

v7.4.0 以降、TiCDC は、ユーザーがデータレプリケーションにアブロプロトコル選択した場合に、スキーマレジストリとしてAWS Glue スキーマレジストリ使用することをサポートします。構成例は次のとおりです。

./cdc cli changefeed create --server=127.0.0.1:8300 --changefeed-id="kafka-glue-test" --sink-uri="kafka://127.0.0.1:9092/topic-name?&protocol=avro&replication-factor=3" --config changefeed_glue.toml

[sink]
[sink.kafka-config.glue-schema-registry-config]
region="us-west-1"  
registry-name="ticdc-test"
access-key="xxxx"
secret-access-key="xxxx"
token="xxxx"

上記の設定では、 regionとregistry-name必須フィールドですが、 access-key 、 secret-access-key 、 tokenはオプションフィールドです。ベストプラクティスは、AWS 認証情報を環境変数として設定するか、changefeed 設定ファイルで設定するのではなく、 ~/.aws/credentialsファイルに保存することです。

詳細については、 Go V2 向け公式 AWS SDK ドキュメントを参照してください。

Kafka シンクのトピックおよびパーティションディスパッチャーのルールをカスタマイズする

マッチャールール

dispatchersの次の構成を例に挙げます。

[sink]
dispatchers = [
  {matcher = ['test1.*', 'test2.*'], topic = "Topic expression 1", partition = "ts" },
  {matcher = ['test3.*', 'test4.*'], topic = "Topic expression 2", partition = "index-value" },
  {matcher = ['test1.*', 'test5.*'], topic = "Topic expression 3", partition = "table"},
  {matcher = ['test6.*'], partition = "ts"}
]

マッチャールールに一致するテーブルについては、対応するトピック式で指定されたポリシーに従ってディスパッチされます。たとえば、テーブルtest3.aaは「トピック式 2」に従ってディスパッチされ、テーブルtest5.aaは「トピック式 3」に従ってディスパッチされます。
複数のマッチャールールに一致するテーブルの場合、最初に一致するトピック式に従ってディスパッチされます。たとえば、 test1.aaテーブルは「トピック式 1」に従って配布されます。
どのマッチャールールにも一致しないテーブルの場合、対応するデータ変更イベントは--sink-uriで指定されたデフォルトのトピックに送信されます。たとえば、 test10.aaテーブルはデフォルトのトピックに送信されます。
マッチャールールに一致するがトピックディスパッチャーを指定していないテーブルの場合、対応するデータ変更は--sink-uriで指定されたデフォルトトピックに送信されます。たとえば、 test6.aaテーブルはデフォルトトピックに送信されます。

トピックディスパッチャ

topic = "xxx" を使用してトピックディスパッチャーを指定し、トピック式を使用して柔軟なトピックディスパッチポリシーを実装できます。トピックの合計数は 1000 未満にすることをお勧めします。

トピック式の形式は[prefix]{schema}[middle][{table}][suffix]です。

prefix : オプション。トピック名のプレフィックスを示します。
{schema} : 必須。スキーマ名を一致させるために使用されます。v7.1.4 以降では、このパラメーターはオプションです。
middle : オプション。スキーマ名とテーブル名の間の区切り文字を示します。
{table} : オプション。テーブル名を一致させるために使用されます。
suffix : オプション。トピック名の接尾辞を示します。

prefix 、 middle 、 suffix 、 a-z 、 A-Z 、 0-9 、 . 、 _ 、 -の文字のみを含めることができます。 {schema}と{table}両方とも小文字です。 {Schema}や{TABLE}などのプレースホルダーは無効です。

例:

matcher = ['test1.table1', 'test2.table2'], topic = "hello_{schema}_{table}"
- test1.table1に対応するデータ変更イベントは、 hello_test1_table1という名前のトピックに送信されます。
- test2.table2に対応するデータ変更イベントは、 hello_test2_table2という名前のトピックに送信されます。
matcher = ['test3.*', 'test4.*'], topic = "hello_{schema}_world"
- test3内のすべてのテーブルに対応するデータ変更イベントは、 hello_test3_worldという名前のトピックに送信されます。
- test4内のすべてのテーブルに対応するデータ変更イベントは、 hello_test4_worldという名前のトピックに送信されます。
matcher = ['test5.*, 'test6.*'], topic = "hard_code_topic_name"
- test5とtest6のすべてのテーブルに対応するデータ変更イベントは、 hard_code_topic_nameという名前のトピックに送信されます。トピック名を直接指定できます。
matcher = ['*.*'], topic = "{schema}_{table}"
- TiCDC がリッスンするすべてのテーブルは、「schema_table」ルールに従って個別のトピックにディスパッチされます。たとえば、 test.accountテーブルの場合、TiCDC はデータ変更ログをtest_accountという名前のトピックにディスパッチします。

DDLイベントをディスパッチする

スキーマレベルの DDL

特定のテーブルに関連しない DDL は、 create databaseやdrop databaseなどのスキーマレベル DDL と呼ばれます。スキーマレベル DDL に対応するイベントは、 --sink-uriで指定されたデフォルトトピックに送信されます。

テーブルレベルの DDL

特定のテーブルに関連する DDL は、 alter tableやcreate tableなどのテーブルレベル DDL と呼ばれます。テーブルレベル DDL に対応するイベントは、ディスパッチャ構成に従って対応するトピックに送信されます。

たとえば、 matcher = ['test.*'], topic = {schema}_{table}ようなディスパッチャーの場合、DDL イベントは次のようにディスパッチされます。

DDL イベントに 1 つのテーブルが関係している場合、DDL イベントはそのまま対応するトピックに送信されます。たとえば、DDL イベントdrop table test.table1の場合、イベントはtest_table1という名前のトピックに送信されます。
DDL イベントに複数のテーブルが関係する場合 ( rename table / drop table / drop viewは複数のテーブルが関係する可能性があります)、DDL イベントは複数のイベントに分割され、対応するトピックに送信されます。たとえば、DDL イベントrename table test.table1 to test.table10, test.table2 to test.table20の場合、イベントrename table test.table1 to test.table10トピックtest_table1に送信され、イベントrename table test.table2 to test.table20はトピックtest.table2に送信されます。

パーティションディスパッチャ

partition = "xxx"使用してパーティションディスパッチャーを指定できます。 default 、 index-value 、 columns 、 table 、およびtsの 5 つのディスパッチャーがサポートされています。ディスパッチャーのルールは次のとおりです。

default : デフォルトでtableディスパッチャルールを使用します。スキーマ名とテーブル名を使用してパーティション番号を計算し、テーブルのデータが同じパーティションに送信されるようにします。その結果、1 つのテーブルのデータは 1 つのパーティションにのみ存在し、順序付けが保証されます。ただし、このディスパッチャルールは送信スループットを制限し、コンシューマーを追加しても消費速度を向上させることはできません。
index-value : 主キー、一意のインデックス、またはindexで明示的に指定されたインデックスを使用してパーティション番号を計算し、テーブルデータを複数のパーティションに分散します。1 つのテーブルのデータは複数のパーティションに送信され、各パーティションのデータは順序付けされます。コンシューマーを追加することで、消費速度を向上させることができます。
columns : 明示的に指定された列の値を使用してパーティション番号を計算し、テーブルデータを複数のパーティションに分散します。単一のテーブルのデータは複数のパーティションに送信され、各パーティションのデータは順序付けされます。コンシューマーを追加することで、消費速度を向上させることができます。
table : スキーマ名とテーブル名を使用してパーティション番号を計算します。
ts : 行変更の commitTs を使用してパーティション番号を計算し、テーブルデータを複数のパーティションに分散します。単一のテーブルからのデータは複数のパーティションに送信され、各パーティションのデータは順序付けされます。コンシューマーを追加することで、消費速度を向上させることができます。ただし、データ項目の複数の変更が異なるパーティションに送信され、異なるコンシューマーのコンシューマーの進行状況が異なる場合があり、データの不整合が発生する可能性があります。したがって、コンシューマーは、消費する前に、複数のパーティションからのデータを commitTs で並べ替える必要があります。

dispatchersの次の構成を例に挙げます。

[sink]
dispatchers = [
    {matcher = ['test.*'], partition = "index-value"},
    {matcher = ['test1.*'], partition = "index-value", index = "index1"},
    {matcher = ['test2.*'], partition = "columns", columns = ["id", "a"]},
    {matcher = ['test3.*'], partition = "table"},
]

testデータベース内のテーブルはindex-valueディスパッチャを使用し、主キーまたは一意のインデックスの値を使用してパーティション番号を計算します。主キーが存在する場合は、主キーが使用されます。それ以外の場合は、最短の一意のインデックスが使用されます。
test1テーブル内のテーブルはindex-valueディスパッチャを使用し、 index1という名前のインデックス内のすべての列の値を使用してパーティション番号を計算します。指定されたインデックスが存在しない場合は、エラーが報告されます。 indexで指定されたインデックスは一意のインデックスである必要があることに注意してください。
test2データベース内のテーブルはcolumnsディスパッチャを使用し、列idとaの値を使用してパーティション番号を計算します。いずれかの列が存在しない場合は、エラーが報告されます。
test3データベース内のテーブルはtableディスパッチャーを使用します。
test4データベース内のテーブルは、前述のルールのいずれにも一致しないため、 defaultディスパッチャー、つまりtableディスパッチャーを使用します。

テーブルが複数のディスパッチャールールに一致する場合、最初に一致するルールが優先されます。

注記：
v6.1.0 以降、構成の意味を明確にするために、パーティションディスパッチャーを指定するために使用される構成がdispatcherからpartitionに変更され、 partitionはdispatcherの別名になりました。たとえば、次の 2 つのルールはまったく同じです。
[sink]
dispatchers = [
   {matcher = ['*.*'], dispatcher = "index-value"},
   {matcher = ['*.*'], partition = "index-value"},
]
ただし、 dispatcherとpartition同じルールに出現させることはできません。たとえば、次のルールは無効です。
{matcher = ['*.*'], dispatcher = "index-value", partition = "table"},

カラムセレクター

列セレクター機能は、イベントから列を選択し、それらの列に関連するデータの変更のみをダウンストリームに送信することをサポートします。

column-selectorsの次の構成を例に挙げます。

[sink]
column-selectors = [
    {matcher = ['test.t1'], columns = ['a', 'b']},
    {matcher = ['test.*'], columns = ["*", "!b"]},
    {matcher = ['test1.t1'], columns = ['column*', '!column1']},
    {matcher = ['test3.t'], columns = ["column?", "!column1"]},
]

表test.t1の場合、列aとbのみが送信されます。
testデータベース内のテーブル ( t1テーブルを除く) の場合、 bを除くすべての列が送信されます。
表test1.t1の場合、 column1を除くcolumnで始まるすべての列が送信されます。
表test3.tの場合、 column1を除く、 columnで始まる 7 文字の列が送信されます。
どのルールにも一致しないテーブルの場合、すべての列が送信されます。

注記：
column-selectorsルールでフィルタリングされた後、テーブル内のデータには、複製される主キーまたは一意のキーが必要です。そうでない場合、変更フィードは作成時または実行時にエラーを報告します。

単一の大きなテーブルの負荷を複数の TiCDC ノードにスケールアウトする

この機能は、1 つの大きなテーブルのデータレプリケーション範囲を、データ量と 1 分あたりの変更行数に応じて複数の範囲に分割し、各範囲でレプリケートされるデータ量と変更行数をほぼ同じにします。この機能は、これらの範囲を複数の TiCDC ノードに分散してレプリケーションするため、複数の TiCDC ノードが同時に 1 つの大きなテーブルをレプリケートできます。この機能により、次の 2 つの問題を解決できます。

単一の TiCDC ノードでは、単一の大きなテーブルを時間内に複製することはできません。
TiCDC ノードによって消費されるリソース (CPU やメモリなど) は均等に分散されません。

警告

TiCDC v7.0.0 は、Kafka 変更フィード上の大きな単一テーブルの負荷のスケールアウトのみをサポートします。

サンプル構成:

[scheduler]
# The default value is "false". You can set it to "true" to enable this feature.
enable-table-across-nodes = true
# When you enable this feature, it only takes effect for tables with the number of regions greater than the `region-threshold` value.
region-threshold = 100000
# When you enable this feature, it takes effect for tables with the number of rows modified per minute greater than the `write-key-threshold` value.
# Note:
# * The default value of `write-key-threshold` is 0, which means that the feature does not split the table replication range according to the number of rows modified in a table by default.
# * You can configure this parameter according to your cluster workload. For example, if it is configured as 30000, it means that the feature will split the replication range of a table when the number of modified rows per minute in the table exceeds 30000.
# * When `region-threshold` and `write-key-threshold` are configured at the same time:
#   TiCDC will check whether the number of modified rows is greater than `write-key-threshold` first.
#   If not, next check whether the number of Regions is greater than `region-threshold`.
write-key-threshold = 30000

次の SQL ステートメントを使用して、テーブルに含まれるリージョンの数を照会できます。

SELECT COUNT(*) FROM INFORMATION_SCHEMA.TIKV_REGION_STATUS WHERE DB_NAME="database1" AND TABLE_NAME="table1" AND IS_INDEX=0;

Kafkaトピックの制限を超えるメッセージを処理する

Kafka トピックは、受信できるメッセージのサイズに制限を設定します。この制限は、 max.message.bytesパラメータによって制御されます。TiCDC Kafka シンクがこの制限を超えるデータを送信すると、変更フィードはエラーを報告し、データのレプリケーションを続行できません。この問題を解決するために、TiCDC は新しい構成large-message-handle-optionを追加し、次のソリューションを提供します。

現在、この機能は Canal-JSON と Open Protocol の 2 つのエンコードプロトコルをサポートしています。Canal-JSON プロトコルを使用する場合は、 sink-uriのうちenable-tidb-extension=true指定する必要があります。

TiCDC データ圧縮

v7.4.0 以降、TiCDC Kafka シンクは、エンコード直後にデータを圧縮し、圧縮されたデータサイズをメッセージサイズ制限と比較することをサポートします。この機能により、サイズ制限を超えるメッセージの発生を効果的に減らすことができます。

構成例は次のとおりです。

[sink.kafka-config.large-message-handle]
# This configuration is introduced in v7.4.0.
# "none" by default, which means that the compression feature is disabled.
# Possible values are "none", "lz4", and "snappy". The default value is "none".
large-message-handle-compression = "none"

large-message-handle-compressionが有効になっている場合、コンシューマーが受信したメッセージは特定の圧縮プロトコルを使用してエンコードされ、コンシューマーアプリケーションは指定された圧縮プロトコルを使用してデータをデコードする必要があります。

この機能は、Kafka プロデューサーの圧縮機能とは異なります。

large-message-handle-compressionで指定された圧縮アルゴリズムは、単一の Kafka メッセージを圧縮します。圧縮は、メッセージサイズの制限と比較する前に実行されます。
同時に、 sink-uriのcompressionパラメータを使用して圧縮アルゴリズムを構成することもできます。この圧縮アルゴリズムは、複数の Kafka メッセージを含むデータ送信リクエスト全体に適用されます。

large-message-handle-compression設定すると、TiCDC はメッセージを受信すると、まずメッセージサイズ制限パラメータの値と比較し、サイズ制限より大きいメッセージを圧縮します。 sink-uriにcompressionも設定すると、TiCDC はsink-uri設定に基づいて、送信データ要求全体をシンクレベルで再度圧縮します。

前述の 2 つの圧縮方法の圧縮率は次のように計算されますcompression ratio = size before compression / size after compression * 100 。

ハンドルキーのみ送信

v7.3.0 以降、TiCDC Kafka シンクは、メッセージサイズが制限を超えた場合にハンドルキーのみの送信をサポートします。これにより、メッセージサイズが大幅に削減され、メッセージサイズが Kafka トピック制限を超えたために発生する変更フィードエラーやタスクの失敗を回避できます。ハンドルキーとは、次のものを指します。

複製するテーブルに主キーがある場合、主キーはハンドルキーになります。
テーブルに主キーがなく、NOT NULL 一意キーがある場合、NOT NULL 一意キーがハンドルキーになります。

サンプル構成は次のとおりです。

[sink.kafka-config.large-message-handle]
# large-message-handle-option is introduced in v7.3.0.
# Defaults to "none". When the message size exceeds the limit, the changefeed fails.
# When set to "handle-key-only", if the message size exceeds the limit, only the handle key is sent in the data field. If the message size still exceeds the limit, the changefeed fails.
large-message-handle-option = "claim-check"

ハンドルキーのみでメッセージを消費する

ハンドルキーのみのメッセージ形式は次のとおりです。

{
    "id": 0,
    "database": "test",
    "table": "tp_int",
    "pkNames": [
        "id"
    ],
    "isDdl": false,
    "type": "INSERT",
    "es": 1639633141221,
    "ts": 1639633142960,
    "sql": "",
    "sqlType": {
        "id": 4
    },
    "mysqlType": {
        "id": "int"
    },
    "data": [
        {
          "id": "2"
        }
    ],
    "old": null,
    "_tidb": {     // TiDB extension fields
        "commitTs": 429918007904436226,  // A TiDB TSO timestamp
        "onlyHandleKey": true
    }
}

Kafka コンシューマーがメッセージを受信すると、まずonlyHandleKeyフィールドをチェックします。このフィールドが存在し、 trueである場合、メッセージには完全なデータのハンドルキーのみが含まれていることを意味します。この場合、完全なデータを取得するには、上流の TiDB をクエリして履歴データを読み取るためのtidb_snapshot使用する必要があります。

警告

Kafka コンシューマーがデータを処理し、TiDB にクエリを実行すると、GC によってデータが削除される可能性があります。この状況を回避するには、 TiDBクラスタのGCライフタイムを変更するより大きい値に設定する必要があります。

大きなメッセージを外部storageに送信する

v7.4.0 以降、TiCDC Kafka シンクは、メッセージサイズが制限を超えた場合に、大きなメッセージを外部storageに送信することをサポートします。一方、TiCDC は、外部storage内の大きなメッセージのアドレスを含むメッセージを Kafka に送信します。これにより、メッセージサイズが Kafka トピック制限を超えたために発生する変更フィード障害を回避できます。

構成例は次のとおりです。

[sink.kafka-config.large-message-handle]
# large-message-handle-option is introduced in v7.3.0.
# Defaults to "none". When the message size exceeds the limit, the changefeed fails.
# When set to "handle-key-only", if the message size exceeds the limit, only the handle key is sent in the data field. If the message size still exceeds the limit, the changefeed fails.
# When set to "claim-check", if the message size exceeds the limit, the message is sent to external storage.
large-message-handle-option = "claim-check"
claim-check-storage-uri = "s3://claim-check-bucket"

large-message-handle-option "claim-check"に設定する場合、 claim-check-storage-uri有効な外部storageアドレスに設定する必要があります。そうしないと、変更フィードの作成が失敗します。

ヒント
TiCDC における Amazon S3、GCS、Azure Blob Storage の URI パラメータの詳細については、外部ストレージサービスの URI 形式参照してください。

TiCDC は外部storageサービス上のメッセージをクリーンアップしません。データコンシューマーは外部storageサービスを独自に管理する必要があります。

外部storageから大きなメッセージを消費する

Kafka コンシューマーは、外部storage内の大きなメッセージのアドレスを含むメッセージを受信します。メッセージの形式は次のとおりです。

{
    "id": 0,
    "database": "test",
    "table": "tp_int",
    "pkNames": [
        "id"
    ],
    "isDdl": false,
    "type": "INSERT",
    "es": 1639633141221,
    "ts": 1639633142960,
    "sql": "",
    "sqlType": {
        "id": 4
    },
    "mysqlType": {
        "id": "int"
    },
    "data": [
        {
          "id": "2"
        }
    ],
    "old": null,
    "_tidb": {     // TiDB extension fields
        "commitTs": 429918007904436226,  // A TiDB TSO timestamp
        "claimCheckLocation": "s3:/claim-check-bucket/${uuid}.json"
    }
}

メッセージにclaimCheckLocationフィールドが含まれている場合、Kafka コンシューマーは、フィールドによって提供されるアドレスに従って、JSON 形式で保存された大きなメッセージデータを読み取ります。メッセージの形式は次のとおりです。

{
  key: "xxx",
  value: "xxx",
}

keyおよびvalueフィールドは、Kafka メッセージの同じ名前のフィールドに対応します。コンシューマーは、これらの 2 つのフィールドのデータを解析することで、元の大きなメッセージを取得できます。オープンプロトコルでエンコードされた Kafka メッセージのみ、 keyフィールドに有効なコンテンツが含まれます。TiCDC は、 keyとvalue両方を 1 つの JSON オブジェクトにエンコードして、完全なメッセージを一度に配信します。他のプロトコルの場合、 keyフィールドは常に空です。

`value`フィールドを外部storageにのみ送信する

v8.4.0 以降、TiCDC は Kafka メッセージのvalueフィールドのみを外部storageに送信することをサポートします。この機能は、非オープンプロトコルシナリオにのみ適用されます。この機能は、 claim-check-raw-valueパラメータ (デフォルトはfalseを設定することで制御できます。

注記：
オープンプロトコルを使用する場合、 claim-check-raw-value ～ trueに設定するとエラーが発生します。

claim-check-raw-value trueに設定すると、changefeed は Kafka メッセージのvalueフィールドを、 keyとvalueの追加の JSON シリアル化なしで外部storageに直接送信します。これにより、CPU オーバーヘッドが削減されます。さらに、コンシューマーは外部storageから直接消費可能なデータを読み取ることができるため、逆シリアル化のオーバーヘッドが削減されます。

構成例は次のとおりです。

protocol = "simple"

[sink.kafka-config.large-message-handle]
large-message-handle-option = "claim-check"
claim-check-storage-uri = "s3://claim-check-bucket"
claim-check-raw-value = true

Kafka にデータを複製する

レプリケーションタスクを作成する

サポートされている Kafka バージョン

Kafka のシンク URI を構成する

ベストプラクティス

TiCDCはKafkaの認証と認可を使用します

TiCDC を Kafka Connect (Confluent Platform) と統合する

TiCDC を AWS Glue スキーマレジストリと統合する

Kafka シンクのトピックおよびパーティションディスパッチャーのルールをカスタマイズする

マッチャールール

トピックディスパッチャ

DDLイベントをディスパッチする

スキーマレベルの DDL

テーブルレベルの DDL

パーティションディスパッチャ

カラムセレクター

単一の大きなテーブルの負荷を複数の TiCDC ノードにスケールアウトする

Kafkaトピックの制限を超えるメッセージを処理する

TiCDC データ圧縮

ハンドルキーのみ送信

ハンドルキーのみでメッセージを消費する

大きなメッセージを外部storageに送信する

外部storageから大きなメッセージを消費する

valueフィールドを外部storageにのみ送信する

このページは役に立ちましたか？

`value`フィールドを外部storageにのみ送信する