文字セットと照合順序

このドキュメントでは、TiDB でサポートされている文字セットと照合順序について説明します。

概念

文字セットとは、記号とエンコーディングの集合です。TiDBのデフォルトの文字セットはutf8mb4で、これはMySQL 8.0以降のデフォルトの文字セットと一致します。

照合順序とは、文字セット内の文字を比較するための規則と、文字の並び順のことです。例えば、バイナリ照合順序では、 Aとa等しいとみなされません。

SET NAMES utf8mb4 COLLATE utf8mb4_bin;
SELECT 'A' = 'a';
SET NAMES utf8mb4 COLLATE utf8mb4_general_ci;
SELECT 'A' = 'a';

SELECT 'A' = 'a';

+-----------+
| 'A' = 'a' |
+-----------+
|         0 |
+-----------+
1 row in set (0.00 sec)

SET NAMES utf8mb4 COLLATE utf8mb4_general_ci;

Query OK, 0 rows affected (0.00 sec)

SELECT 'A' = 'a';

+-----------+
| 'A' = 'a' |
+-----------+
|         1 |
+-----------+
1 row in set (0.00 sec)

次の例は、異なるUnicode照合順序がドイツ語のßとssどのように比較するかを示しています。より厳密なUnicode照合順序のみがこれらを同等とみなし、 1 （つまりTRUE）を返すことがわかります。

SELECT
  'ss' COLLATE utf8mb4_general_ci = 'ß',
  'ss' COLLATE utf8mb4_unicode_ci = 'ß',
  'ss' COLLATE utf8mb4_0900_ai_ci = 'ß',
  'ss' COLLATE utf8mb4_0900_bin = 'ß'
\G

*************************** 1. row ***************************
'ss' COLLATE utf8mb4_general_ci = 'ß': 0
'ss' COLLATE utf8mb4_unicode_ci = 'ß': 1
'ss' COLLATE utf8mb4_0900_ai_ci = 'ß': 1
  'ss' COLLATE utf8mb4_0900_bin = 'ß': 0
1 row in set (0.01 sec)

文字セットと照合順序の命名

文字セットには、 <character_set>_<collation_properties>形式で命名された複数の照合順序を設定できます。例えば、 utf8mb4文字セットにはutf8mb4_binという照合順序があり、これはutf8mb4バイナリ照合順序です。複数の照合順序プロパティをアンダースコア ( _ ) で区切って名前に含めることができます。

次の表は、一般的な照合順序プロパティと意味を示しています。

照合プロパティ	意味
`_bin`	バイナリ
`_ci`	大文字と小文字を区別しない
`_ai_ci`	アクセント、大文字と小文字を区別しない
`_0900_bin`	Unicode UCA 9.0.0、バイナリ
`_unicode_ci`	（古い）Unicode UCA照合順序、大文字と小文字を区別しない
`_general_ci`	Unicode照合順序はそれほど厳密ではなく、大文字と小文字を区別しません

TiDB でサポートされている文字セットと照合順序

現在、TiDB は次の文字セットをサポートしています。

SHOW CHARACTER SET;

+---------+-------------------------------------+-------------------+--------+
| Charset | Description                         | Default collation | Maxlen |
+---------+-------------------------------------+-------------------+--------+
| ascii   | US ASCII                            | ascii_bin         |      1 |
| binary  | binary                              | binary            |      1 |
| gbk     | Chinese Internal Code Specification | gbk_chinese_ci    |      2 |
| latin1  | Latin1                              | latin1_bin        |      1 |
| utf8    | UTF-8 Unicode                       | utf8_bin          |      3 |
| utf8mb4 | UTF-8 Unicode                       | utf8mb4_bin       |      4 |
+---------+-------------------------------------+-------------------+--------+
6 rows in set (0.00 sec)

TiDB は次の照合をサポートしています。

SHOW COLLATION;

+--------------------+---------+-----+---------+----------+---------+---------------+
| Collation          | Charset | Id  | Default | Compiled | Sortlen | Pad_attribute |
+--------------------+---------+-----+---------+----------+---------+---------------+
| ascii_bin          | ascii   |  65 | Yes     | Yes      |       1 | PAD SPACE     |
| binary             | binary  |  63 | Yes     | Yes      |       1 | NO PAD        |
| gbk_bin            | gbk     |  87 |         | Yes      |       1 | PAD SPACE     |
| gbk_chinese_ci     | gbk     |  28 | Yes     | Yes      |       1 | PAD SPACE     |
| latin1_bin         | latin1  |  47 | Yes     | Yes      |       1 | PAD SPACE     |
| utf8_bin           | utf8    |  83 | Yes     | Yes      |       1 | PAD SPACE     |
| utf8_general_ci    | utf8    |  33 |         | Yes      |       1 | PAD SPACE     |
| utf8_unicode_ci    | utf8    | 192 |         | Yes      |       8 | PAD SPACE     |
| utf8mb4_0900_ai_ci | utf8mb4 | 255 |         | Yes      |       0 | NO PAD        |
| utf8mb4_0900_bin   | utf8mb4 | 309 |         | Yes      |       1 | NO PAD        |
| utf8mb4_bin        | utf8mb4 |  46 | Yes     | Yes      |       1 | PAD SPACE     |
| utf8mb4_general_ci | utf8mb4 |  45 |         | Yes      |       1 | PAD SPACE     |
| utf8mb4_unicode_ci | utf8mb4 | 224 |         | Yes      |       8 | PAD SPACE     |
+--------------------+---------+-----+---------+----------+---------+---------------+
13 rows in set (0.00 sec)

警告

TiDBはlatin1をutf8のサブセットとして誤って扱います。そのため、latin1とutf8のエンコーディング間で異なる文字を格納すると、予期しない動作が発生する可能性があります。utf8mb4文字セットの使用を強くお勧めします。詳細はTiDB #18955ご覧ください。

注記：
TiDBのデフォルトの照合順序（サフィックスが_binであるバイナリ照合順序）は、 MySQLのデフォルトの照合順序（サフィックスが_general_ciまたは_ai_ciである一般的な照合順序）とは異なります。そのため、明示的に文字セットを指定しても暗黙的にデフォルトの照合照合順序が選択されることに依存する場合、互換性のない動作が発生する可能性があります。
ただし、TiDB のデフォルトの照合順序は、クライアントの接続照合順序設定にも影響されます。例えば、MySQL 8.x クライアントでは、 utf8mb4文字セットの接続照合順序はデフォルトでutf8mb4_0900_ai_ciに設定されています。
TiDB v7.4.0 より前では、クライアントがutf8mb4_0900_ai_ci 接続照合順序として使用すると、TiDB はutf8mb4_0900_ai_ci照合順序をサポートしていないため、TiDB は TiDBサーバーのデフォルトの照合照合順序utf8mb4_bin使用します。
v7.4.0 以降、クライアントが接続照合順序としてutf8mb4_0900_ai_ci使用する場合、TiDB はクライアントの構成に従って、デフォルトの照合順序としてutf8mb4_0900_ai_ci使用します。

次のステートメントを使用すると、文字セットに対応する照合順序 ( 照合のための新しいフレームワーク下) を表示できます。

SHOW COLLATION WHERE Charset = 'utf8mb4';

+--------------------+---------+-----+---------+----------+---------+---------------+
| Collation          | Charset | Id  | Default | Compiled | Sortlen | Pad_attribute |
+--------------------+---------+-----+---------+----------+---------+---------------+
| utf8mb4_0900_ai_ci | utf8mb4 | 255 |         | Yes      |       0 | NO PAD        |
| utf8mb4_0900_bin   | utf8mb4 | 309 |         | Yes      |       1 | NO PAD        |
| utf8mb4_bin        | utf8mb4 |  46 | Yes     | Yes      |       1 | PAD SPACE     |
| utf8mb4_general_ci | utf8mb4 |  45 |         | Yes      |       1 | PAD SPACE     |
| utf8mb4_unicode_ci | utf8mb4 | 224 |         | Yes      |       8 | PAD SPACE     |
+--------------------+---------+-----+---------+----------+---------+---------------+
5 rows in set (0.001 sec)

GBK 文字セットの TiDB サポートの詳細については、 GBK参照してください。

TiDB の`utf8`と`utf8mb4`

MySQLでは、文字セットutf8最大3バイトに制限されています。これは基本多言語面（BMP）の文字を格納するには十分ですが、絵文字などの文字を格納するには不十分です。新規インストールの場合は、文字セットutf8mb4使用し、文字セットutf8から移行することをお勧めします。

MySQL と TiDB の両方で、 utf8とutf8mb3同じ文字セットのエイリアスです。

TiDBはデフォルトで、文字セットutf8を最大3バイトに制限しています。これは、TiDBで作成されたデータがMySQLで安全に復元できることを保証するためです。システム変数tidb_check_mb4_value_in_utf8の値をOFFに変更することで、この制限を無効にすることができます。ただし、完全なUnicodeサポートと高い互換性のためには、代わりにutf8mb4使用することをお勧めします。

以下は、4バイトの絵文字をテーブルに挿入する際のデフォルトの動作を示しています。1 INSERT文はutf8文字セットでは失敗しますが、 utf8mb4の文では成功します。

CREATE TABLE utf8_test (
     c char(1) NOT NULL
    ) CHARACTER SET utf8;

Query OK, 0 rows affected (0.09 sec)

CREATE TABLE utf8m4_test (
     c char(1) NOT NULL
    ) CHARACTER SET utf8mb4;

Query OK, 0 rows affected (0.09 sec)

INSERT INTO utf8_test VALUES ('😉');

ERROR 1366 (HY000): incorrect utf8 value f09f9889(😉) for column c

INSERT INTO utf8m4_test VALUES ('😉');

Query OK, 1 row affected (0.02 sec)

SELECT char_length(c), length(c), c FROM utf8_test;

Empty set (0.01 sec)

SELECT char_length(c), length(c), c FROM utf8m4_test;

+----------------+-----------+------+
| char_length(c) | length(c) | c    |
+----------------+-----------+------+
|              1 |         4 | 😉     |
+----------------+-----------+------+
1 row in set (0.00 sec)

異なるレイヤーでの文字セットと照合順序

文字セットと照合順序は異なるレイヤーで設定できます。

データベースの文字セットと照合順序

各データベースには文字セットと照合順序があります。次の文を使用して、データベースの文字セットと照合順序を指定できます。

CREATE DATABASE db_name
    [[DEFAULT] CHARACTER SET charset_name]
    [[DEFAULT] COLLATE collation_name]

ALTER DATABASE db_name
    [[DEFAULT] CHARACTER SET charset_name]
    [[DEFAULT] COLLATE collation_name]

ここでDATABASE SCHEMAに置き換えることができます。

データベースによって文字セットと照合順序が異なる場合があります。現在のデータベースの文字セットと照合順序を確認するには、 character_set_databaseとcollation_database使用します。

CREATE SCHEMA test1 CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;

Query OK, 0 rows affected (0.09 sec)

USE test1;

Database changed

SELECT @@character_set_database, @@collation_database;

+--------------------------|----------------------+
| @@character_set_database | @@collation_database |
+--------------------------|----------------------+
| utf8mb4                  | utf8mb4_general_ci   |
+--------------------------|----------------------+
1 row in set (0.00 sec)

CREATE SCHEMA test2 CHARACTER SET latin1 COLLATE latin1_bin;

Query OK, 0 rows affected (0.09 sec)

USE test2;

Database changed

SELECT @@character_set_database, @@collation_database;

+--------------------------|----------------------+
| @@character_set_database | @@collation_database |
+--------------------------|----------------------+
| latin1                   | latin1_bin           |
+--------------------------|----------------------+
1 row in set (0.00 sec)

INFORMATION_SCHEMAには次の 2 つの値も表示されます。

SELECT DEFAULT_CHARACTER_SET_NAME, DEFAULT_COLLATION_NAME
FROM INFORMATION_SCHEMA.SCHEMATA WHERE SCHEMA_NAME = 'db_name';

表の文字セットと照合順序

次のステートメントを使用して、テーブルの文字セットと照合順序を指定できます。

CREATE TABLE tbl_name (column_list)
    [[DEFAULT] CHARACTER SET charset_name]
    [COLLATE collation_name]]

ALTER TABLE tbl_name
    [[DEFAULT] CHARACTER SET charset_name]
    [COLLATE collation_name]

例えば：

CREATE TABLE t1(a int) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;

Query OK, 0 rows affected (0.08 sec)

テーブルの文字セットと照合順序が指定されていない場合、データベースの文字セットと照合順序がデフォルト値として使用されます。照合順序を指定せずに文字セットのみをutf8mb4と指定した場合、照合順序はシステム変数default_collation_for_utf8mb4値によって決定されます。

カラムの文字セットと照合順序

次のステートメントを使用して、列の文字セットと照合順序を指定できます。

col_name {CHAR | VARCHAR | TEXT} (col_length)
    [CHARACTER SET charset_name]
    [COLLATE collation_name]

col_name {ENUM | SET} (val_list)
    [CHARACTER SET charset_name]
    [COLLATE collation_name]

列の文字セットと照合順序が指定されていない場合、テーブルの文字セットと照合順序がデフォルト値として使用されます。照合順序を指定せずに文字セットのみをutf8mb4に指定した場合、照合順序はシステム変数default_collation_for_utf8mb4値によって決定されます。

文字列の文字セットと照合順序

各文字列は文字セットと照合順序に対応しています。文字列を使用する場合、このオプションが利用可能です。

[_charset_name]'string' [COLLATE collation_name]

例：

SELECT 'string';
SELECT _utf8mb4'string';
SELECT _utf8mb4'string' COLLATE utf8mb4_general_ci;

ルール:

ルール 1: CHARACTER SET charset_nameとCOLLATE collation_name指定すると、 charset_name文字セットとcollation_name照合順序が直接使用されます。
ルール 2: CHARACTER SET charset_name指定してCOLLATE collation_name指定しない場合は、 charset_name文字セットとデフォルトの照合順序charset_nameが使用されます。
ルール 3: CHARACTER SET charset_nameもCOLLATE collation_name指定しない場合は、システム変数character_set_connectionとcollation_connectionで指定された文字セットと照合順序が使用されます。

クライアント接続の文字セットと照合順序

サーバーの文字セットと照合順序は、システム変数character_set_serverとcollation_serverの値です。
デフォルトデータベースの文字セットと照合順序は、システム変数character_set_databaseとcollation_databaseの値です。

character_set_connectionとcollation_connection 、各接続の文字セットと照合順序を指定するために使用できます。5 character_set_client 、クライアントの文字セットを設定するための変数です。

結果を返す前に、 character_set_resultsシステム変数は、結果のメタデータを含む、サーバーがクライアントにクエリ結果を返す文字セットを示します。

次のステートメントを使用して、クライアントに関連する文字セットと照合順序を設定できます。

SET NAMES 'charset_name' [COLLATE 'collation_name']
SET NAMES 、クライアントがサーバーに SQL ステートメントを送信するために使用する文字セットを示します。2 SET NAMES utf8mb4 、クライアントからのすべてのリクエストとサーバーからの結果に utf8mb4 が使用されることを示します。
SET NAMES 'charset_name'文は次の文の組み合わせと同等です。
```
SET character_set_client = charset_name;
SET character_set_results = charset_name;
SET character_set_connection = charset_name;
```
COLLATEはオプションです。指定しない場合は、デフォルトの照合順序charset_nameを使用してcollation_connection設定されます。

SET CHARACTER SET 'charset_name'

SET NAMESと同様に、 SET NAMES 'charset_name'ステートメントは次のステートメントの組み合わせと同等です。

SET character_set_client = charset_name;
SET character_set_results = charset_name;
SET character_set_connection=@@character_set_database;
SET collation_connection = @@collation_database;

文字セットと照合順序の選択優先順位

文字列 >カラム> テーブル > データベース > サーバー

文字セットと照合順序の選択に関する一般的なルール

ルール 1: CHARACTER SET charset_nameとCOLLATE collation_name指定すると、 charset_name文字セットとcollation_name照合順序が直接使用されます。
ルール 2: CHARACTER SET charset_name指定し、 COLLATE collation_name指定しない場合は、 charset_name文字セットとデフォルトの照合順序charset_nameが使用されます。
ルール 3: CHARACTER SET charset_nameもCOLLATE collation_nameも指定しない場合は、最適化レベルが高い文字セットと照合順序が使用されます。

文字の有効性チェック

指定された文字セットがutf8またはutf8mb4場合、TiDB は有効なutf8文字のみをサポートします。無効な文字の場合、TiDB はincorrect utf8 valueエラーを報告します。TiDB のこの文字の有効性チェックは MySQL 8.0 と互換性がありますが、 MySQL 5.7以前のバージョンとは互換性がありません。

このエラー報告を無効にするには、 set @@tidb_skip_utf8_check=1;使用して文字チェックをスキップします。

注記：
文字チェックを省略すると、TiDBはアプリケーションによって書き込まれた不正なUTF-8文字を検出できず、 ANALYZE実行時にデコードエラーが発生し、その他の未知のエンコード問題が発生する可能性があります。アプリケーションが書き込まれた文字列の有効性を保証できない場合は、文字チェックを省略することは推奨されません。

照合サポートフレームワーク

v4.0 より前のバージョンでは、 TiDB は照合のための古いフレームワークのみを提供していました。このフレームワークでは、 TiDB は MySQL 照合順序のほとんどを構文的に解析することをサポートしていますが、意味的にはすべての照合順序をバイナリ照合順序として扱います。

TiDBはv4.0以降、照合のための新しいフレームワークサポートしています。このフレームワークでは、TiDBは異なる照合順序を意味的に解析し、文字列を比較する際には照合順序に厳密に従います。

照合のための古いフレームワーク

v4.0より前のバージョンでは、TiDBでMySQLのほとんどの照合順序を指定でき、これらの照合順序はデフォルトの照合順序に従って処理されます。つまり、バイト順序によって文字順序が決定されます。MySQLとは異なり、TiDBは文字末尾のスペースを処理しないため、以下の動作の違いが生じます。

CREATE TABLE t(a varchar(20) charset utf8mb4 collate utf8mb4_general_ci PRIMARY KEY);

Query OK, 0 rows affected

INSERT INTO t VALUES ('A');

Query OK, 1 row affected

INSERT INTO t VALUES ('a');

Query OK, 1 row affected

TiDBでは、上記の文は正常に実行されます。MySQLでは、 utf8mb4_general_ci大文字と小文字を区別しないため、 Duplicate entry 'a'エラーが報告されます。

INSERT INTO t1 VALUES ('a ');

Query OK, 1 row affected

TiDBでは、上記の文は正常に実行されます。MySQLでは、スペースを埋めてから比較が行われるため、エラーDuplicate entry 'a 'が返されます。

照合のための新しいフレームワーク

TiDB v4.0 以降では、照合のための完全なフレームワークが導入されています。

この新しいフレームワークは、照合順序の意味的な解析をサポートします。TiDB は、クラスターが最初に初期化されるときに、この新しいフレームワークをデフォルトで有効にします。

新しいフレームワークでは、TiDB は MySQL と互換性のあるutf8_general_ci 、 utf8mb4_general_ci 、 utf8_unicode_ci 、 utf8mb4_unicode_ci 、 utf8mb4_0900_bin 、 utf8mb4_0900_ai_ci 、 gbk_chinese_ci 、およびgbk_bin照合をサポートします。

utf8_general_ci 、 utf8mb4_general_ci 、 utf8_unicode_ci 、 utf8mb4_unicode_ci 、 utf8mb4_0900_ai_ci 、 gbk_chinese_ciのいずれかが使用される場合、文字列比較は大文字と小文字を区別せず、アクセントも区別しません。同時に、TiDBは照合順序のPADDING動作も修正します。

CREATE TABLE t(a varchar(20) charset utf8mb4 collate utf8mb4_general_ci PRIMARY KEY);

Query OK, 0 rows affected (0.00 sec)

INSERT INTO t VALUES ('A');

Query OK, 1 row affected (0.00 sec)

INSERT INTO t VALUES ('a');

ERROR 1062 (23000): Duplicate entry 'a' for key 't.PRIMARY' -- TiDB is compatible with the case-insensitive collation of MySQL.

INSERT INTO t VALUES ('a ');

ERROR 1062 (23000): Duplicate entry 'a ' for key 't.PRIMARY' -- TiDB modifies the `PADDING` behavior to be compatible with MySQL.

注記：
TiDBにおけるパディングの実装はMySQLとは異なります。MySQLでは、パディングはスペースを埋めることで実装されます。TiDBでは、パディングは末尾のスペースを切り取ることで実装されます。2つのアプローチはほとんどの場合同じです。唯一の例外は、文字列の末尾にスペース（0x20）未満の文字が含まれている場合です。例えば、TiDBでは'a' < 'a\t'の結果は1なりますが、MySQLでは'a' < 'a\t' 'a ' < 'a\t'と同等であり、結果は0なります。

式内の照合順序の強制値

式に異なる照合順序を持つ複数の節が含まれる場合、計算で使用される照合順序を推測する必要があります。そのルールは以下のとおりです。

明示的なCOLLATE節の強制可能性値は0です。
2 つの文字列の照合順序に互換性がない場合は、異なる照合順序を持つ 2 つの文字列の連結の強制可能性値は1なります。
列の照合順序CAST() 、 CONVERT() 、またはBINARY()の強制値は2です。
システム定数 ( USER ()またはVERSION ()によって返される文字列) の強制値は3です。
定数の強制値は4です。
数値または中間変数の強制値は5です。
NULLまたはNULLから派生した式の強制値は6です。

TiDBは照合順序を推論する際に、強制性値の低い式の照合順序を優先的に使用します。2つの句の強制性値が同じ場合、以下の優先順位に従って照合順序が決定されます。

バイナリ > utf8mb4_bin > (utf8mb4_general_ci = utf8mb4_unicode_ci) > utf8_bin > (utf8_general_ci = utf8_unicode_ci) > latin1_bin > ascii_bin

次の状況では、TiDB は照合順序を推測できず、エラーを報告します。

2 つの句の照合順序が異なり、両方の句の強制可能性値が0場合。
2 つの句の照合順序に互換性がなく、返される式の型がString場合。

`COLLATE`句

TiDBは、式の照合順序を指定するためにCOLLATE句の使用をサポートしています。この式の強制値は0 、これが最高の優先度です。次の例をご覧ください。

SELECT 'a' = _utf8mb4 'A' collate utf8mb4_general_ci;

+-----------------------------------------------+
| 'a' = _utf8mb4 'A' collate utf8mb4_general_ci |
+-----------------------------------------------+
|                                             1 |
+-----------------------------------------------+
1 row in set (0.00 sec)

詳細については接続文字セットと照合順序参照してください。