統計入門
TiDBは統計を使用してどのインデックスを選択するかを決定します。 tidb_analyze_version
変数は、TiDBによって収集される統計を制御します。現在、 tidb_analyze_version = 1
とtidb_analyze_version = 2
の2つのバージョンの統計がサポートされています。 v5.1.0より前のバージョンでは、この変数のデフォルト値は1
です。 v5.3.0以降のバージョンでは、この変数のデフォルト値は2
であり、これは実験的機能として機能します。クラスタがv5.3.0より前のバージョンからv5.3.0以降にアップグレードされた場合、デフォルト値のtidb_analyze_version
は変更されません。
ノート:
tidb_analyze_version = 2
の場合、ANALYZE
の実行後にメモリオーバーフローが発生した場合は、tidb_analyze_version = 1
を設定し、次のいずれかの操作を行う必要があります。
ANALYZE
ステートメントを手動で実行する場合は、分析するすべてのテーブルを手動で分析します。
select distinct(concat('ANALYZE ',table_schema, '.', table_name,';')) from information_schema.tables, mysql.stats_histograms where stats_ver = 2 and table_id = tidb_table_id ;自動分析が有効になっているためにTiDBが
ANALYZE
ステートメントを自動的に実行する場合は、次のステートメントを実行してDROP STATS
ステートメントを生成します。
select distinct(concat('DROP STATS ',table_schema, '.', table_name,';')) from information_schema.tables, mysql.stats_histograms where stats_ver = 2 and table_id = tidb_table_id ;
これらの2つのバージョンには、TiDBに異なる情報が含まれています。
情報 | バージョン1 | バージョン2 |
---|---|---|
テーブルの行の総数 | √ | √ |
列数-最小スケッチ | √ | ×× |
インデックスカウント-最小スケッチ | √ | ×× |
列Top-N | √ | √(メンテナンス方法と精度が向上) |
インデックストップ-N | √(メンテナンス精度が不十分な場合、不正確になる可能性があります) | √(メンテナンス方法と精度が向上) |
列ヒストグラム | √ | √(ヒストグラムにはTop-N値は含まれていません。) |
インデックスヒストグラム | √ | √(ヒストグラムバケットは各バケットの異なる値の数を記録し、ヒストグラムには上位N値は含まれません。) |
列のNULL の数 | √ | √ |
インデックス内のNULL の数 | √ | √ |
列の平均の長さ | √ | √ |
インデックスの平均の長さ | √ | √ |
バージョン1と比較して、バージョン2の統計は、データ量が膨大な場合にハッシュの衝突によって引き起こされる潜在的な不正確さを回避します。また、ほとんどのシナリオで推定精度を維持します。
このドキュメントでは、ヒストグラム、Count-Min Sketch、およびTop-Nを簡単に紹介し、統計の収集と保守について詳しく説明します。
ヒストグラム
ヒストグラムは、データの分布のおおよその表現です。値の全範囲を一連のバケットに分割し、単純なデータを使用して、バケットに含まれる値の数など、各バケットを記述します。 TiDBでは、各テーブルの特定の列に対して同じ深さのヒストグラムが作成されます。等深ヒストグラムを使用して、間隔クエリを推定できます。
ここで「等しい深さ」とは、各バケットに分類される値の数が可能な限り等しいことを意味します。たとえば、特定のセット{1.6、1.9、1.9、2.0、2.4、2.6、2.7、2.7、2.8、2.9、3.4、3.5}に対して、4つのバケットを生成するとします。等深ヒストグラムは次のとおりです。 4つのバケット[1.6、1.9]、[2.0、2.6]、[2.7、2.8]、[2.9、3.5]が含まれています。バケットの深さは3です。
ヒストグラムバケット数の上限を決定するパラメータの詳細については、 手動コレクションを参照してください。バケットの数が多いほど、ヒストグラムの精度が高くなります。ただし、精度が高くなると、メモリリソースの使用量が犠牲になります。この数値は、実際のシナリオに応じて適切に調整できます。
カウント-最小スケッチ
Count-MinSketchはハッシュ構造です。等価クエリにa = 1
つまたはIN
のクエリ(たとえば、 a in (1, 2, 3)
)が含まれている場合、TiDBはこのデータ構造を使用して推定します。
Count-Min Sketchはハッシュ構造であるため、ハッシュの衝突が発生する可能性があります。 EXPLAIN
ステートメントでは、同等のクエリの推定値が実際の値から大きく外れている場合、大きい値と小さい値が一緒にハッシュされていると見なすことができます。この場合、ハッシュの衝突を回避するために次のいずれかの方法をとることができます。
WITH NUM TOPN
パラメーターを変更します。 TiDBは、高周波(top x)データを個別に保存し、他のデータはCount-MinSketchに保存します。したがって、大きい値と小さい値が一緒にハッシュされるのを防ぐために、WITH NUM TOPN
の値を増やすことができます。 TiDBでは、デフォルト値は20です。最大値は1024です。このパラメーターの詳細については、 フルコレクションを参照してください。- 2つのパラメータ
WITH NUM CMSKETCH DEPTH
とWITH NUM CMSKETCH WIDTH
を変更します。どちらもハッシュバケットの数と衝突確率に影響します。実際のシナリオに従って2つのパラメーターの値を適切に増やして、ハッシュの衝突の可能性を減らすことができますが、統計のメモリ使用量が高くなります。 TiDBでは、デフォルト値のWITH NUM CMSKETCH DEPTH
は5で、デフォルト値のWITH NUM CMSKETCH WIDTH
は2048です。2つのパラメーターの詳細については、 フルコレクションを参照してください。
トップN値
Top-N値は、列またはインデックスの上位N個の値です。 TiDBは、Top-N値の値と発生を記録します。
統計を収集する
手動収集
ANALYZE
ステートメントを実行して、統計を収集できます。
ノート:
TiDBの実行時間
ANALYZE TABLE
は、MySQLまたはInnoDBの実行時間よりも長くなります。 InnoDBでは、少数のページのみがサンプリングされますが、TiDBでは、包括的な統計セットが完全に再構築されます。 MySQL用に作成されたスクリプトは、ANALYZE TABLE
が短期間の操作であると素朴に予想する場合があります。より迅速な分析のために、
tidb_enable_fast_analyze
から1
に設定して、クイック分析機能を有効にすることができます。このパラメーターのデフォルト値は0
です。クイック分析を有効にすると、TiDBは約10,000行のデータをランダムにサンプリングして統計を作成します。したがって、不均一なデータ分布や比較的少量のデータの場合、統計情報の精度は比較的低くなります。間違ったインデックスを選択するなど、実行計画が不十分になる可能性があります。通常の
ANALYZE
ステートメントの実行時間が許容できる場合は、クイック分析機能を無効にすることをお勧めします。
tidb_enable_fast_analyze
は実験的機能であり、現在tidb_analyze_version=2
の統計情報と正確には一致していません。したがって、tidb_enable_fast_analyze
が有効になっている場合は、tidb_analyze_version
から1
の値を設定する必要があります。
フルコレクション
次の構文を使用して、完全な収集を実行できます。
TableNameList
のすべてのテーブルの統計を収集するには:ANALYZE TABLE TableNameList [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];WITH NUM BUCKETS
は、生成されたヒストグラムのバケットの最大数を指定します。WITH NUM TOPN
は、生成されるTOPN
秒の最大数を指定します。WITH NUM CMSKETCH DEPTH
は、CMスケッチの深さを指定します。WITH NUM CMSKETCH WIDTH
は、CMスケッチの幅を指定します。WITH NUM SAMPLES
はサンプル数を指定します。WITH FLOAT_NUM SAMPLERATE
はサンプリングレートを指定します。
WITH NUM SAMPLES
とWITH FLOAT_NUM SAMPLERATE
は、サンプルを収集する2つの異なるアルゴリズムに対応します。
WITH NUM SAMPLES
は、サンプリングセットのサイズを指定します。これは、TiDBのリザーバーサンプリング方法で実装されます。テーブルが大きい場合、この方法を使用して統計を収集することはお勧めしません。リザーバーサンプリングの中間結果セットには冗長な結果が含まれているため、メモリなどのリソースに追加の圧力がかかります。WITH FLOAT_NUM SAMPLERATE
は、v5.3.0で導入されたサンプリング方法です。値の範囲が(0, 1]
の場合、このパラメーターはサンプリングレートを指定します。これは、TiDBでのベルヌーイサンプリングの方法で実装されます。これは、より大きなテーブルのサンプリングに適しており、収集効率とリソース使用量のパフォーマンスが向上します。
v5.3.0より前では、TiDBはリザーバーサンプリング方式を使用して統計を収集していました。 v5.3.0以降、TiDBバージョン2統計は、デフォルトでベルヌーイサンプリング法を使用して統計を収集します。貯留層サンプリング法を再利用するには、 WITH NUM SAMPLES
ステートメントを使用できます。
ノート:
現在のサンプリングレートは、適応アルゴリズムに基づいて計算されます。
SHOW STATS_META
を使用してテーブルの行数を確認できる場合、この行数を使用して、100,000行に対応するサンプリングレートを計算できます。この数値がわからない場合は、TABLE_STORAGE_STATS
表のTABLE_KEYS
列を別の参照として使用して、サンプリングレートを計算できます。通常、
STATS_META
はTABLE_KEYS
よりも信頼できます。ただし、 TiDB Lightningなどの方法でデータをインポートすると、STATS_META
の結果は0
になります。この状況を処理するために、STATS_META
の結果がTABLE_KEYS
の結果よりもはるかに小さい場合に、TABLE_KEYS
を使用してサンプリングレートを計算できます。
一部の列の統計を収集する
ほとんどの場合、SQLステートメントを実行するとき、オプティマイザーは一部の列( WHERE
、およびJOIN
GROUP BY
の列など)の統計のみを使用しORDER BY
。これらの列はPREDICATE COLUMNS
と呼ばれます。
テーブルに多くの列がある場合、すべての列の統計を収集すると、大きなオーバーヘッドが発生する可能性があります。オーバーヘッドを削減するために、オプティマイザーが使用する特定の列またはPREDICATE COLUMNS
つのみの統計を収集できます。
ノート:
一部の列の統計の収集は、
tidb_analyze_version = 2
にのみ適用されます。
特定の列の統計を収集するには、次の構文を使用します。
ANALYZE TABLE TableName COLUMNS ColumnNameList [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];構文では、
ColumnNameList
はターゲット列の名前リストを指定します。複数の列を指定する必要がある場合は、コンマ,
を使用して列名を区切ります。たとえば、ANALYZE table t columns a, b
。この構文は、特定のテーブルの特定の列の統計を収集するだけでなく、インデックス付きの列とそのテーブルのすべてのインデックスの統計を同時に収集します。ノート:
上記の構文は完全なコレクションです。たとえば、この構文を使用して列
a
とb
の統計を収集した後、列c
の統計も収集する場合は、ANALYZE TABLE t COLUMNS c
を使用して追加の列c
を指定するだけでなく、ANALYZE table t columns a, b, c
を使用して3つの列すべてを指定する必要があります。PREDICATE COLUMNS
の統計を収集するには、次のようにします。tidb_enable_column_tracking
システム変数の値をON
に設定して、TiDBがPREDICATE COLUMNS
を収集できるようにします。設定後、TiDBは100*
stats-lease
ごとにPREDICATE COLUMNS
の情報をmysql.column_stats_usage
のシステムテーブルに書き込みます。ビジネスのクエリパターンが比較的安定したら、次の構文を使用して
PREDICATE COLUMNS
の統計を収集します。ANALYZE TABLE TableName PREDICATE COLUMNS [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];この構文は、特定のテーブルの
PREDICATE COLUMNS
に関する統計を収集するだけでなく、インデックス付きの列とそのテーブル内のすべてのインデックスの統計を同時に収集します。ノート:
mysql.column_stats_usage
のシステムテーブルにそのテーブルのPREDICATE COLUMNS
のレコードが含まれていない場合、前述の構文は、そのテーブルのすべての列とすべてのインデックスの統計を収集します。- この構文を使用して統計を収集した後、新しいタイプのSQLクエリを実行すると、オプティマイザーはこの時点で一時的に古い列または疑似列の統計を使用する場合があり、TiDBは次回から使用された列の統計を収集します。
すべての列とインデックスの統計を収集するには、次の構文を使用します。
ANALYZE TABLE TableName ALL COLUMNS [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];
ANALYZE
ステートメント( COLUMNS ColumnNameList
、およびPREDICATE COLUMNS
を含む)の列構成を永続化する場合は、 tidb_persist_analyze_options
システム変数の値をALL COLUMNS
に設定して、 ON
機能を使用可能にANALYZE構成の永続性ます。 ANALYZE構成永続化機能を有効にした後:
- TiDBが統計を自動的に収集する場合、または列構成を指定せずに
ANALYZE
ステートメントを実行して統計を手動で収集する場合、TiDBは統計収集に以前に永続化された構成を引き続き使用します。 - 列構成を指定して
ANALYZE
ステートメントを手動で複数回実行すると、TiDBは、最新のANALYZE
ステートメントで指定された新しい構成を使用して、以前に記録された永続構成を上書きします。
統計が収集されたPREDICATE COLUMNS
列と列を見つけるには、次の構文を使用します。
SHOW COLUMN_STATS_USAGE [ShowLikeOrWhere];
SHOW COLUMN_STATS_USAGE
ステートメントは、次の6列を返します。
列名 | 説明 |
---|---|
Db_name | データベース名 |
Table_name | テーブル名 |
Partition_name | パーティション名 |
Column_name | 列名 |
Last_used_at | クエリ最適化で列統計が最後に使用されたとき |
Last_analyzed_at | カラム統計が最後に収集されたとき |
次の例では、 ANALYZE TABLE t PREDICATE COLUMNS;
を実行した後、 d
は列b
、およびc
の統計を収集します。ここで、列d
はb
で、列PREDICATE COLUMN
およびc
はインデックス列です。
SET GLOBAL tidb_enable_column_tracking = ON;
Query OK, 0 rows affected (0.00 sec)
CREATE TABLE t (a INT, b INT, c INT, d INT, INDEX idx_c_d(c, d));
Query OK, 0 rows affected (0.00 sec)
-- The optimizer uses the statistics on column b in this query.
SELECT * FROM t WHERE b > 1;
Empty set (0.00 sec)
-- After waiting for a period of time (100 * stats-lease), TiDB writes the collected `PREDICATE COLUMNS` to mysql.column_stats_usage.
-- Specify `last_used_at IS NOT NULL` to show the `PREDICATE COLUMNS` collected by TiDB.
SHOW COLUMN_STATS_USAGE WHERE db_name = 'test' AND table_name = 't' AND last_used_at IS NOT NULL;
+---------+------------+----------------+-------------+---------------------+------------------+
| Db_name | Table_name | Partition_name | Column_name | Last_used_at | Last_analyzed_at |
+---------+------------+----------------+-------------+---------------------+------------------+
| test | t | | b | 2022-01-05 17:21:33 | NULL |
+---------+------------+----------------+-------------+---------------------+------------------+
1 row in set (0.00 sec)
ANALYZE TABLE t PREDICATE COLUMNS;
Query OK, 0 rows affected, 1 warning (0.03 sec)
-- Specify `last_analyzed_at IS NOT NULL` to show the columns for which statistics have been collected.
SHOW COLUMN_STATS_USAGE WHERE db_name = 'test' AND table_name = 't' AND last_analyzed_at IS NOT NULL;
+---------+------------+----------------+-------------+---------------------+---------------------+
| Db_name | Table_name | Partition_name | Column_name | Last_used_at | Last_analyzed_at |
+---------+------------+----------------+-------------+---------------------+---------------------+
| test | t | | b | 2022-01-05 17:21:33 | 2022-01-05 17:23:06 |
| test | t | | c | NULL | 2022-01-05 17:23:06 |
| test | t | | d | NULL | 2022-01-05 17:23:06 |
+---------+------------+----------------+-------------+---------------------+---------------------+
3 rows in set (0.00 sec)
インデックスに関する統計を収集する
TableName
のIndexNameList
のすべてのインデックスの統計を収集するには、次の構文を使用します。
ANALYZE TABLE TableName INDEX [IndexNameList] [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];
IndexNameList
が空の場合、この構文はTableName
のすべてのインデックスの統計を収集します。
ノート:
収集の前後の統計情報に一貫性を持たせるために、
tidb_analyze_version
が2
の場合、この構文は、インデックスだけでなく、テーブル全体(すべての列とインデックスを含む)の統計を収集します。
パーティションに関する統計を収集する
TableName
のPartitionNameList
のすべてのパーティションの統計を収集するには、次の構文を使用します。ANALYZE TABLE TableName PARTITION PartitionNameList [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];TableName
のPartitionNameList
のすべてのパーティションのインデックス統計を収集するには、次の構文を使用します。ANALYZE TABLE TableName PARTITION PartitionNameList INDEX [IndexNameList] [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];テーブル内の一部のパーティションのうち一部の列の統計を収集するだけが必要な場合は、次の構文を使用します。
ANALYZE TABLE TableName PARTITION PartitionNameList [COLUMNS ColumnNameList|PREDICATE COLUMNS|ALL COLUMNS] [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];
インクリメンタルコレクション
完全収集後の分析速度を向上させるために、増分収集を使用して、時間列などの単調に減少しない列に新しく追加されたセクションを分析できます。
ノート:
- 現在、インクリメンタルコレクションはインデックス用にのみ提供されています。
- インクリメンタルコレクションを使用する場合は、テーブルに
INSERT
の操作のみが存在し、インデックス列に新しく挿入された値が単調に減少しないことを確認する必要があります。そうしないと、統計情報が不正確になり、TiDBオプティマイザが適切な実行プランを選択するのに影響を与える可能性があります。
次の構文を使用して、増分収集を実行できます。
TableName
分のIndexNameLists
すべてのインデックス列の統計を段階的に収集するには:ANALYZE INCREMENTAL TABLE TableName INDEX [IndexNameList] [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];TableName
分のPartitionNameLists
すべてのパーティションのインデックス列の統計を段階的に収集するには:ANALYZE INCREMENTAL TABLE TableName PARTITION PartitionNameList INDEX [IndexNameList] [WITH NUM BUCKETS|TOPN|CMSKETCH DEPTH|CMSKETCH WIDTH]|[WITH NUM SAMPLES|WITH FLOATNUM SAMPLERATE];
自動更新
INSERT
、またはDELETE
ステートメントの場合、 UPDATE
は行数と更新された行を自動的に更新します。 TiDBはこの情報を定期的に保持し、更新サイクルは20* stats-lease
です。デフォルト値のstats-lease
は3s
です。値を0
に指定すると、自動的に更新されません。
統計の自動更新に関連する3つのシステム変数は次のとおりです。
システム変数 | デフォルト値 | 説明 |
---|---|---|
tidb_auto_analyze_ratio | 0.5 | 自動更新のしきい値 |
tidb_auto_analyze_start_time | 00:00 +0000 | TiDBが自動更新を実行できる1日の開始時刻 |
tidb_auto_analyze_end_time | 23:59 +0000 | TiDBが自動更新を実行できる1日の終了時刻 |
テーブル内のtbl
の行の総数に対する変更された行の数の比率がtidb_auto_analyze_ratio
より大きく、現在の時刻がtidb_auto_analyze_start_time
の場合、 tidb_auto_analyze_end_time
はバックグラウンドでANALYZE TABLE tbl
ステートメントを実行して、この統計を自動的に更新します。テーブル。
ノート:
現在、自動更新では、マニュアル
ANALYZE
で入力された構成項目は記録されません。したがって、WITH
構文を使用してANALYZE
の収集動作を制御する場合は、統計を収集するためにスケジュールされたタスクを手動で設定する必要があります。
v5.0より前では、クエリを実行すると、TiDBはfeedback-probability
でフィードバックを収集し、フィードバックに基づいてヒストグラムとカウント最小スケッチを更新します。 v5.0以降、この機能はデフォルトで無効になっているため、この機能を有効にすることはお勧めしません。
ANALYZE
並行性を制御する
ANALYZE
ステートメントを実行する場合、次のパラメーターを使用して並行性を調整し、システムへの影響を制御できます。
tidb_build_stats_concurrency
現在、 ANALYZE
ステートメントを実行すると、タスクは複数の小さなタスクに分割されます。各タスクは、1つの列またはインデックスでのみ機能します。 tidb_build_stats_concurrency
パラメーターを使用して、同時タスクの数を制御できます。デフォルト値は4
です。
tidb_distsql_scan_concurrency
通常の列を分析する場合、 tidb_distsql_scan_concurrency
パラメーターを使用して、一度に読み取るリージョンの数を制御できます。デフォルト値は15
です。
tidb_index_serial_scan_concurrency
インデックス列を分析する場合、 tidb_index_serial_scan_concurrency
パラメーターを使用して、一度に読み取るリージョンの数を制御できます。デフォルト値は1
です。
ANALYZE構成を永続化する
v5.4.0以降、TiDBはいくつかのANALYZE
構成の永続化をサポートしています。この機能を使用すると、既存の構成を将来の統計収集に簡単に再利用できます。
永続性をサポートするANALYZE
の構成は次のとおりです。
構成 | 対応するANALYZE構文 |
---|---|
ヒストグラムバケットの数 | NUM個のバケット付き |
トップNの数 | NUMTOPN付き |
サンプル数 | NUMサンプル付き |
サンプリングレート | FLOATNUMSAMPLERATEを使用 |
ANALYZE 列タイプ | AnalyzeColumnOption :: =('ALL COLUMNS' |
ANALYZE 列 | ColumnNameList :: =識別子('、'識別子)* |
ANALYZE構成の永続性を有効にする
ANALYZE
構成永続化機能は、デフォルトで有効になっています(システム変数tidb_analyze_version
は2
で、 tidb_persist_analyze_options
はデフォルトでON
です)。この機能を使用して、ステートメントを手動で実行するときに、 ANALYZE
ステートメントで指定された永続性構成を記録できます。記録されると、次にTiDBが統計を自動的に更新するか、これらの構成を指定せずに手動で統計を収集すると、TiDBは記録された構成に従って統計を収集します。
永続性構成を指定してANALYZE
ステートメントを手動で複数回実行すると、TiDBは、最新のANALYZE
ステートメントで指定された新しい構成を使用して、以前に記録された永続性構成を上書きします。
ANALYZE構成の永続性を無効にする
ANALYZE
構成の永続化機能を無効にするには、 tidb_persist_analyze_options
システム変数をOFF
に設定します。 ANALYZE
構成の永続化機能はtidb_analyze_version = 1
には適用できないため、 tidb_analyze_version = 1
を設定すると機能を無効にすることもできます。
ANALYZE
構成の永続化機能を無効にした後、TiDBは永続化された構成レコードをクリアしません。したがって、この機能を再度有効にすると、TiDBは、以前に記録された永続的な構成を使用して統計を収集し続けます。
ノート:
ANALYZE
構成の永続性機能を再度有効にしたときに、以前に記録された永続性構成が最新のデータに適用できなくなった場合は、ANALYZE
ステートメントを手動で実行し、新しい永続性構成を指定する必要があります。
ANALYZE
状態を表示
ANALYZE
ステートメントを実行する場合、次のSQLステートメントを使用してANALYZE
の現在の状態を表示できます。
SHOW ANALYZE STATUS [ShowLikeOrWhere]
このステートメントは、 ANALYZE
の状態を返します。 ShowLikeOrWhere
を使用して、必要な情報をフィルタリングできます。
現在、 SHOW ANALYZE STATUS
ステートメントは次の7列を返します。
列名 | 説明 |
---|---|
table_schema | データベース名 |
table_name | テーブル名 |
partition_name | パーティション名 |
job_info | タスク情報。この要素には、インデックス分析の実行時にインデックス名が含まれます。 |
row_count | 分析された行の数 |
始まる時間 | タスクが開始する時刻 |
州 | pending 、 finished running を含むタスクのfailed |
統計を表示する
次のステートメントを使用して、統計ステータスを表示できます。
テーブルのメタデータ
SHOW STATS_META
ステートメントを使用して、行の総数と更新された行の数を表示できます。
SHOW STATS_META [ShowLikeOrWhere];
ShowLikeOrWhereOpt
の構文は次のとおりです。
現在、 SHOW STATS_META
ステートメントは次の6列を返します。
列名 | 説明 |
---|---|
db_name | データベース名 |
table_name | テーブル名 |
partition_name | パーティション名 |
update_time | 更新の時間 |
modify_count | 変更された行の数 |
row_count | 行の総数 |
ノート:
TiDBがDMLステートメントに従って行の総数と変更された行の数を自動的に更新すると、
update_time
も更新されます。したがって、update_time
は、ANALYZE
ステートメントが最後に実行された時刻を必ずしも示しているわけではありません。
テーブルのヘルス状態
SHOW STATS_HEALTHY
ステートメントを使用して、テーブルの正常性状態を確認し、統計の精度を大まかに見積もることができます。 modify_count
> = row_count
の場合、ヘルス状態は0です。 modify_count
< row_count
の場合、ヘルス状態は( modify_count
/ row_count
)*100です。
構文は次のとおりです。
SHOW STATS_HEALTHY [ShowLikeOrWhere];
SHOW STATS_HEALTHY
の概要は次のとおりです。
現在、 SHOW STATS_HEALTHY
ステートメントは次の4列を返します。
列名 | 説明 |
---|---|
db_name | データベース名 |
table_name | テーブル名 |
partition_name | パーティション名 |
healthy | テーブルのヘルス状態 |
列のメタデータ
SHOW STATS_HISTOGRAMS
ステートメントを使用して、すべての列のさまざまな値の数とNULL
の数を表示できます。
構文は次のとおりです。
SHOW STATS_HISTOGRAMS [ShowLikeOrWhere]
このステートメントは、すべての列の異なる値の数とNULL
の数を返します。 ShowLikeOrWhere
を使用して、必要な情報をフィルタリングできます。
現在、 SHOW STATS_HISTOGRAMS
ステートメントは次の10列を返します。
列名 | 説明 |
---|---|
db_name | データベース名 |
table_name | テーブル名 |
partition_name | パーティション名 |
column_name | 列名( is_index が0 の場合)またはインデックス名( is_index が1 の場合) |
is_index | インデックス列かどうか |
update_time | 更新の時間 |
distinct_count | 異なる値の数 |
null_count | NULL の数 |
avg_col_size | 列の平均の長さ |
相関 | 列のピアソン相関係数と、2つの列間の関連度を示す整数主キー |
ヒストグラムのバケット
SHOW STATS_BUCKETS
ステートメントを使用して、ヒストグラムの各バケットを表示できます。
構文は次のとおりです。
SHOW STATS_BUCKETS [ShowLikeOrWhere]
回路図は以下の通りです:
このステートメントは、すべてのバケットに関する情報を返します。 ShowLikeOrWhere
を使用して、必要な情報をフィルタリングできます。
現在、 SHOW STATS_BUCKETS
ステートメントは次の11列を返します。
列名 | 説明 |
---|---|
db_name | データベース名 |
table_name | テーブル名 |
partition_name | パーティション名 |
column_name | 列名( is_index が0 の場合)またはインデックス名( is_index が1 の場合) |
is_index | インデックス列かどうか |
bucket_id | バケットのID |
count | バケットと前のバケットに該当するすべての値の数 |
repeats | 最大値の発生数 |
lower_bound | 最小値 |
upper_bound | 最大値 |
ndv | バケット内の異なる値の数。 tidb_analyze_version = 1 の場合、 ndv は常に0 であり、実際の意味はありません。 |
トップN情報
SHOW STATS_TOPN
ステートメントを使用して、TiDBによって現在収集されているTop-N情報を表示できます。
構文は次のとおりです。
SHOW STATS_TOPN [ShowLikeOrWhere];
現在、 SHOW STATS_TOPN
ステートメントは次の7列を返します。
列名 | 説明 |
---|---|
db_name | データベース名 |
table_name | テーブル名 |
partition_name | パーティション名 |
column_name | 列名( is_index が0 の場合)またはインデックス名( is_index が1 の場合) |
is_index | インデックス列かどうか |
value | この列の値 |
count | 値が表示される回数 |
統計を削除する
DROP STATS
ステートメントを実行して、統計を削除できます。
構文は次のとおりです。
DROP STATS TableName
このステートメントは、 TableName
のすべてのテーブルの統計を削除します。
負荷統計
デフォルトでは、列統計のサイズに応じて、TiDBは次のように統計を異なる方法でロードします。
- 小さなスペース(count、distinctCount、nullCountなど)を消費する統計の場合、列データが更新されている限り、TiDBは対応する統計をメモリに自動的にロードしてSQL最適化段階で使用します。
- 大きなスペースを消費する統計(ヒストグラム、TopN、Count-Min Sketchなど)の場合、SQL実行のパフォーマンスを確保するために、TiDBはオンデマンドで統計を非同期にロードします。例としてヒストグラムを取り上げます。 TiDBは、オプティマイザがその列のヒストグラム統計を使用する場合にのみ、列のヒストグラム統計をメモリにロードします。オンデマンドの非同期統計ロードはSQL実行のパフォーマンスに影響を与えませんが、SQL最適化の統計が不完全になる可能性があります。
v5.4.0以降、TiDBは同期ロード統計機能を導入しています。この機能により、SQLステートメントの実行時にTiDBが大規模な統計(ヒストグラム、TopN、Count-Min Sketch統計など)をメモリに同期的にロードできるようになり、SQL最適化の統計の完全性が向上します。
統計の同期ロード機能はデフォルトで無効になっています。この機能を有効にするには、 tidb_stats_load_sync_wait
システム変数の値を、SQL最適化が完全な列統計を同期的にロードするために最大で待機できるタイムアウト(ミリ秒単位)に設定します。この変数のデフォルト値は0
で、機能が無効になっていることを示します。
同期ロード統計機能を有効にした後、次のように機能をさらに構成できます。
- SQL最適化の待機時間がタイムアウトに達したときのTiDBの動作を制御するには、
tidb_stats_load_pseudo_timeout
システム変数の値を変更します。この変数のデフォルト値はOFF
で、タイムアウト後にSQLの実行が失敗することを示します。この変数をON
に設定すると、タイムアウト後、SQL最適化プロセスはどの列にもヒストグラム、TopN、またはCMSketch統計を使用しませんが、疑似統計の使用に戻ります。 - 同期ロード統計機能が同時に処理できる列の最大数を指定するには、TiDB構成ファイルの
stats-load-concurrency
オプションの値を変更します。デフォルト値は5
です。 - 同期ロード統計機能がキャッシュできる列要求の最大数を指定するには、TiDB構成ファイルの
stats-load-queue-size
オプションの値を変更します。デフォルト値は1000
です。
統計のインポートとエクスポート
統計のエクスポート
統計をエクスポートするためのインターフェースは次のとおりです。
${db_name}
データベースの${table_name}
テーブルのJSON形式の統計を取得するには:http://${tidb-server-ip}:${tidb-server-status-port}/stats/dump/${db_name}/${table_name}例えば:
curl -s http://127.0.0.1:10080/stats/dump/test/t1 -o /tmp/t1.json特定の時間に
${db_name}
データベースの${table_name}
テーブルのJSON形式の統計を取得するには:http://${tidb-server-ip}:${tidb-server-status-port}/stats/dump/${db_name}/${table_name}/${yyyyMMddHHmmss}
統計のインポート
ノート:
MySQLクライアントを起動するときは、
--local-infile=1
オプションを使用します。
通常、インポートされた統計は、エクスポートインターフェイスを使用して取得されたJSONファイルを参照します。
構文:
LOAD STATS 'file_name'
file_name
は、インポートする統計のファイル名です。