- TiDBについて
- クイックスタート
- 発展させる
- 概要
- クイックスタート
- TiDB CloudでTiDBクラスターを構築する(DevTier)
- TiDBのCRUDSQL
- TiDBを使用してシンプルなCRUDアプリを構築する
- アプリケーション例
- TiDBに接続する
- データベーススキーマの設計
- データの書き込み
- データの読み取り
- 取引
- 最適化
- トラブルシューティング
- 参照
- デプロイ
- 移行する
- 管理
- 監視と警告
- トラブルシューティング
- TiDBトラブルシューティングマップ
- 遅いクエリを特定する
- 遅いクエリを分析する
- SQL診断
- Top SQLを使用して高価なクエリを特定する
- ログを使用して高価なクエリを特定する
- ステートメント要約表
- ホットスポットの問題のトラブルシューティング
- 読み取りと書き込みの待ち時間の増加のトラブルシューティング
- クラスタのオンサイト情報を保存および復元する
- クラスタセットアップのトラブルシューティング
- 高いディスクI/O使用量のトラブルシューティング
- ロックの競合のトラブルシューティング
- TiFlashのトラブルシューティング
- 楽観的なトランザクションでの書き込みの競合のトラブルシューティング
- データとインデックス間の不整合のトラブルシューティング
- 性能チューニング
- チューニングガイド
- Configuration / コンフィグレーションの調整
- システムチューニング
- ソフトウェアのチューニング
- SQLチューニング
- チュートリアル
- TiDBツール
- 概要
- ユースケース
- ダウンロード
- TiUP
- ドキュメントマップ
- 概要
- 用語と概念
- TiUPコンポーネントを管理する
- FAQ
- トラブルシューティングガイド
- コマンドリファレンス
- 概要
- TiUPコマンド
- TiUPクラスターコマンド
- 概要
- tiup cluster audit
- tiup cluster check
- tiup cluster clean
- tiup cluster deploy
- tiup cluster destroy
- tiup cluster disable
- tiup cluster display
- tiup cluster edit-config
- tiup cluster enable
- tiup cluster help
- tiup cluster import
- tiup cluster list
- tiup cluster patch
- tiup cluster prune
- tiup cluster reload
- tiup cluster rename
- tiup cluster replay
- tiup cluster restart
- tiup cluster scale-in
- tiup cluster scale-out
- tiup cluster start
- tiup cluster stop
- tiup cluster template
- tiup cluster upgrade
- TiUPDMコマンド
- 概要
- tiup dm audit
- tiup dm deploy
- tiup dm destroy
- tiup dm disable
- tiup dm display
- tiup dm edit-config
- tiup dm enable
- tiup dm help
- tiup dm import
- tiup dm list
- tiup dm patch
- tiup dm prune
- tiup dm reload
- tiup dm replay
- tiup dm restart
- tiup dm scale-in
- tiup dm scale-out
- tiup dm start
- tiup dm stop
- tiup dm template
- tiup dm upgrade
- TiDBクラスタートポロジリファレンス
- DMクラスタートポロジリファレンス
- ミラーリファレンスガイド
- TiUPコンポーネント
- PingCAPクリニック診断サービス(テクニカルプレビュー)
- TiDB Operator
- Dumpling
- TiDB Lightning
- TiDBデータ移行
- TiDBデータ移行について
- クイックスタート
- DMクラスタをデプロイする
- チュートリアル
- 高度なチュートリアル
- シャーディングされたテーブルからのデータのマージと移行
- GH-ost/PT-oscを使用するMySQLデータベースからの移行
- より多くの列を持つダウンストリームTiDBテーブルにデータを移行する
- 管理
- 参照
- 例
- トラブルシューティング
- リリースノート
- バックアップと復元(BR)
- TiDB Binlog
- TiCDC
- Dumpling
- sync-diff-inspector
- TiSpark
- 参照
- クラスターアーキテクチャ
- 主要な監視指標
- セキュリティ
- 権限
- SQL
- SQL言語の構造と構文
- SQLステートメント
ADD COLUMN
ADD INDEX
ADMIN
ADMIN CANCEL DDL
ADMIN CHECKSUM TABLE
ADMIN CHECK [TABLE|INDEX]
ADMIN SHOW DDL [JOBS|QUERIES]
ADMIN SHOW TELEMETRY
ALTER DATABASE
ALTER INDEX
ALTER INSTANCE
ALTER PLACEMENT POLICY
ALTER TABLE
ALTER USER
ANALYZE TABLE
BACKUP
BATCH
BEGIN
CHANGE COLUMN
COMMIT
CHANGE DRAINER
CHANGE PUMP
CREATE [GLOBAL|SESSION] BINDING
CREATE DATABASE
CREATE INDEX
CREATE PLACEMENT POLICY
CREATE ROLE
CREATE SEQUENCE
CREATE TABLE LIKE
CREATE TABLE
CREATE USER
CREATE VIEW
DEALLOCATE
DELETE
DESC
DESCRIBE
DO
DROP [GLOBAL|SESSION] BINDING
DROP COLUMN
DROP DATABASE
DROP INDEX
DROP PLACEMENT POLICY
DROP ROLE
DROP SEQUENCE
DROP STATS
DROP TABLE
DROP USER
DROP VIEW
EXECUTE
EXPLAIN ANALYZE
EXPLAIN
FLASHBACK TABLE
FLUSH PRIVILEGES
FLUSH STATUS
FLUSH TABLES
GRANT <privileges>
GRANT <role>
INSERT
KILL [TIDB]
LOAD DATA
LOAD STATS
MODIFY COLUMN
PREPARE
RECOVER TABLE
RENAME INDEX
RENAME TABLE
REPLACE
RESTORE
REVOKE <privileges>
REVOKE <role>
ROLLBACK
SELECT
SET DEFAULT ROLE
SET [NAMES|CHARACTER SET]
SET PASSWORD
SET ROLE
SET TRANSACTION
SET [GLOBAL|SESSION] <variable>
SHOW ANALYZE STATUS
SHOW [BACKUPS|RESTORES]
SHOW [GLOBAL|SESSION] BINDINGS
SHOW BUILTINS
SHOW CHARACTER SET
SHOW COLLATION
SHOW [FULL] COLUMNS FROM
SHOW CONFIG
SHOW CREATE PLACEMENT POLICY
SHOW CREATE SEQUENCE
SHOW CREATE TABLE
SHOW CREATE USER
SHOW DATABASES
SHOW DRAINER STATUS
SHOW ENGINES
SHOW ERRORS
SHOW [FULL] FIELDS FROM
SHOW GRANTS
SHOW INDEX [FROM|IN]
SHOW INDEXES [FROM|IN]
SHOW KEYS [FROM|IN]
SHOW MASTER STATUS
SHOW PLACEMENT
SHOW PLACEMENT FOR
SHOW PLACEMENT LABELS
SHOW PLUGINS
SHOW PRIVILEGES
SHOW [FULL] PROCESSSLIST
SHOW PROFILES
SHOW PUMP STATUS
SHOW SCHEMAS
SHOW STATS_HEALTHY
SHOW STATS_HISTOGRAMS
SHOW STATS_META
SHOW STATUS
SHOW TABLE NEXT_ROW_ID
SHOW TABLE REGIONS
SHOW TABLE STATUS
SHOW [FULL] TABLES
SHOW [GLOBAL|SESSION] VARIABLES
SHOW WARNINGS
SHUTDOWN
SPLIT REGION
START TRANSACTION
TABLE
TRACE
TRUNCATE
UPDATE
USE
WITH
- データ型
- 関数と演算子
- クラスター化インデックス
- 制約
- 生成された列
- SQLモード
- テーブル属性
- トランザクション
- ガベージコレクション(GC)
- ビュー
- パーティショニング
- 一時テーブル
- キャッシュされたテーブル
- 文字セットと照合
- SQLの配置ルール
- システムテーブル
mysql
- INFORMATION_SCHEMA
- 概要
ANALYZE_STATUS
CLIENT_ERRORS_SUMMARY_BY_HOST
CLIENT_ERRORS_SUMMARY_BY_USER
CLIENT_ERRORS_SUMMARY_GLOBAL
CHARACTER_SETS
CLUSTER_CONFIG
CLUSTER_HARDWARE
CLUSTER_INFO
CLUSTER_LOAD
CLUSTER_LOG
CLUSTER_SYSTEMINFO
COLLATIONS
COLLATION_CHARACTER_SET_APPLICABILITY
COLUMNS
DATA_LOCK_WAITS
DDL_JOBS
DEADLOCKS
ENGINES
INSPECTION_RESULT
INSPECTION_RULES
INSPECTION_SUMMARY
KEY_COLUMN_USAGE
METRICS_SUMMARY
METRICS_TABLES
PARTITIONS
PLACEMENT_POLICIES
PROCESSLIST
REFERENTIAL_CONSTRAINTS
SCHEMATA
SEQUENCES
SESSION_VARIABLES
SLOW_QUERY
STATISTICS
TABLES
TABLE_CONSTRAINTS
TABLE_STORAGE_STATS
TIDB_HOT_REGIONS
TIDB_HOT_REGIONS_HISTORY
TIDB_INDEXES
TIDB_SERVERS_INFO
TIDB_TRX
TIFLASH_REPLICA
TIKV_REGION_PEERS
TIKV_REGION_STATUS
TIKV_STORE_STATUS
USER_PRIVILEGES
VIEWS
METRICS_SCHEMA
- UI
- TiDBダッシュボード
- 概要
- 管理
- アクセス
- 概要ページ
- クラスター情報ページ
- Top SQLページ
- キービジュアライザーページ
- メトリクス関係グラフ
- SQLステートメント分析
- 遅いクエリページ
- クラスター診断
- 検索ログページ
- インスタンスプロファイリング
- セッションの管理とConfiguration / コンフィグレーション
- FAQ
- CLI
- コマンドラインフラグ
- Configuration / コンフィグレーションファイルのパラメーター
- システム変数
- ストレージエンジン
- テレメトリー
- エラーコード
- テーブルフィルター
- トポロジラベルによるレプリカのスケジュール
- よくある質問
- リリースノート
- すべてのリリース
- リリースタイムライン
- TiDBバージョニング
- v6.1
- v6.0
- v5.4
- v5.3
- v5.2
- v5.1
- v5.0
- v4.0
- v3.1
- v3.0
- v2.1
- v2.0
- v1.0
- 用語集
TiDBでの高ディスクI/O使用量のトラブルシューティング
このドキュメントでは、TiDBでのディスクI/Oの使用率が高い問題を特定して対処する方法を紹介します。
現在のI/Oメトリックを確認します
CPUのボトルネックとトランザクションの競合によって引き起こされたボトルネックをトラブルシューティングした後、TiDBの応答が遅くなる場合は、現在のシステムのボトルネックを特定するためにI/Oメトリックを確認する必要があります。
モニターからI/Oの問題を特定する
I / Oの問題を見つける最も簡単な方法は、TiUPによってデフォルトで展開されるGrafanaダッシュボードなど、モニターから全体的なI/Oステータスを表示することです。 I / Oに関連するダッシュボードパネルには、 Overview 、 Node_exporter 、およびDisk-Performanceが含まれます。
最初のタイプの監視パネル
[概要]>[システム情報]>[ IOUtil]で、クラスタの各マシンのI/Oステータスを確認できます。このメトリックは、 iostat
モニターのutil
に似ています。パーセンテージが高いほど、ディスクI/Oの使用率が高くなります。
- モニターにI/O使用率の高いマシンが1つしかない場合、現在、このマシンに読み取りおよび書き込みのホットスポットがある可能性があります。
- モニター内のほとんどのマシンのI/O使用率が高い場合、クラスタのI/O負荷は高くなります。
上記の最初の状況(I / O使用率が高い1台のマシンのみ)の場合、 Disk Latency
やDisk Load
などのディスクパフォーマンスダッシュボードからI / Oメトリックをさらに観察して、異常が存在するかどうかを判断できます。必要に応じて、fioツールを使用してディスクをチェックします。
2番目のタイプの監視パネル
TiDBクラスタの主なストレージコンポーネントはTiKVです。 1つのTiKVインスタンスには2つのRocksDBインスタンスが含まれています。1つはdata/raft
にあるRaftログを保存するためのもので、もう1つはdata/db
にある実際のデータを保存するためのものです。
TiKV-Details > Raft IOで、次の2つのインスタンスのディスク書き込みに関連するメトリックを確認できます。
Append log duration
:このメトリックは、Raftログを格納するRockDBへの書き込みの応答時間を示します。.99
の応答時間は50ミリ秒以内である必要があります。Apply log duration
:このメトリックは、実際のデータを格納するRockDBへの書き込みの応答時間を示します。.99
の応答は100ミリ秒以内である必要があります。
これらの2つのメトリックには、書き込みホットスポットを表示するのに役立つサーバーごとの監視パネルもあります。
3番目のタイプの監視パネル
TiKV-詳細>ストレージには、ストレージに関連する監視メトリックがあります。
Storage command total
:受信したさまざまなコマンドの数を示します。Storage async write duration
:Raft I/Oに関連する可能性のあるdisk sync duration
などの監視メトリックが含まれます。異常が発生した場合は、ログを確認して関連部品の動作状態を確認してください。
その他のパネル
さらに、他のいくつかのパネルメトリックは、ボトルネックがI / Oであるかどうかを判断するのに役立つ場合があり、いくつかのパラメーターを設定してみることができます。 TiKVgRPC期間のprewrite/commit / raw-put(rawキー値クラスターの場合のみ)を確認することで、ボトルネックが実際に遅いTiKV書き込みであると判断できます。 TiKVの書き込みが遅い一般的な状況は次のとおりです。
append log
は遅いです。 TiKV GrafanaのRaft I/O
およびappend log duration
メトリックは比較的高く、これは多くの場合、ディスク書き込みが遅いことが原因です。 RocksDB-raftでWAL Sync Duration max
の値を確認して、append log
が遅い原因を特定できます。そうしないと、バグを報告する必要があるかもしれません。raftstore
のスレッドがビジーです。 TiKV Grafanaでは、Raft Propose
/propose wait duration
はappend log duration
よりも大幅に高くなっています。トラブルシューティングについては、次の側面を確認してください。[raftstore]
のstore-pool-size
の値が小さすぎるかどうか。この値は[1,5]
から大きすぎないように設定することをお勧めします。- マシンのCPUリソースが不足していないか。
append log
は遅いです。 TiKV GrafanaのRaft I/O
およびappend log duration
メトリックは比較的高く、通常は比較的高いRaft Propose
とともに発生する可能性がありapply wait duration
。考えられる原因は次のとおりです。[raftstore]
のapply-pool-size
の値が小さすぎます。この値は[1, 5]
から大きすぎないように設定することをお勧めします。Thread CPU
のapply cpu
も比較的高いです。- マシンのCPUリソースが不足しています。
- 単一のリージョンのホットスポットの問題を記述します(現在、この問題の解決策はまだ進行中です)。単一の
apply
スレッドのCPU使用率は高くなります(これは、by (instance, name)
を追加したGrafana式を変更することで表示できます)。 - RocksDBへの書き込みが遅く、
RocksDB kv
/max write duration
が高い。単一のRaftログには、複数のキーと値のペア(kv)が含まれる場合があります。 128 kvがバッチでRocksDBに書き込まれるため、1つのapply
ログに複数のRocksDB書き込みが含まれる場合があります。 - その他の原因については、バグとして報告してください。
raft commit log
は遅いです。 TiKV Grafanaでは、Raft I/O
とcommit log duration
(Grafana 4.xでのみ使用可能)のメトリックが比較的高くなっています。各リージョンは、独立したRaftグループに対応しています。 Raftには、TCPのスライディングウィンドウメカニズムと同様のフロー制御メカニズムがあります。スライディングウィンドウのサイズを制御するには、[raftstore] raft-max-inflight-msgs
パラメータを調整します。書き込みホットスポットがあり、commit log duration
が高い場合は、このパラメーターを1024
などのより大きな値に適切に設定できます。
ログからI/Oの問題を特定する
クライアントが
server is busy
または特にraftstore is busy
などのエラーを報告した場合、エラーはI/Oの問題に関連している可能性があります。監視パネル( Grafana- > TiKV- >エラー)をチェックして、
busy
エラーの具体的な原因を確認できます。server is busy
はTiKVのフロー制御メカニズムです。このようにして、TiKVはtidb/ti-client
の現在の圧力が高すぎることを通知し、クライアントは後で試す必要があります。Write stall
はTiKVRocksDBログに表示されます。レベル0のSSTファイルが多すぎると、書き込みストールが発生する可能性があります。この問題に対処するために、
[rocksdb] max-sub-compactions = 2 (or 3)
パラメーターを追加して、レベル0のSSTファイルの圧縮を高速化できます。このパラメーターは、レベル0からレベル1の圧縮タスクを、マルチスレッドの同時実行のためにmax-sub-compactions
のサブタスクに分割できることを意味します。ディスクのI/O機能が書き込みに追いつかない場合は、ディスクをスケールアップすることをお勧めします。ディスクのスループットが上限に達した場合(たとえば、SATASSDのスループットがNVMeSSDのスループットよりもはるかに低い場合)、書き込みストールが発生しますが、CPUリソースが比較的十分である場合は、圧縮を使用してみてください。ディスクへの圧力を軽減するためのより高い圧縮率のアルゴリズム。つまり、CPUリソースを使用してディスクリソースを補います。
たとえば、
default cf compaction
の圧力が比較的高い場合は、パラメータ[rocksdb.defaultcf] compression-per-level = ["no", "no", "lz4", "lz4", "lz4", "zstd" , "zstd"]
をcompression-per-level = ["no", "no", "zstd", "zstd", "zstd", "zstd", "zstd"]
に変更できます。
アラートで見つかったI/Oの問題
クラスタ展開ツール(TiUP)は、アラート項目としきい値が組み込まれているアラートコンポーネントをデフォルトで使用してクラスタを展開します。次のアラート項目はI/Oに関連しています。
- TiKV_write_stall
- TiKV_raft_log_lag
- TiKV_async_request_snapshot_duration_seconds
- TiKV_async_request_write_duration_seconds
- TiKV_raft_append_log_duration_secs
- TiKV_raft_apply_log_duration_secs
I/Oの問題を処理する
- I / Oホットスポットの問題が発生していることが確認されたら、「TiDBホットスポットの問題の処理」を参照してI/Oホットスポットを排除する必要があります。
- 全体的なI/Oパフォーマンスがボトルネックになっていることが確認され、I / Oパフォーマンスがアプリケーション側で遅れ続けると判断できる場合は、分散データベースのスケーリング機能を利用して、全体的なI/Oスループットを向上させるTiKVノードの数。
- 上記のようにいくつかのパラメータを調整し、コンピューティング/メモリリソースを使用してディスクストレージリソースを補います。