TiDBTPC-Hパフォーマンステストレポート-TiDBv5.4MPPモードとGreenplum6.15.0およびApacheSpark3.1.1の比較
テストの概要
このテストは、MPPモードでのTiDBv5.4のTPC-H100 GBのパフォーマンスを、最新バージョンの2つの主流の分析エンジンであるGreenplumおよびApacheSparkのパフォーマンスと比較することを目的としています。テスト結果は、MPPモードでのTiDB v5.4のパフォーマンスが、TPC-Hワークロードでの他の2つのソリューションのパフォーマンスよりも2〜3倍速いことを示しています。
v5.0では、TiDBはTiFlashのMPPモードを導入します。これにより、TiDBのハイブリッドトランザクションおよび分析処理(HTAP)機能が大幅に強化されます。このレポートのテストオブジェクトは次のとおりです。
- MPPモードのTiDBv5.4列型ストレージ
- Greenplum 6.15.0
- Apache Spark3.1.1+寄木細工
テスト環境
ハードウェアの前提条件
- CPU:Intel(R)Xeon(R)CPU E5-2630 v4 @ 2.20GHz、40コア
- メモリ:189 GB
- ディスク:NVMe 3TB * 2
ソフトウェアバージョン
パラメータ設定
TiDB v5.4
v5.4クラスタの場合、TiDBは、以下の構成項目を除いて、デフォルトのパラメーター構成を使用します。
TiFlashの構成ファイルusers.tomlで、次のようにmax_memory_usageを構成します。
[profiles.default]
max_memory_usage = 10000000000000
次のSQLステートメントを使用してセッション変数を設定します。
set @@tidb_isolation_read_engines='tiflash';
set @@tidb_allow_mpp=1;
set @@tidb_mem_quota_query = 10 << 30;
すべてのTPC-Hテストテーブルは、追加のパーティションやインデックスなしで、列形式でTiFlashに複製されます。
グリーンプラム
最初の3つのノードを除いて、Greenplumクラスタは追加のマスターノードを使用してデプロイされます。各セグメントサーバーには8つのセグメントが含まれています。これは、NVMeSSDごとに4つのセグメントを意味します。したがって、合計で24のセグメントがあります。ストレージ形式は追加専用/列指向のストレージであり、パーティションキーが主キーとして使用されます。
log_statement = all
gp_autostats_mode = none
statement_mem = 2048MB
gp_vmem_protect_limit = 16384
Apache Spark
Apache Sparkのテストでは、ストレージ形式としてApache Parquetを使用し、データをHDFSに保存します。 HDFSシステムは3つのノードで構成されています。各ノードには、データディスクとして2つのNVMeSSDディスクが割り当てられています。 Sparkクラスタはスタンドアロンモードでデプロイされ、NVMe SSDディスクをspark.local.dirのローカルディレクトリとして使用して、追加のパーティションやインデックスなしでシャッフルスピルを高速化します。
--driver-memory 20G
--total-executor-cores 120
--executor-cores 5
--executor-memory 15G
テスト結果
ノート:
以下のテスト結果は、3つのテストの平均データです。すべての数値は秒単位です。
上記のパフォーマンス図では、次のようになります。
- 青い線はTiDBv5.4を表します。
- 赤い線はGreenplum6.15.0を表します。
- 黄色の線はApacheSpark3.1.1を表します。
- y軸は、クエリの実行時間を表します。時間が短いほど、パフォーマンスは向上します。
