バックアップと復元の監視とアラート

このドキュメントでは、監視コンポーネント、監視メトリック、一般的なアラートを展開する方法など、バックアップと復元機能の監視とアラートについて説明します。

スナップショットのバックアップと復元の監視

スナップショットのバックアップと復元のメトリックを表示するには、Grafana のTiKV-詳細>バックアップとインポートダッシュボードに移動します。

ログバックアップ監視

ログバックアップでは、プロメテウス使用して監視メトリックを収集できます。現在、すべての監視メトリックは TiKV に組み込まれています。

監視構成

TiUP を使用してデプロイされたクラスターの場合、Prometheus は監視メトリックを自動的に収集します。
手動でデプロイされたクラスターの場合は、 TiDBクラスタ監視の展開手順に従って、Prometheus 構成ファイルのscrape_configsセクションに TiKV 関連のジョブを追加します。

Grafanaの設定

TiUP を使用してデプロイされたクラスターの場合、グラファナダッシュボードにはポイントインタイムリカバリ (PITR) パネルが含まれます。TiKV 詳細ダッシュボードのバックアップログパネルは PITR パネルです。
手動でデプロイされたクラスターの場合は、 Grafanaダッシュボードをインポートするを参照して、詳細 JSON ファイルを Grafana にアップロードします。次に、TiKV-Details ダッシュボードでバックアップログパネルを見つけます。

監視メトリクス

メトリクス	タイプ	説明
tikv_log_backup_internal_actor_acting_duration_sec	ヒストグラム	すべての内部メッセージとイベントを処理する期間。 `message :: TaskType`
tikv_log_backup_initial_scan_reason	カウンタ	初期スキャンがトリガーされる理由の統計。主な理由は、リーダーの転送またはリージョンバージョンの変更です。 `reason :: {"leader-changed", "region-changed", "retry"}`
tikv_log_backup_event_handle_duration_sec	ヒストグラム	KV イベントの処理期間`tikv_log_backup_on_event_duration_seconds`と比較すると、このメトリックには内部変換の期間も含まれます。 `stage :: {"to_stream_event", "save_to_temp_file"}`
tikv_log_backup_handle_kv_batch	ヒストグラム	Raftstoreによって送信された KV ペアバッチのサイズのリージョンレベルの統計。
tikv_log_backup_initial_scan_disk_read	カウンタ	初期スキャン中にディスクから読み取られたデータのサイズ。Linux では、この情報は procfs から取得され、ブロックデバイスから実際に読み取られたデータのサイズです。このメトリックには、構成項目`initial-scan-rate-limit`が適用されます。
tikv_log_backup_incremental_scan_bytes	ヒストグラム	初期スキャン中に実際に生成された KV ペアのサイズ。圧縮と読み取り増幅のため、この値は`tikv_log_backup_initial_scan_disk_read`と異なる場合があります。
tikv_log_backup_skip_kv_count	カウンタ	バックアップに役立たないためにログバックアップ中にスキップされるRaftイベントの数。
tikvlogバックアップエラー	カウンタ	ログバックアップ中に再試行または無視できるエラー。 `type :: ErrorType`
tikvlog_backup致命的なエラー	カウンタ	ログバックアップ中に再試行または無視できないエラー。このタイプのエラーが発生すると、ログバックアップは一時停止されます。 `type :: ErrorType`
tikv_log_backup_heap_memory	ゲージ	ログバックアップ中の初期スキャンで検出された、消費されていないイベントによって占有されているメモリ。
tikv_log_backup_on_event_duration_seconds	ヒストグラム	KV イベントを一時ファイルに保存する期間。 `stage :: {"write_to_tempfile", "syscall_write"}`
tikv_log_backup_store_checkpoint_ts	ゲージ	非推奨のストアレベルのチェックポイント TS。現在のストアによって登録された GC セーフポイントに近いです。 `task :: string`
tidb_log_backup_last_checkpoint	ゲージ	グローバルチェックポイントTS。ログデータがバックアップされた時点です。 `task :: string`
tikv_log_backup_flush_duration_sec	ヒストグラム	ローカルの一時ファイルを外部storageに移動する時間。 `stage :: {"generate_metadata", "save_files", "clear_temp_files"}`
tikv_log_backup_flush_file_size	ヒストグラム	バックアップ中に生成されたファイルのサイズの統計。
tikv_log_backup_initial_scan_duration_sec	ヒストグラム	初期スキャンの全体的な所要時間の統計。
tikv_log_backup_skip_retry_observe	カウンタ	ログバックアップ中に無視できるエラーの統計、または再試行がスキップされる理由。 `reason :: {"region-absent", "not-leader", "stale-command"}`
tikv_log_backup_initial_scan_operations	カウンタ	初期スキャン中の RocksDB 関連操作の統計。 `cf :: {"default", "write", "lock"}, op :: RocksDBOP`
tikvlog_backup有効	カウンタ	ログバックアップを有効にするかどうか。値が`0`より大きい場合、ログバックアップは有効になります。
tikv_log_backup_observed_region	ゲージ	リッスンされているリージョンの数。
tikvlogバックアップタスクステータス	ゲージ	ログバックアップタスクのステータス`0`実行中、 `1`は一時停止、 `2`エラーを意味します。 `task :: string`
tikv_log_backup_pending_initial_scan	ゲージ	保留中の初期スキャンの統計。 `stage :: {"queuing", "executing"}`

ログバックアップアラート

アラート設定

現在、PITR にはアラート項目が組み込まれていません。このセクションでは、PITR でアラート項目を構成する方法と、いくつかの項目の推奨について説明します。

PITR でアラート項目を構成するには、次の手順に従います。

Prometheus が配置されているノード上のアラートルール用の構成ファイル (例: pitr.rules.yml ) を作成します。ファイルには、 Prometheus ドキュメント、次の推奨アラート項目、および構成サンプルに従ってアラートルールを入力します。
Prometheus 構成ファイルのrule_filesフィールドに、アラートルールファイルのパスを追加します。
PrometheusプロセスにシグナルSIGHUP送信するか（ kill -HUP pid ）、HTTP POSTリクエストをhttp://prometheus-addr/-/reloadに送信します（HTTPリクエストを送信する前に、Prometheusの起動時にパラメータ--web.enable-lifecycleを追加します）。

推奨されるアラート項目は次のとおりです。

ログバックアップ実行RPO10 分以上

警告項目: max(time() - tidb_log_backup_last_checkpoint / 262144000) by (task) / 60 > 10 and max(tidb_log_backup_last_checkpoint) by (task) > 0 and max(tikv_log_backup_task_status) by (task) == 0
警戒レベル: 警告
説明: ログデータが 10 分以上storageに保存されません。このアラート項目はリマインダーです。ほとんどの場合、ログバックアップには影響しません。

このアラート項目の構成サンプルは次のとおりです。

groups:
- name: PiTR
  rules:
  - alert: LogBackupRunningRPOMoreThan10m
    expr: max(time() - tidb_log_backup_last_checkpoint / 262144000) by (task) / 60 > 10 and max(tidb_log_backup_last_checkpoint) by (task) > 0 and max(tikv_log_backup_task_status) by (task) == 0
    labels:
      severity: warning
    annotations:
      summary: RPO of log backup is high
      message: RPO of the log backup task {{ $labels.task }} is more than 10m

ログバックアップ実行RPO30 分以上

警告項目: max(time() - tidb_log_backup_last_checkpoint / 262144000) by (task) / 60 > 30 and max(tidb_log_backup_last_checkpoint) by (task) > 0 and max(tikv_log_backup_task_status) by (task) == 0
警戒レベル: 重大
説明: ログデータが 30 分以上storageに保存されていません。このアラートは多くの場合、異常を示しています。原因を見つけるには、TiKV ログを確認してください。

ログバックアップ一時停止中 2 時間以上

警告項目: max(time() - tidb_log_backup_last_checkpoint / 262144000) by (task) / 3600 > 2 and max(tidb_log_backup_last_checkpoint) by (task) > 0 and max(tikv_log_backup_task_status) by (task) == 1
警戒レベル: 警告
説明: ログバックアップタスクが 2 時間以上一時停止されています。このアラート項目はリマインダーであり、できるだけ早くbr log resume実行する必要があります。

ログバックアップ一時停止中12時間以上

警告項目: max(time() - tidb_log_backup_last_checkpoint / 262144000) by (task) / 3600 > 12 and max(tidb_log_backup_last_checkpoint) by (task) > 0 and max(tikv_log_backup_task_status) by (task) == 1
警戒レベル: 重大
説明: ログバックアップタスクが 12 時間以上一時停止されています。タスクを再開するには、できるだけ早くbr log resume実行する必要があります。ログタスクが長時間一時停止すると、データが失われるリスクがあります。

ログバックアップ失敗

警告項目: max(tikv_log_backup_task_status) by (task) == 2 and max(tidb_log_backup_last_checkpoint) by (task) > 0
警戒レベル: 重大
説明: ログバックアップタスクが失敗しました。失敗の理由を確認するには、 br log statusを実行する必要があります。必要に応じて、TiKV ログをさらに確認する必要があります。

ログバックアップGCセーフポイントがチェックポイントを超える

警告項目: min(tidb_log_backup_last_checkpoint) by (instance) - max(tikv_gcworker_autogc_safe_point) by (instance) < 0
警戒レベル: 重大
説明: バックアップ前に一部のデータがガベージコレクションされました。これは、一部のデータが失われ、サービスに影響を及ぼす可能性が非常に高いことを意味します。