ログバックアップの既知の問題

このドキュメントでは、ログバックアップ機能を使用する場合の既知の問題と対応する回避策を示します。

PITR 中または`br log truncate`コマンドの実行後に BR で OOM 問題が発生する

次の考えられる原因を検討してください。

回復するログデータが多すぎるため、PITR で OOM が発生します。代表的な原因として、次の 2 つが挙げられます。
- リカバリするログ範囲が大きすぎます。
  2 日以内、最長で 1 週間のログを回復することをお勧めします。つまり、PITR バックアッププロセス中に少なくとも 2 日に 1 回、フルバックアップ操作を実行します。
- ログバックアッププロセス中に大量の書き込みが長時間発生します。
  クラスターを初期化するためにフルデータインポートを実行すると、通常、長時間にわたる大量の書き込みが発生します。最初のインポート後にスナップショットバックアップを実行し、そのバックアップを使用してクラスターを復元することをお勧めします。
削除するログの範囲が大きすぎるため、ログを削除すると OOM が発生します。
この問題を解決するには、最初に削除するログの範囲を縮小し、対象のログを一度に削除するのではなく、数回に分けて削除します。
BR プロセスが配置されているノードのメモリ割り当てが低すぎます。
ノードのメモリ構成を少なくとも 16 GB にスケールアップして、PITR にリカバリ用の十分なメモリリソースがあることを確認することをお勧めします。

アップストリームデータベースは物理インポートモードでTiDB Lightningを使用してデータをインポートするため、ログバックアップ機能を使用できません。

現在、ログバックアップ機能はTiDB Lightningに完全には適合していません。そのため、 TiDB Lightningの物理モードでインポートされたデータは、ログにバックアップできません。

ログバックアップタスクを作成するアップストリームクラスターでは、 TiDB Lightning物理モードを使用してデータをインポートすることは避けてください。代わりに、 TiDB Lightning論理モードを使用できます。物理モードを使用する必要がある場合は、インポートの完了後にスナップショットバックアップを実行して、PITR をスナップショットバックアップ後の時点に復元できるようにします。

自作の Minio システムをログバックアップのストレージとして使用する場合、 `br restore point`または`br log truncate`を実行すると、 `RequestCanceled`エラーが返されます。

問題: #36515

[error="RequestCanceled: request context canceled\ncaused by: context canceled"]

このエラーは、現在のログバックアップが多数の小さなファイルを生成するために発生します。自作の Minio ストレージシステムは、これらすべてのファイルを保存できません。

この問題を解決するには、Minio システムを大規模な分散クラスターにアップグレードするか、ログバックアップ用のストレージとして Amazon S3 ストレージシステムを使用する必要があります。

クラスターの負荷が高すぎる、リージョンが多すぎる、ストレージがパフォーマンスのボトルネックに達している (たとえば、自作の Minio システムをログバックアップ用のストレージとして使用している) 場合、バックアップ進行状況チェックポイントの遅延が 10 分を超える可能性があります

問題: #13030

現在のログバックアップでは多数の小さなファイルが生成されるため、自作の Minio システムは書き込み要件をサポートできず、バックアップの進行が遅くなります。

クラスターはネットワークパーティションの障害から回復しましたが、ログバックアップタスクの進行状況のチェックポイントはまだ再開されません。

問題: #13126

クラスタでネットワークパーティションに障害が発生した後、バックアップタスクはログのバックアップを続行できません。一定の再試行時間の後、タスクはERROR状態に設定されます。この時点で、バックアップタスクは停止しています。

この問題を解決するには、 br log resumeコマンドを手動で実行して、ログバックアップタスクを再開する必要があります。

ログバックアップで使用される実際のストレージスペースは、クラスタモニタリングメトリックに表示される増分データのボリュームの 2 ～ 3 倍です。

問題: #13306

この問題は、ログバックアップデータがカスタマイズされたエンコード形式を使用するために発生します。フォーマットが異なればデータ圧縮率も異なり、その差は 2 ～ 3 倍です。

ログバックアップは、RocksDB が SST ファイルを生成する方法ではデータを保存しません。これは、ログバックアップ中に生成されるデータの範囲が大きく、内容が小さい可能性があるためです。このような場合、SST ファイルを取り込んでデータを復元しても、復元のパフォーマンスは向上しません。

PITR を`execute over region id`エラーが返される

問題: #37207

この問題は通常、完全なデータインポート中にログバックアップを有効にし、その後 PITR を実行して、データインポート中のある時点でデータを復元する場合に発生します。

具体的には、長時間 (24 時間など) に多数のホットスポット書き込みがあり、各 TiKV ノードの OPS が 50k/s を超える場合 (メトリクスはGrafana: TiKV-Details -> Backup Log -> Handle Event Rate )。

現在のバージョンでは、データのインポート後にスナップショットバックアップを実行し、このスナップショットバックアップに基づいて PITR を実行することをお勧めします。

大規模なトランザクションのコミット時間は、ログバックアップのチェックポイントラグに影響します

問題: #13304

大規模なトランザクションがある場合、ログチェックポイントラグは、トランザクションがコミットされる前に更新されません。したがって、トランザクションのコミット時間に近い時間、チェックポイントの遅延が増加します。

ログ バックアップの既知の問題

PITR 中またはbr log truncateコマンドの実行後に BR で OOM 問題が発生する

アップストリーム データベースは物理インポート モードでTiDB Lightningを使用してデータをインポートするため、ログ バックアップ機能を使用できません。

自作の Minio システムをログ バックアップのストレージとして使用する場合、 br restore pointまたはbr log truncateを実行すると、 RequestCanceledエラーが返されます。

クラスターはネットワーク パーティションの障害から回復しましたが、ログ バックアップ タスクの進行状況のチェックポイントはまだ再開されません。

ログ バックアップで使用される実際のストレージ スペースは、クラスタ モニタリング メトリックに表示される増分データのボリュームの 2 ～ 3 倍です。

PITR をexecute over region idエラーが返される

大規模なトランザクションのコミット時間は、ログ バックアップのチェックポイント ラグに影響します