ログバックアップの既知の問題

このドキュメントでは、ログバックアップ機能を使用する場合の既知の問題と対応する回避策を示します。

PITR 中または`br log truncate`コマンドの実行後に BR で OOM 問題が発生する

次の考えられる原因を検討してください。

回復するログデータが多すぎるため、PITR で OOM が発生します。代表的な原因として、次の 2 つが挙げられます。
- リカバリするログ範囲が大きすぎます。
  2 日以内、最長で 1 週間のログを回復することをお勧めします。つまり、PITR バックアッププロセス中に少なくとも 2 日に 1 回、フルバックアップ操作を実行します。
- ログバックアッププロセス中に大量の書き込みが長時間発生します。
  クラスターを初期化するためにフルデータインポートを実行すると、通常、長時間にわたる大量の書き込みが発生します。最初のインポート後にスナップショットバックアップを実行し、そのバックアップを使用してクラスターを復元することをお勧めします。
削除するログの範囲が大きすぎるため、ログを削除すると OOM が発生します。
この問題を解決するには、最初に削除するログの範囲を縮小し、対象のログを一度に削除するのではなく、数回に分けて削除します。
BR プロセスが配置されているノードのメモリ割り当てが低すぎます。
ノードのメモリ構成を少なくとも 16 GB にスケールアップして、PITR にリカバリ用の十分なメモリリソースがあることを確認することをお勧めします。

アップストリームデータベースは物理インポートモードでTiDB Lightningを使用してデータをインポートするため、ログバックアップ機能を使用できません。

現在、ログバックアップ機能はTiDB Lightningに完全には適合していません。そのため、 TiDB Lightningの物理モードでインポートされたデータは、ログにバックアップできません。

ログバックアップタスクを作成するアップストリームクラスターでは、 TiDB Lightning物理モードを使用してデータをインポートすることは避けてください。代わりに、 TiDB Lightning論理モードを使用できます。物理モードを使用する必要がある場合は、インポートの完了後にスナップショットバックアップを実行して、PITR をスナップショットバックアップ後の時点に復元できるようにします。

クラスターはネットワークパーティションの障害から回復しましたが、ログバックアップタスクの進行状況のチェックポイントはまだ再開されません。

問題: #13126

クラスタでネットワークパーティションに障害が発生した後、バックアップタスクはログのバックアップを続行できません。一定の再試行時間の後、タスクはERROR状態に設定されます。この時点で、バックアップタスクは停止しています。

この問題を解決するには、 br log resumeコマンドを手動で実行して、ログバックアップタスクを再開する必要があります。

ログバックアップで使用される実際のストレージスペースは、クラスタモニタリングメトリックに表示される増分データのボリュームの 2 ～ 3 倍です。

問題: #13306

この問題は、ログバックアップデータがカスタマイズされたエンコード形式を使用するために発生します。フォーマットが異なればデータ圧縮率も異なり、その差は 2 ～ 3 倍です。

ログバックアップは、RocksDB が SST ファイルを生成する方法ではデータを保存しません。これは、ログバックアップ中に生成されるデータの範囲が大きく、内容が小さい可能性があるためです。このような場合、SST ファイルを取り込んでデータを復元しても、復元のパフォーマンスは向上しません。

PITR を`execute over region id`エラーが返される

問題: #37207

この問題は通常、完全なデータインポート中にログバックアップを有効にし、その後 PITR を実行して、データインポート中のある時点でデータを復元する場合に発生します。

具体的には、長時間 (24 時間など) に多数のホットスポット書き込みがあり、各 TiKV ノードの OPS が 50k/s を超える場合 (メトリクスはGrafana: TiKV-Details -> Backup Log -> Handle Event Rate )。

現在のバージョンでは、データのインポート後にスナップショットバックアップを実行し、このスナップショットバックアップに基づいて PITR を実行することをお勧めします。

大規模なトランザクションのコミット時間は、ログバックアップのチェックポイントラグに影響します

問題: #13304

大規模なトランザクションがある場合、ログチェックポイントラグは、トランザクションがコミットされる前に更新されません。したがって、トランザクションのコミット時間に近い時間、チェックポイントの遅延が増加します。

インデックス追加機能の高速化は PITR と互換性がありません

問題: #38045

現在、インデックス追加の高速化の機能は PITR と互換性がありません。インデックスアクセラレーションを使用する場合は、バックグラウンドで実行されている PITR ログバックアップタスクがないことを確認する必要があります。そうしないと、次のような予期しない動作が発生する可能性があります。

最初にログバックアップタスクを開始してから、インデックスを追加する場合。インデックスアクセラレーションが有効になっていても、インデックスの追加プロセスは高速化されません。しかし、インデックスはゆっくりと追加されます。
最初にインデックスアクセラレーションタスクを開始してから、ログバックアップタスクを開始した場合。ログバックアップタスクがエラーを返します。しかし、インデックスの加速は影響を受けません。
ログバックアップタスクとインデックスアクセラレーションタスクを同時に開始すると、2 つのタスクが互いを認識しない場合があります。これにより、PITR が新しく追加されたインデックスのバックアップに失敗する可能性があります。

GCS または Azure Blob Storage で初めて`PITR Truncate`コマンドを実行するとエラーが発生する

問題: #38229

GCS または Azure Blob Storage で初めてPITR Truncateを実行すると、ファイルv1_stream_trancate_safepoint.txtが存在しないことが通知されます。この問題に対処するには、次の手順を実行します。

PITR のバックアップルートディレクトリに、ファイルv1_stream_trancate_safepoint.txtを作成し、その中に0を書き込みます。このファイルには他の文字を含めてはならず、 PITR Truncateを初めて実行するときにのみ作成する必要があることに注意してください。

ログ バックアップの既知の問題

PITR 中またはbr log truncateコマンドの実行後に BR で OOM 問題が発生する

アップストリーム データベースは物理インポート モードでTiDB Lightningを使用してデータをインポートするため、ログ バックアップ機能を使用できません。

クラスターはネットワーク パーティションの障害から回復しましたが、ログ バックアップ タスクの進行状況のチェックポイントはまだ再開されません。

ログ バックアップで使用される実際のストレージ スペースは、クラスタ モニタリング メトリックに表示される増分データのボリュームの 2 ～ 3 倍です。

PITR をexecute over region idエラーが返される

大規模なトランザクションのコミット時間は、ログ バックアップのチェックポイント ラグに影響します