TiCDC アラート ルール

このドキュメントでは、TiCDC アラート ルールと対応するソリューションについて説明します。重大度レベルは、降順でCriticalWarningです。

重要なアラート

このセクションでは、重要なアラートと解決策を紹介します。

cdc_checkpoint_high_delay

重大なアラートについては、異常なモニタリング メトリックに細心の注意を払う必要があります。

cdc_resolvedts_high_delay

  • アラート ルール:

    (time() - ticdc_processor_resolved_ts / 1000) > 300

  • 説明:

    レプリケーション タスクの解決済み TS が 10 分以上遅れています。

  • 解決:

    TiCDC ハンドル レプリケーションの中断を参照してください。

ticdc_processor_exit_with_error_count

警告アラート

警告アラートは、問題またはエラーのリマインダーです。

cdc_multiple_owners

  • アラート ルール:

    sum(rate(ticdc_owner_ownership_counter[30s])) >= 2

  • 説明:

    TiCDC クラスターには複数の所有者がいます。

  • 解決:

    TiCDC ログを収集して、根本原因を突き止めます。

ticdc_mounter_unmarshal_and_mount_time_more_than_1s

  • アラート ルール:

histogram_quantile(0.9, rate(ticdc_mounter_unmarshal_and_mount_bucket[1m])) * 1000 > 1000

  • 説明:

    データの変更をアンマーシャリングするには、レプリケーション タスクに 1 秒以上かかります。

  • 解決:

    TiCDC ログを収集して、根本原因を突き止めます。

cdc_sink_execute_duration_time_more_than_10s

  • アラート ルール:

    histogram_quantile(0.9, rate(ticdc_sink_txn_exec_duration_bucket[1m])) > 10

  • 説明:

    レプリケーション タスクがダウンストリーム データベースにデータを書き込むのに 10 秒以上かかります。

  • 解決:

    下流のデータベースに問題がないか確認してください。

cdc_processor_checkpoint_tso_no_change_for_1m

ticdc_puller_entry_sorter_sort_bucket

  • アラート ルール:

    histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_sort_bucket{}[1m])) > 1

  • 説明:

    TiCDC プラー エントリ ソーターの遅延が高すぎます。

  • 解決:

    TiCDC ログを収集して、根本原因を突き止めます。

ticdc_puller_entry_sorter_merge_bucket

  • アラート ルール:

    histogram_quantile(0.9, rate(ticdc_puller_entry_sorter_merge_bucket{}[1m])) > 1

  • 説明:

    TiCDC プラー エントリ ソーター マージの遅延が長すぎます。

  • 解決:

    TiCDC ログを収集して、根本原因を突き止めます。

tikv_cdc_min_resolved_ts_no_change_for_1m

  • アラート ルール:

    changes(tikv_cdc_min_resolved_ts[1m]) < 1 and ON (instance) tikv_cdc_region_resolve_status{status="resolved"} > 0

  • 説明:

    TiKV CDC の最小解決 TS 1 は 1 分間進んでいません。

  • 解決:

    TiKV ログを収集して、根本原因を突き止めます。

tikv_cdc_scan_duration_seconds_more_than_10min

  • アラート ルール:

    histogram_quantile(0.9, rate(tikv_cdc_scan_duration_seconds_bucket{}[1m])) > 600

  • 説明:

    TiKV CDC モジュールは、増分レプリケーションを 10 分以上スキャンしました。

  • 解決:

    TiCDC モニタリング メトリックと TiKV ログを収集して、根本原因を突き止めます。

ticdc_sink_mysql_execution_error

  • アラート ルール:

    changes(ticdc_sink_mysql_execution_error[1m]) > 0

  • 説明:

    レプリケーション タスクがダウンストリームの MySQL にデータを書き込むと、エラーが発生します。

  • 解決:

    考えられる根本的な原因は多数あります。 TiCDC のトラブルシューティングを参照してください。

ticdc_memory_abnormal

  • アラート ルール:

    go_memstats_heap_alloc_bytes{job="ticdc"} > 1e+10

  • 説明:

    TiCDC ヒープ メモリの使用量が 10 GiB を超えています。

  • 解決:

    TiCDC ログを収集して、根本原因を突き止めます。