重要
このページは英語版のページを機械翻訳しています。原文は
こちらからご覧ください。
データ移行の監視指標
DM クラスターが TiUP を使用してデプロイされている場合、 監視システムも同時にデプロイされます。このドキュメントでは、DM-worker によって提供されるモニタリング メトリクスについて説明します。
仕事
Grafana ダッシュボードでは、DM のデフォルト名はDM-task
です。
overview
Overview
には、現在選択されているタスクのすべての DM-worker および DM-master インスタンスまたはソースのいくつかのモニタリング メトリックが含まれます。現在の既定のアラート ルールは、単一の DM-worker/DM-master インスタンス/ソースのみを対象としています。
指標名 | 説明 | アラート | 重大度 |
---|
タスクの状態 | 移行のサブタスクの状態 | なし | なし |
ストレージ容量 | リレーログが占有するディスクの合計ストレージ容量 | なし | なし |
保管残り | リレーログが占有するディスクの残りのストレージ容量 | なし | なし |
マスターとリレー間の binlog ファイルのギャップ | relay 処理単位が上流のマスターより遅れている binlog ファイルの数 | なし | なし |
ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値は 0% から 100% の間です | なし | なし |
マスターとシンサー間の binlog ファイルのギャップ | バイナリログ レプリケーション ユニットがアップストリーム マスターの背後にあるバイナリログ ファイルの数 | なし | なし |
シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します | なし | なし |
操作エラー
指標名 | 説明 | アラート | 重大度 |
---|
操作エラーの前に | 操作前のエラー数 | なし | なし |
ソースバウンドエラー | データ ソース バインド操作のエラー数 | なし | なし |
起動エラー | サブタスク開始時のエラー数 | なし | なし |
一時停止エラー | サブタスクの一時停止中のエラー数 | なし | なし |
再開エラー | サブタスクの再開中のエラーの数 | なし | なし |
自動再開エラー | サブタスクの自動再開中のエラー数 | なし | なし |
更新エラー | サブタスクの更新中のエラー数 | なし | なし |
停止エラー | サブタスク停止中のエラー数 | なし | なし |
高可用性
指標名 | 説明 | アラート | 重大度 |
---|
1 分あたりの dm-masters 開始リーダー コンポーネントの数 | リーダー関連のコンポーネントを有効にする DM マスターの 1 分あたりの試行回数 | なし | なし |
異なる州の労働者の数 | さまざまな州の DM ワーカーの数 | 一部の DM ワーカーは 1 時間以上オフラインになっています | 致命的 |
労働者国家 | DM ワーカーの状態 | なし | なし |
ワーカーイベントエラー数 | さまざまなタイプの DM-worker エラーの数 | なし | なし |
1 分あたりのシャード ddl エラー | 1 分あたりのさまざまなタイプのシャーディング DDL エラーの数 | シャーディング DDL エラーが発生する | 致命的 |
保留中のシャード ddl の数 | 保留中のシャーディング DDL 操作の数 | 保留中のシャーディング DDL 操作が 1 時間以上存在している | 致命的 |
タスクの状態
指標名 | 説明 | アラート | 重大度 |
---|
タスクの状態 | サブタスクの状態 | サブタスクが 20 分以上Paused の状態にあると、アラートが発生します | 致命的 |
ダンプ・ロードユニット
次のメトリックは、 task-mode
がfull
またはall
モードの場合にのみ表示されます。
指標名 | 説明 | アラート | 重大度 |
---|
ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% です | なし | なし |
データファイルサイズ | ロード ユニットによってインポートされたフル データ内のデータ ファイルの合計サイズ ( INSERT INTO ステートメントを含む) | なし | なし |
ダンプ プロセスがエラーで終了する | ダンプ ユニットが DM-worker 内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
ロード プロセスがエラーで終了する | ロード ユニットが DM-worker 内でエラーに遭遇し、終了します。 | 即時アラート | 致命的 |
テーブル数 | ロード ユニットによってインポートされた完全なデータ内のテーブルの総数 | なし | なし |
データファイル数 | ロード ユニットによってインポートされたフル データ内のデータ ファイルの総数 ( INSERT INTO ステートメントを含む) | なし | なし |
トランザクション実行レイテンシー | ロード単位でのトランザクション実行のレイテンシー(秒) | なし | なし |
ステートメント実行レイテンシー | ロード単位でのステートメントの実行時間 (秒単位) | なし | なし |
残り時間 | 負荷単位でデータを複製する残り時間 (秒) | なし | なし |
Binlogのレプリケーション
次のメトリックは、 task-mode
がincremental
またはall
モードの場合にのみ表示されます。
指標名 | 説明 | アラート | 重大度 |
---|
同期の残り時間 | syncer が上流のマスターで完全に移行されるまでにかかる予測残り時間 (分単位) | なし | なし |
レプリケートラグゲージ | バイナリログをアップストリームからダウンストリームに複製するのにかかるレイテンシー(秒単位) | なし | なし |
レプリケート ラグ ヒストグラム | アップストリームからダウンストリームへのバイナリログの複製のヒストグラム (秒単位)。統計メカニズムが異なるため、データが不正確である可能性があることに注意してください | なし | なし |
プロセスがエラーで存在します | binlog レプリケーション ユニットが DM-worker 内でエラーに遭遇し、終了する | 即時アラート | 致命的 |
マスターとシンサー間の binlog ファイルのギャップ | syncer 処理単位が上流のマスターより遅れている binlog ファイルの数 | syncer の処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
Relay と Syncer の間の binlog ファイルのギャップ | syncer がrelay 遅れている binlog ファイルの数 | 1 番目の処理単位がrelay 番目の処理単位よりも遅れている binlog ファイルの数がsyncer を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
binlog イベントの QPS | 単位時間あたりに受信した binlog イベントの数 (この数には、スキップする必要があるイベントは含まれません) | なし | なし |
スキップされた binlog イベントの QPS | スキップする必要がある単位時間あたりの受信バイナリ ログ イベントの数 | なし | なし |
binlog イベント期間の読み取り | バイナリログ レプリケーション ユニットがリレー ログまたはアップストリーム MySQL からバイナリログを読み取る期間 (秒単位) | なし | なし |
binlog イベント期間の変換 | バイナリログ レプリケーション ユニットがバイナリログを解析して SQL ステートメントに変換する期間 (秒単位) | なし | なし |
ディスパッチ binlog イベント期間 | バイナリログ レプリケーション ユニットがバイナリログ イベントをディスパッチする期間 (秒単位) | なし | なし |
トランザクション実行レイテンシー | バイナリログ レプリケーション ユニットがダウンストリームへのトランザクションを実行する期間 (秒単位) | なし | なし |
binlog イベントのサイズ | バイナリログ レプリケーション ユニットがリレー ログまたは上流の MySQL から読み取るバイナリログ イベントのサイズ | なし | なし |
DML キューの残りの長さ | 残りの DML ジョブ キューの長さ | なし | なし |
合計 SQL ジョブ | 単位時間あたりの新規追加ジョブ数 | なし | なし |
完了した SQL ジョブ | 単位時間あたりの終了ジョブ数 | なし | なし |
ステートメント実行レイテンシー | バイナリログ レプリケーション ユニットがダウンストリームに対してステートメントを実行する期間 (秒単位) | なし | なし |
ジョブ期間を追加 | binlog レプリケーション ユニットがジョブをキューに追加する期間 (秒単位) | なし | なし |
DML 競合検出期間 | binlog レプリケーション ユニットが DML で競合を検出する期間 (秒単位) | なし | なし |
スキップされたイベント期間 | バイナリログ レプリケーション ユニットがバイナリログ イベントをスキップする期間 (秒単位) | なし | なし |
同期されていないテーブル | 現在のサブタスクでシャード DDL ステートメントを受け取っていないテーブルの数 | なし | なし |
シャードロックの解決 | 現在のサブタスクがシャード DDL ロックが解決されるのを待っているかどうか。 0 より大きい値は、シャード DDL ロックが解決されるのを待っていることを示します | なし | なし |
理想的な QPS | DMの実行時間が0のときに達成できる最高のQPS | なし | なし |
binlog イベント行 | binlog イベントの行数 | なし | なし |
終了したトランザクションの合計 | 終了したトランザクションの合計数 | なし | なし |
レプリケーション トランザクション バッチ | ダウンストリームに対して実行されたトランザクションの sql 行の数 | なし | なし |
フラッシュ チェックポイントの時間間隔 | チェックポイントをフラッシュする時間間隔 (秒単位) | なし | なし |
中継ログ
ノート:
現在、DM v2.0 はリレー ログ機能の有効化をサポートしていません。
指標名 | 説明 | アラート | 重大度 |
---|
ストレージ容量 | 中継ログが占有するディスクの記憶容量 | なし | なし |
保管残り | リレーログが占有するディスクの残りのストレージ容量 | 値が 10G を下回ると、アラートが必要になります | 致命的 |
プロセスはエラーで終了します | リレー ログで DM-worker 内でエラーが発生し、終了します | 即時アラート | 致命的 |
リレー ログ データの破損 | 破損したリレー ログ ファイルの数 | 即時アラート | 緊急 |
マスターからバイナリログを読み取れません | リレー ログが上流の MySQL から binlog を読み取るときに発生したエラーの数 | 即時アラート | 致命的 |
リレーログの書き込みに失敗しました | リレー ログが binlog をディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
binlog ファイルのインデックス | リレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。 | なし | なし |
マスターとリレー間の binlog ファイルのギャップ | アップストリーム マスターの背後にあるリレー ログ内の binlog ファイルの数 | relay の処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
ビンログ位置 | 最新の中継ログファイルの書き込みオフセット | なし | なし |
binlog イベント期間の読み取り | リレー ログが上流の MySQL から binlog を読み取る期間 (秒単位) | なし | なし |
リレーログの書き込み期間 | リレー ログが毎回 binlog をディスクに書き込む期間 (秒単位) | なし | なし |
binlog イベントのサイズ | リレー ログがディスクに書き込む単一の binlog イベントのサイズ | なし | なし |
実例
Grafana ダッシュボードでは、インスタンスのデフォルト名はDM-instance
です。
中継ログ
指標名 | 説明 | アラート | 重大度 |
---|
ストレージ容量 | リレーログが占有するディスクの総記憶容量 | なし | なし |
保管残り | リレーログが占有するディスク内の残りのストレージ容量 | 値が 10G 未満になるとアラートが発生します | 致命的 |
プロセスはエラーで終了します | DM-worker でリレー ログにエラーが発生し、終了する | 即時アラート | 致命的 |
リレー ログ データの破損 | 破損したリレー ログの数 | 即時アラート | 緊急 |
マスターからバイナリログを読み取れません | リレー ログが上流の MySQL から binlog を読み取るときに発生したエラーの数 | 即時アラート | 致命的 |
リレーログの書き込みに失敗しました | リレー ログが binlog をディスクに書き込むときに発生したエラーの数 | 即時アラート | 致命的 |
binlog ファイルのインデックス | リレー ログ ファイルの最大インデックス番号。たとえば、「値 = 1」は「relay-log.000001」を示します。 | なし | なし |
マスターとリレー間の binlog ファイルのギャップ | relay 処理単位が上流のマスターより遅れている binlog ファイルの数 | relay の処理単位が上流のマスターより遅れている binlog ファイルの数が 1 を超え (>1)、その状態が 10 分以上続くと、アラートが発生します。 | 致命的 |
ビンログ位置 | 最新の中継ログファイルの書き込みオフセット | なし | なし |
バイナリログ期間の読み取り | リレーログが上流の MySQL からバイナリログを読み取る期間 (秒単位) | なし | なし |
リレーログの書き込み期間 | リレーログがバイナリログを毎回ディスクに書き込む期間 (秒単位) | なし | なし |
バイナリログサイズ | リレー ログがディスクに書き込む単一の binlog イベントのサイズ | なし | なし |
仕事
指標名 | 説明 | アラート | 重大度 |
---|
タスクの状態 | 移行のサブタスクの状態 | サブタスクが 10 分以上一時停止されると、アラートが発生します | 致命的 |
ロードの進行状況 | ロード ユニットのロード プロセスが完了した割合。値の範囲は 0% ~ 100% です | なし | なし |
マスターとシンサー間の binlog ファイルのギャップ | バイナリログ レプリケーション ユニットがアップストリーム マスターの背後にあるバイナリログ ファイルの数 | なし | なし |
シャードロックの解決 | 現在のサブタスクがシャーディング DDL 移行を待機しているかどうか。 0 より大きい値は、現在のサブタスクがシャーディング DDL 移行を待機していることを意味します | なし | なし |