主な指標
TiUP を使用して TiDB クラスターをデプロイすると、監視システム (Prometheus & Grafana) が同時にデプロイされます。詳細については、 TiDB 監視フレームワークの概要を参照してください。
Grafana ダッシュボードは、Overview、PD、TiDB、TiKV、Node_exporter、Disk Performance、Performance_overview などを含む一連のサブ ダッシュボードに分かれています。診断に役立つ多くの指標があります。
日常的な操作については、コンポーネント (PD、TiDB、TiKV) のステータスとクラスター全体の概要を、主要なメトリックが表示される概要ダッシュボードから取得できます。このドキュメントでは、これらの主要な指標について詳しく説明します。
主要指標の説明
概要ダッシュボードに表示される主要なメトリックを理解するには、次の表を確認してください。
サービス | パネル名 | 説明 | 正常範囲 |
---|---|---|---|
サービス ポート ステータス | サービスアップ | 各サービスのオンライン ノード数。 | |
PD | PDの役割 | 現在の PD の役割。 | |
PD | ストレージ容量 | TiDB クラスターの合計ストレージ容量。 | |
PD | 現在のストレージ サイズ | TiKV レプリカが占有するスペースを含む、TiDB クラスターの占有ストレージ容量。 | |
PD | 通常店舗 | 通常状態のノード数。 | |
PD | 異常な店舗 | 異常状態のノード数。 | 0 |
PD | 地域数 | 現在のクラスター内のリージョンの総数。リージョンの数はレプリカの数とは関係がないことに注意してください。 | |
PD | 99% 完了_cmds_duration_seconds | pd-server リクエストを完了するまでの 99 パーセンタイル期間。 | 5ms未満 |
PD | Handle_requests_duration_seconds | PD 要求のネットワーク継続時間。 | |
PD | リージョンの健康 | 各リージョンの状態。 | 通常、保留中のピアの数は 100 未満であり、欠落しているピアの数が常に0 を超えるとは限りません。 |
PD | ホットライト地域のリーダー分布 | 各 TiKV インスタンスの書き込みホットスポットであるリーダーの総数。 | |
PD | ホットリード地域のリーダー分布 | 各 TiKV インスタンスの読み取りホットスポットであるリーダーの総数。 | |
PD | リージョンハートビート レポート | インスタンスごとに PD に報告されたハートビートの数。 | |
PD | 99%のリージョンハートビートレイテンシー | TiKV インスタンスごとのハートビートレイテンシー(P99)。 | |
TiDB | ステートメント OPS | SELECT 、 INSERT 、 UPDATE 、およびその他のタイプのステートメントに従ってカウントされる、1 秒あたりに実行されるさまざまなタイプの SQL ステートメントの数。 | |
TiDB | 間隔 | 実行時間。 1. クライアントのネットワーク要求が TiDB に送信されてから、TiDB が要求を実行した後に要求がクライアントに返されるまでの時間。通常、クライアント要求は SQL ステートメントの形式で送信されます。ただし、この期間には、 COM_PING 、 COM_SLEEP 、 COM_STMT_FETCH 、およびCOM_SEND_LONG_DATA などのコマンドの実行時間が含まれる場合があります。2. TiDB はマルチクエリをサポートしているため、TiDB は select 1; select 1; select 1; などの複数の SQL ステートメントを一度に送信することをサポートしています。この場合、このクエリの合計実行時間には、すべての SQL ステートメントの実行時間が含まれます。 | |
TiDB | インスタンス別 CPS | CPS By Instance: 各 TiDB インスタンスのコマンド統計。コマンド実行結果の成功または失敗に従って分類されます。 | |
TiDB | クエリ OPM の失敗 | 各 TiDB インスタンスで 1 秒あたりに SQL ステートメントを実行したときに発生したエラーに基づく、エラーの種類 (構文エラーや主キーの競合など) の統計。エラーが発生したモジュールとエラー コードが含まれます。 | |
TiDB | 接続数 | 各 TiDB インスタンスの接続番号。 | |
TiDB | メモリ使用量 | 各 TiDB インスタンスのメモリ使用量統計。プロセスが占有するメモリと Golang がヒープに適用するメモリに分けられます。 | |
TiDB | 取引OPS | 1 秒あたりに実行されたトランザクションの数。 | |
TiDB | 取引期間 | トランザクションの実行時間 | |
TiDB | KV コマンド OPS | 実行された KV コマンドの数。 | |
TiDB | KV コマンド持続時間 99 | KV コマンドの実行時間。 | |
TiDB | PD TSO OPS | TiDB が PD から取得する 1 秒あたりの TSO の数。 | |
TiDB | PD TSO 待機時間 | PD が TSO を返すのを TiDB が待機する期間。 | |
TiDB | TiClientリージョンエラー OPS | TiKV によって返されたリージョン関連のエラーの数。 | |
TiDB | ロック解決 OPS | ロックを解決する TiDB 操作の数。 TiDB の読み取りまたは書き込み要求がロックに遭遇すると、ロックを解決しようとします。 | |
TiDB | KV バックオフ OPS | TiKV から返されたエラーの数。 | |
TiKV | 盟主 | 各 TiKV ノードのリーダーの数。 | |
TiKV | 領域 | 各 TiKV ノードのリージョン数。 | |
TiKV | CPU | 各 TiKV ノードの CPU 使用率。 | |
TiKV | メモリー | 各 TiKV ノードのメモリ使用量。 | |
TiKV | 店舗サイズ | 各 TiKV インスタンスが使用するストレージ スペースのサイズ。 | |
TiKV | cfサイズ | 各列ファミリーのサイズ (略して CF)。 | |
TiKV | チャネルがいっぱい | 各 TiKV インスタンスの「チャネルがいっぱい」エラーの数。 | 0 |
TiKV | サーバーレポートの失敗 | 各 TiKV インスタンスによって報告されたエラー メッセージの数。 | 0 |
TiKV | スケジューラ保留中のコマンド | 各 TiKV インスタンスで保留中のコマンドの数。 | |
TiKV | コプロセッサーのエグゼキューター数 | TiKV が 1 秒間に受信したコプロセッサー操作の数。コプロセッサーの各タイプは個別にカウントされます。 | |
TiKV | コプロセッサー要求期間 | コプロセッサーの読み取り要求の処理にかかった時間。 | |
TiKV | ラフトストアCPU | raftstore スレッドの CPU 使用率 | デフォルトのスレッド数は 2 です ( raftstore.store-pool-size で構成)。 1 つのスレッドで 80% を超える値は、CPU 使用率が非常に高いことを示します。 |
TiKV | コプロセッサ CPU | コプロセッサー・スレッドの CPU 使用率。 | |
システム情報 | Vコア | CPU コアの数。 | |
システム情報 | メモリー | メモリの合計。 | |
システム情報 | CPU使用率 | CPU使用率、最大100%。 | |
システム情報 | 荷重[1m] | 1分以内の過負荷。 | |
システム情報 | 利用可能なメモリ | 使用可能なメモリのサイズ。 | |
システム情報 | ネットワーク トラフィック | ネットワーク トラフィックの統計。 | |
システム情報 | TCP 再送 | TOC 再送信の頻度。 | |
システム情報 | IO 使用率 | ディスク使用率、最大 100%。通常、使用率が 80% ~ 90% までの場合は、新しいノードの追加を検討する必要があります。 |