オペレーティングシステムのパフォーマンスを調整する

このドキュメントでは、CentOS 7 の各サブシステムのチューニング方法を紹介します。

ノート：
CentOS 7 オペレーティングシステムの既定の構成は、中程度のワークロードで実行されるほとんどのサービスに適しています。特定のサブシステムのパフォーマンスを調整すると、他のサブシステムに悪影響を及ぼす可能性があります。したがって、システムをチューニングする前に、すべてのユーザーデータと構成情報をバックアップしてください。
本番環境に適用する前に、テスト環境ですべての変更を完全にテストします。

パフォーマンス分析方法

システムのチューニングは、システムパフォーマンス分析の結果に基づいている必要があります。このセクションでは、パフォーマンス分析の一般的な方法を示します。

60秒で

60,000 ミリ秒での Linux パフォーマンス分析は、著者のブレンダングレッグと Netflix パフォーマンスエンジニアリングチームによって公開されています。使用するすべてのツールは、Linux の公式リリースから入手できます。次のリスト項目の出力を分析して、最も一般的なパフォーマンスの問題をトラブルシューティングできます。

uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top

詳細な使用方法については、対応するmanの説明を参照してください。

パフォーマンス

perf は Linux カーネルが提供する重要なパフォーマンス分析ツールであり、ハードウェアレベル (CPU/PMU、パフォーマンス監視ユニット) の機能とソフトウェアの機能 (ソフトウェアカウンター、トレースポイント) をカバーしています。詳細な使用方法については、パフォーマンスの例を参照してください。

BCC/bpftrace

CentOS 7.6 以降、Linux カーネルは Berkeley Packet Filter (BPF) をサポートしています。したがって、適切なツールを選択して、 60秒での結果に基づいて詳細な分析を行うことができます。 perf/ftrace と比較して、BPF はプログラマビリティを提供し、パフォーマンスのオーバーヘッドを小さくします。 kprobe と比較して、BPF はより高いセキュリティを提供し、実稼働環境により適しています。 BCC ツールキットの詳細な使用方法については、 BPF コンパイラコレクション (BCC)を参照してください。

性能調整

このセクションでは、分類されたカーネルサブシステムに基づくパフォーマンスチューニングを紹介します。

CPU—周波数スケーリング

cpufreq は、CPU 周波数を動的に調整するモジュールです。 5つのモードをサポートしています。サービスのパフォーマンスを確保するには、パフォーマンスモードを選択し、CPU 周波数をサポートされている最高の動作周波数に動的に調整せずに固定します。この操作のコマンドはcpupower frequency-set --governor performanceです。

CPU—割り込みアフィニティ

irqbalanceのサービスでオートバランスが実現できます。
手動バランス:
- 割り込みのバランスをとる必要があるデバイスを特定します。 CentOS 7.5 以降、システムは、 be2iscsiドライバーと NVMe 設定を使用するデバイスなど、特定のデバイスとそのドライバーに最適な割り込みアフィニティを自動的に構成します。このようなデバイスの割り込みアフィニティを手動で構成することはできなくなりました。
- その他のデバイスについては、チップのマニュアルを調べて、これらのデバイスが割り込みの分散をサポートしているかどうかを確認してください。
  - そうでない場合、これらのデバイスのすべての割り込みは同じ CPU にルーティングされ、変更できません。
  - その場合、 smp_affinityマスクを計算し、対応する構成ファイルを設定します。詳細はカーネルドキュメントを参照してください。

NUMA CPU バインディング

Non-Uniform Memory Access (NUMA) ノード間でのメモリアクセスを可能な限り回避するには、スレッドの CPU アフィニティを設定して、スレッド/プロセスを特定の CPU コアにバインドできます。通常のプログラムでは、CPU バインドにnumactlコマンドを使用できます。詳細な使用方法については、Linux のマニュアルページを参照してください。ネットワークインターフェイスカード (NIC) の割り込みについては、ネットワークを調整するを参照してください。

メモリ - トランスペアレントヒュージページ (THP)

データベースアプリケーションに THP を使用することはお勧めしません。これは、データベースのメモリアクセスパターンが連続的ではなく疎であることが多いためです。高レベルのメモリ断片化が深刻な場合、THP ページが割り当てられると、より高いレイテンシーが発生します。 THP の直接圧縮が有効になっている場合、CPU 使用率が急増します。したがって、THP を無効にすることをお勧めします。

echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

メモリ - 仮想メモリパラメータ

dirty_ratioパーセンテージ比率。ダーティページキャッシュの合計量が合計システムメモリのこの割合に達すると、システムはpdflush操作を使用してダーティページキャッシュをディスクに書き込み始めます。デフォルト値のdirty_ratioは 20% で、通常は調整する必要はありません。 NVMe デバイスなどの高性能 SSD の場合、この値を下げると、メモリ再利用の効率が向上します。
dirty_background_ratioパーセンテージ比率。ダーティページキャッシュの合計量が合計システムメモリのこの割合に達すると、システムはバックグラウンドでディスクへのダーティページキャッシュの書き込みを開始します。デフォルト値のdirty_background_ratioは 10% で、通常は調整する必要はありません。 NVMe デバイスなどの高性能 SSD の場合、低い値を設定すると、メモリ再利用の効率が向上します。

ストレージとファイルシステム

コア I/O スタックリンクは長く、ファイルシステムレイヤー、ブロックデバイスレイヤー、ドライバーレイヤーを含みます。

I/O スケジューラ

I/O スケジューラは、ストレージデバイスで I/O 操作をいつ、どのくらい実行するかを決定します。 I/O エレベーターとも呼ばれます。 SSD デバイスの場合、I/O スケジューリングポリシーをnoopに設定することをお勧めします。

echo noop > /sys/block/${SSD_DEV_NAME}/queue/scheduler

フォーマットパラメータ - ブロックサイズ

ブロックは、ファイルシステムの作業単位です。ブロックサイズは、1 つのブロックに格納できるデータ量を決定するため、毎回書き込みまたは読み取りを行うデータの最小量を決定します。

デフォルトのブロックサイズは、ほとんどのシナリオに適しています。ただし、ブロックサイズ (または複数のブロックのサイズ) が、通常、毎回読み書きされるデータ量と同じか、わずかに大きい場合は、ファイルシステムのパフォーマンスが向上し、データの格納効率が高くなります。小さなファイルは依然としてブロック全体を使用します。ファイルは複数のブロックに分散できますが、実行時のオーバーヘッドが増加します。

mkfsコマンドを使用してデバイスをフォーマットする場合、ファイルシステムオプションの一部としてブロックサイズを指定します。ブロックサイズを指定するパラメータは、ファイルシステムによって異なります。詳細については、 man mkfs.ext4の使用など、対応するmkfsのマニュアルページを参照してください。

`mount`パラメータ

mountコマンドでnoatimeオプションを有効にすると、ファイルの読み取り時にメタデータの更新が無効になります。 nodiratimeの動作が有効になっている場合、ディレクトリの読み取り時にメタデータの更新が無効になります。

ネットワークのチューニング

ネットワークサブシステムは、機密性の高い接続を備えたさまざまなパーツで構成されています。 CentOS 7 ネットワークサブシステムは、ほとんどのワークロードで最高のパフォーマンスを提供するように設計されており、これらのワークロードのパフォーマンスを自動的に最適化します。したがって、通常、ネットワークパフォーマンスを手動で調整する必要はありません。

通常、ネットワークの問題は、ハードウェアまたは関連デバイスの問題が原因で発生します。そのため、プロトコルスタックを調整する前に、ハードウェアの問題を除外してください。

ネットワークスタックは大部分が自己最適化されていますが、ネットワークパケット処理の次の側面がボトルネックになり、パフォーマンスに影響を与える可能性があります。

NIC ハードウェアキャッシュ: ハードウェアレベルでパケット損失を正しく観察するには、 ethtool -S ${NIC_DEV_NAME}コマンドを使用してdropsフィールドを観察します。パケットロスが発生した場合、ハード/ソフト割り込みの処理速度がNICの受信速度に追いついていない可能性があります。受信バッファサイズが上限より小さい場合は、RX バッファを増やしてパケット損失を回避することもできます。クエリコマンドはethtool -g ${NIC_DEV_NAME} 、変更コマンドはethtool -G ${NIC_DEV_NAME}です。
ハードウェア割り込み: NIC が Receive-Side Scaling (RSS、マルチ NIC 受信とも呼ばれます) 機能をサポートしている場合は、 /proc/interruptsの NIC 割り込みを観察します。割り込みが不均一な場合は、 CPU—周波数スケーリング、 CPU—割り込みアフィニティ、およびNUMA CPU バインディングを参照してください。 NIC が RSS をサポートしていない場合、または RSS の数が物理 CPU コアの数よりもはるかに少ない場合は、Receive Packet Steering (RPS、RSS のソフトウェア実装と見なすことができます) を構成し、RPS 拡張の Receive Flow Steering ( RFS)。詳細な設定については、カーネルドキュメントを参照してください。
ソフトウェア割り込み: /proc/net/softnet_statの監視を観察します。 3 番目の列を除く他の列の値が増加している場合は、 softirqに対してnet.core.netdev_budgetまたはnet.core.dev_weightの値を適切に調整して、より多くの CPU 時間を取得します。さらに、CPU 使用率を確認して、CPU を頻繁に使用しているタスクと最適化できるかどうかを判断する必要もあります。
アプリケーションソケットの受信キュー: ss -nmpのResv-q列を監視します。キューがいっぱいの場合は、アプリケーションソケットキャッシュのサイズを増やすか、自動キャッシュ調整方法を使用することを検討してください。また、アプリケーションレイヤーのアーキテクチャを最適化し、ソケットの読み取り間隔を短縮できないか検討してください。
イーサネットフロー制御: NIC とスイッチがフロー制御機能をサポートしている場合、この機能を使用して、カーネルが NIC キュー内のデータを処理する時間を残し、NIC バッファオーバーフローの問題を回避できます。
割り込みの結合: ハードウェア割り込みが頻繁すぎるとシステムパフォーマンスが低下し、ハードウェア割り込みが遅すぎるとパケット損失が発生します。新しい NIC は割り込み合体機能をサポートし、ドライバーがハードウェア割り込みの数を自動的に調整できるようにします。 ethtool -c ${NIC_DEV_NAME}を実行してチェックし、 ethtool -C ${NIC_DEV_NAME}を実行してこの機能を有効にすることができます。適応モードにより、NIC は割り込み合体を自動的に調整できます。このモードでは、ドライバーはトラフィックモードとカーネル受信モードをチェックし、合体設定をリアルタイムで評価してパケット損失を防ぎます。異なるブランドの NIC には、異なる機能とデフォルト構成があります。詳細は、NIC のマニュアルを参照してください。
アダプターキュー: プロトコルスタックを処理する前に、カーネルはこのキューを使用して、NIC が受信したデータをバッファーします。各 CPU には独自のバックログキューがあります。このキューにキャッシュできるパケットの最大数はnetdev_max_backlogです。 /proc/net/softnet_statの 2 番目の列を確認します。行の 2 列目が増加し続ける場合は、CPU [row-1] キューがいっぱいで、データパケットが失われていることを意味します。この問題を解決するには、引き続きnet.core.netdev_max_backlogの値を 2 倍にします。
送信キュー: 送信キューの長さの値によって、送信前にキューに入れることができるパケットの数が決まります。デフォルト値は1000で、10 Gbps には十分です。しかし、 ip -s linkの出力から TX エラーの値を観察した場合は、それを 2 倍にすることができます: ip link set dev ${NIC_DEV_NAME} txqueuelen 2000 。
Driver: NIC ドライバーは通常、チューニングパラメーターを提供します。デバイスのハードウェアマニュアルとそのドライバのドキュメントを参照してください。

オペレーティング システムのパフォーマンスを調整する