3月27日(米国時間)に公開された初の7系リリースFreeBSD 7.0-RELEASEでは、通常負荷時でピーク性能を350%改善、高負荷時で1500%のピーク性能改善が確認されたという印象的なアナウンスがおこなわれた。FreeBSD 7は8コアまでのシステムでリニアな性能のスケールが確認されるなどマルチコア/プロセッサでスケールするOSとして生まれ変わったことを示すターニングポイントとなったわけだが、その秘訣はどこにあったのだろうか。
最初に結論をまとめると、マルチコア/プロセッサでリニアにスケールするための万能薬があったのではなく、システムの全方位に渡る地道な改善がこうした結果をもたらしている。ULEスケジューラの改善によるスケールの実現や、マルチスレッドでスケールするメモリアロケータjemalloc(3)の導入は、いわばそうした取り組みのひとつであって、すべてではない。小さな改善の積み重ねが、1500%という驚異的な数値として表れている。
FreeBSDデベロッパRandall Stewart氏 - SCTPの開発やMIPSへの移植に携わっている |
AsiaBSDCon 2008に来日したFreeBSDデベロッパRandall Stewart氏はマルチコアシステムにおいてどのようにロックコンテンションを削減するかを、自身のSCTPの開発を例にあげながら説明した。そこに見て取れるのは、地道な改善のみがこうしたパフォーマンスの向上をもたらすということだ。
プロセッサのマルチコア化が進んでいるため、OSとしてはプロセッサが同じデータ構造に対して同時にアクセスする場合に、健全で首尾一貫した操作を提供する必要がある。たとえばその場合、もっとも一般的な方法といえばmutexを使うということになる。mutexはシンプルで効果的な方法だが、その場合、ロックをかけている間にほかのスレッドが同じデータに対してロックを要求して待ちが発生するロックコンテンションが問題となる。ロックコンテンションが多発するようだとマルチコアのパフォーマンスが効果的に発揮されないことになる。ロックコンテンションを削減することが、マルチコアにおける高いパフォーマンスを実現することにつながっている。
FreeBSDにはロックコンテンションを測定する目的でLOCK_PROFILING(9)オプションが用意されている。LOCK_PROFILINGをカーネルオプションに追加してカーネルを再構築するとdebug.lock.prof.enableをはじめdebug.lock.prof.reset、debug.lock.prof.acquisitions、debug.lock.prof.records、debug.lock.prof.maxrecords、debug.lock.prof.rejected、debug.lock.prof.hashsize、debug.lock.prof.collisions、debug.lock.prof.statsなどのsysctl値が現れる。debug.lock.prof.enableは0に設定されているため、これを1に設定すれば同プロファイリング機能が有効になる。
debug.lock.prof.enableを1に設定してから試験を開始し、試験が完了したら再び値を0に戻してからdebug.lock.prof.stats sysctl値をチェックする。同値に最大ロック保持時間、合計ロック保持時間、合計ロック待ち時間、合計要求数、平均ロック保持時間、平均ロック待ち時間、コンテンション発生回数などの情報が記録されているので、これを活用するという寸法だ。。
Randall Stewart氏は実際にSCTPの開発(sys/netinet/sctp_output.c)で計測したコンテンション結果を例にあげ、データ構造やアルゴリズムを工夫して本当にロックが必要になる最小限のケースへ実装を変更し、プロファイリング結果で最終的に12,252回要求されていたロックを632回まで削減することに成功したと説明した。ロック要求が従来の5%まで減ったことになる。ソケットセンダーとトランスミッタの競合は45%から0.02%へ削減されている。
同氏はこうした結果を通じ、マルチコアで動作するOSへ共有リソースを追加する場合には、
- 注意深くデータ構造を選定すること
- ロックコンテンションを調査し
- 可能な限りロックが発生しないように仕組みを工夫すること
などが必要になるとしている。この方法は状況は違えどもカーネルランドにもユーザランドにも適用できると説明している。
同氏の紹介した方法はSCTPの実装に限定されたものだが、ロックコンテンションの発生を測定してデータ構造や処理を工夫しロックコンテンションが発生しないようにする作業は、FreeBSDカーネルとユーザランド全域に渡って続けられている改善内容だ。こうした継続的な努力がスケーラビリティの向上につながっている。こうした取り組みがどこまでパフォーマンスやスケーラビリティを発揮できるかはこれからの開発の課題でもあり、8系列の開発を通じて継続されることになりそうだ。