HOME / 日記 / ハイパーバイザー型一択の仮想化だけじゃダメ

Date: 2011/11/13 |  このエントリーをはてなブックマークに追加  |  Tags: Solaris 11, Redhat Enterprise Linux, 仮想化, Container, Zone, KVM

ハイパーバイザー型一択の仮想化だけじゃダメ

ハイパーバイザー型仮想化は便利で、私も愛用しています。

この仮想化の最大のメリットはOSを選べることです。二つ目はライブマイグレーション(動かしたまま別のハードに移動できる)ことでしょうか。この2つのメリットは偉大です。

しかし今日は、ハイパーバイザー型の仮想化のデメリットを経験を交えつつ、Solaris11のコンテナ(Zone)の特徴の話しをしたいと思います。

ハイパーバイザー仮想化の問題

システム構築をするに当たり、仮想化をして当たり前の時代になってきました。

今のように「クラウド」とか「仮想化」が叫ばれる以前から、仮想化のメリット・デメリットは語られてきていました。弊社も2001年頃から実は様々な仮想化をしていたのですが、本格的にはネットワークやストレージを含めた仮想化を3年ほど前からスタート。やはり善し悪しも含めて、ノウハウは溜まっています。

メリットはやはり、サーバーが本当の意味で「サーバー=サービスをする単位」に変わること。つまり、「サーバー≠機械」になることです。ベアメタルの物理機はもはや資源であって言葉の意味の通りの「サーバー」ではありません。この手の話はいたるところで話しましたが、やはり「サービスサイクルとファイナンシャルサイクルの分離ができる」ことが、最大のメリットとなります。

逆に、ハイパバイザ型の仮想化を使う、最大のデメリットは「遅いこと」です。

これは、最近の十分な仮想化支援機能を持ったCPUを使ったとしても、どうにもならない性能劣化があります。たとえばベアメタル上にアプリケーションサーバやDBMSなど、実際のサービスを立てて実行、一方で、(たとえば)VMware ESXなどのハイパーバイザの上に1つだけ仮想サーバを立てて同じサービスを実行してみればわかります。

あなたのサーバが「全てのサーバ(サービスの為の論理単位)」で、なんの問題も無くできれば、ハイパバイザ型仮想化システムだけで十分です。

そしてアプリケーション開発者から、「性能によるインシデントが起きるのは仮想化のせいじゃないの?」といわれたとき、完全にリジェクトし続けることができる根拠と、アプリケーション開発者を完全に説得できる説明力があれば、それで十分です。

それは無理。そんな方が今回の対象です。

どうしても無理なところは認めざるを得なく、仮想化システムの隣に、特殊な物理機を設置することになってしまったインフラエンジニアも多いとは思います。

仮想化システムと物理機のネットワークの区切りをきれいにすることは案外難しいですし、管理的にも特殊要素が増えて、苦々しく思っていることでしょう。

コンテナ型仮想化の特徴

コンテナ型仮想化は、ある側面においては単なるプロセスパーティショニングです。

それ自体は、新しい技術ではありません。

chrootのような、ディレクトリのルートを別の箇所の閉じ込める方法に加え、FreeBSDのjailの用に互いのプロセスも見えなくしたり、LinuxのVirtuozzo/OpenVZ、lxc+cgroupのように、CPUパワーやカーネルリソースの分割を加えたりして様々な用途に使われています。

大きなメリットは、仮想化による負荷がほぼ無いことです。

1つのベアメタルにインストールされたサーバに、1つのコンテナを作りサービスを動かした場合、ベアメタルと同じ速度がでます。IO、メモリ、CPU、ディスク、どれをとっても、そのままの速度で動きます。

そのため、大きなDBMSや負荷の高いサービスを動かしたとしても、仮想化による特別なの問題は発生しません。ハードウェアリソースとサーバが密着しない、優れた環境が作れます。

ただしコンテナ型仮想化を苦々しく思ってるユーザは多々います。なぜならコンテナの中でサービスを作る人間に「制約」が大きくでることがあるためです。あるコンテナ型仮想化では、カーネルリソースが妙に少ないため、プログラムが全うに動かなかったり、バイナリパッケージを入れても妙な動作をしたり、そもそも動かなかったり。

  • 何かが違う。

これが、コンテナ型仮想化を使う大きなデメリットです。

Solaris Container(Zone)の強化点(隔離性の向上)

昨日のブログにて書いた、仮想化技術:Solaris Container(Zone)の強化と隔離性の向上以上に掘り下げて見ましょう。

Solaris 11のコンテナ技術はこれらに比べ、次の点が優れています。

  • CPUリソースの制御、コア単位の委譲
    • FSSに加え、CPUをコア単位で占有させることができます(当然、トータルでの効率は下がります)。
  • 様々なメモリキャップ
    • 一定以上のメモリ割り当ての制限
    • 一定以上のSWAPの制限
    • 一定以上のカーネルリソース(SHM、Lockmem)の制限
  • ディスクのFS単位の委譲
    • ZFSのデータセット単位で、FSを委譲できます。
  • ネットワークインタフェイスの委譲
    • 特定のNICをコンテナに委譲できます。
    • またハイパバイザ仮想化のように、仮想NICや仮想スイッチ、NATを作って、仮想NICを委譲することもできます。
  • OSのバージョンの混在
    • SPARCではSolaris8のユーザランド以降、x86ではSolaris10のユーザランドの移設ができます。カーネルだけ11を使い、ユーザランドだけ古いものを使うイメージです。
    • 余談ですが、Illumosにはlxといって、Illumosカーネルの上で、Linuxのコンテナを動かすことができます。元々OpenSolarisについていた機能です。またIllumosにはKVMもあります。
  • OSの標準の機能
    • OSの標準の機能であるため、OSが提供しているほぼ全てのミドルウェアが動作します。

これらの特徴の結果、普通のサービスをコンテナで動かすだけではなく、ファイルサーバ型コンテナ、NATBOX型コンテナ、ロードバランサーコンテナ、FireWallコンテナなど、仮想アプライアンス的なコンテナで実現ができるほどに、隔離性が高くなっています。

また、OS標準の機能であったため、何かが違う感もあまりありません。

Solarisコンテナは以上のように、コンテナ型仮想化の問題点をなるべく拭い去り、隔離性を高めているのが特徴です。Linuxでコンテナ型仮想化に痛い目に遭ってしまった人も、Solarisのコンテナならば、結構普通に使えるのではないでしょうか。

ちなみに、Solarisコンテナの大きなデメリットは、OSを選べないことと、ライブマイグレーションができないことです。

臨界点の動作

それぞれの仮想化は臨界点ではどのように動作するでしょう?

大抵の環境では、1つのベアメタルに1つのサーバを「だけ」を上げるのはもったいないでしょうから、なんだかんだいっても複数の仮想サーバを収容するでしょう。そこで、1つの仮想サーバがベアメタルの全体まで利用してしまうと他の仮想サーバに影響を与えるため、大抵はキャップといって利用上限をかけます。

ハイパバイザ型の仮想化の場合、CPUキャップまで当たった場合、どうなるでしょうか?

これは面白いことに、その中のSYSCALLの一部が、サービス不能になるまで応答が悪くなり、ユーザランドの速度が極端に劣化します。

つまりこんな感じです。とあるプロセスのSYSが■、USR□だとして、次のような配分で使っているとします。これがベアメタルのリソースを全て与えた全開速度の時だとします。

■■■□□□□□□□

このままではベアメタル全体を使ってしまい、他の仮想サーバが動かなくなるので、このサーバを0.5CPUとします。すると、このようになります。

■■■□□

SYSCALLはほとんどのケースで実際にデバイスなどを触るのにかかってしまっている時間であるため、減らすことはできません。

さらに0.3CPUだとどうなるでしょう?

■■■

この状態で、サービスは動作不能になりインシデントとなります。ロードアベレージはみるみる増えサーバは一見停止します。

また、SYSCALLの一部がサービス不能になるまで止まるのは、パラバーチャリゼーションドライバに制御が移るためでもあります。

ハイパバイザ型のコンテキストスイッチの実体は、次のようなイメージです

  • 仮想サーバA:カーネルA
    • プロセスAα
    • プロセスAβ
    • プロセスAγ
  • 仮想サーバB:カーネルB
    • プロセスBα
    • プロセスBβ

ハイパバイザのコンテキストスイッチは、仮想サーバAとBを切り替えることであり、その中のカーネルA、カーネルBがそれぞれコンテキストスイッチをプロセスに対して行います。

パラバーチャリゼーションドライバを入れるとこのようになります。

プロセスAαカーネルAに、IOを含むようなSYSCALLを投げると、それはパラバーチャリゼーションドライバを経由してハイパバイザに処理が移ります。このとき仮想サーバAがCPUを使い尽くしていたら、ハイパバイザはどうするでしょうか?

以上のように、ハイパバイザ型仮想化システムでのキャパシティプランニングでは、

  • CPU飽和があっという間にサービスダウンに繋がる

ことを肝に据えておいた方がいいでしょう。

逆に、ハイパバイザ型仮想化は、他のサーバへのインパクトは少なく、キャパシティプランニングをうまくやっておけば、他のサーバのユーザに気がつかれないほどです。


コンテナ型の仮想化の場合、CPUキャップまで当たってしまった場合、どうなるでしょうか?

先ほどの例と同じように、とあるプロセスのSYSが■、USR□だとして、次のような配分で使っているとします。これがベアメタルのリソースを全て与えた全開速度の時だとします。

■■■□□□□□□□

このままではベアメタル全体を使ってしまい、他の仮想サーバが動かなくなるので、このサーバを0.5CPUとします。するとその仮想サーバはこの程度のCPUを使います。

■■■□□□

さらに0.3CPUだとどうなるでしょう?

■■■□□

これはなぜでしょうか?

コンテナ型の仮想化システムは、カーネルは共通のリソースであるためです。そのためにコンテナ型の仮想化システムはSYSCALL側にはほとんどCPUキャップがかかりません。もちろん、SYSCALLにもデバイス動作を伴うもの、伴わないものがあり、ものによってはかかるものがあるのかも知れないのですが、私の経験則上は、このような形で動作しています。

加えて、コンテナ型のコンテキストスイッチの実体は、次のようなイメージです

  • 仮想サーバA:プロセスAα
  • 仮想サーバA:プロセスAβ
  • 仮想サーバA:プロセスAγ
  • 仮想サーバB:プロセスBα
  • 仮想サーバB:プロセスBβ

それぞれの仮想サーバにどうCPUを割り振るのか?ということは、1つのカーネルが重み付けで決めているため、コンテキストスイッチの入れ子が起きません。

従って、コンテナ型仮想サーバのキャパシティプランニングは、

  • SYSCALLが非常大きいプロセスを動作させられると、他のサーバに少なからず影響がある
  • メモリにキャップに関しては、当たらないように余裕を持つ。

ことを肝に銘じておくといいでしょう。あとはそのOSがどれだけコンテキストスイッチが上手なOSなのか?がテーマとなります。

もう一つ、突然出てきたメモリキャップに関してですが、これは1つのコンテナがメモリを使いすぎると、ページスキャナが動き回ってそのコンテナのメモリを積極的に解放するので、システム全体の応答性が下がります。

ちなみにもう一つあるのですが、これはちょっとブログではかけません(笑) でも普通のシチュエーションでは出会うことはまずないので、安心しましょう(笑)

仮想化選びのコツ:ハイブリッド型のススメ

ということで、仮想化システム選びというのは、実は本当に難しいのです。

インフラエンジニア的には1つの仮想化システムを選びたくなる気持ちはわかるのですが、実は1つの仮想化システムで全てを行うのは非常に非効率です。そのうち実運用にあわなくなり、特殊ルールがどんどん増えていくのが関の山でしょう。

ハイパバイザ型がいつか軽くなれば・・・。あるいはCPUがもっと高速になれば・・・。

ハイパバイザ型仮想化の問題はIOといわれ、パラバーチャリゼーションドライバを使うことで、回避をしようとしてきました。そして次にメモリ確保の問題といわれ、CPU側にもNPT(Nested Page Tables)などの支援機能が加わり、かなりのケースで仮想化のボトルネックは排除されました。

こういう問題は、仮想化システムの開発者はとっくに気がついていて、問題を拭うために日夜がんばっています。しかし構造的な問題を拭うのは難しい部分があり、どこまでいっても未来まで含めた要求仕様を超えられるのか?という問題がどこまでもつきまといます。

ということで、僕のお勧めは、隔離性の高いハイパバイザ型と、リソース利用効率の高いコンテナ型の、ハイブリッド利用です。これらをうまく配分すれば、大抵のシステムは仮想化完了です。

一般的に、仮想化選びは次の2つのトレードオフなのですが・・・

  • リソース利用効率
    • ハイパバイザ型 < コンテナ型
  • (リソース)隔離性
    • ハイパバイザ型 > コンテナ型

これを踏まえたところで、

  • Solarisのコンテナは、一般のコンテナ以上に隔離性を高めた。
  • Redhat Enterprise LinuxのKVMは、一般のハイパバイザより隔離性を若干犠牲にして、リソース効率を上げた。

面白いのは、全く違うアプローチで技術開発をしてる2社が、なんとなく似たようなところを落ち着きどころにしようとしてるところでしょうか。

それから、あともう一つ。

ハイパバイザ型仮想化で必ず考えないとならないのはライセンスとサポートです。サポートがあるOSを利用しても、1つでもサポート外だと全体が「サポート対象外」になりかねません。

  • ハイパバイザが、そのゲストOSをサポートしているか?
  • そのゲストOSは、そのハイパバイザで動くことをサポートしているか?

この2つも肝に銘じて調査して見ると良いでしょう。


日記

Recent Updates

openjdk(SPARC)

SPARC用のJAVA。 最近は新しいバージョンがSPARCでリリースされず、苦労している人も多いのですが、SPARC Solarisの界隈人達がビルドして代わりに使われているものです。 Solaris 11 SPARC jdk builds
»続きを読む

Solaris11のCPU(Critical Patch Unit)の当て方

コンピュータTips/Solaris/Solaris11のCPU(Critical Patch Unit)の当て方

Solaris 11.4には4つのリビジョンがあります。 2024年4月現在、Solaris自体の開発はメンテナンスフェーズになったわけでもなく、SRU毎に、最新機能がモリモリ入っていきます。 GA(Release 版) 一応、無償のOTNライセンスの利用も可能 いわゆる、リリース時点のバージョンのことですが、現在は 利用しません 。 以前は、1〜2年に1度の頻度でリリ …
»続きを読む

Emacs.appで書類(Documents)がアクセス出来ないとき

コンピュータTips/MacOSX/Emacs.appで書類(Documents)がアクセス出来ないとき

Catalina以降の権限問題なので、システム設定のセキュリティとポリシーの中にあるプライバシー内のFull Disk Accessに、Emacs.appと/usr/bin/rubyを入れればすむ。 /usrフォルダを、プライバシーの+から入れるのは、ちょっと面倒なので、あらかじめFinderのお気に入りの中に入れておくと良いでしょう。   rubyが入るのは、Emac …
»続きを読む

SONY WH-1000XM3

自分用メモです。 ノイズキャンセラーの性能が良い。 WH-1000Xのころは、ノイズキャンセラーを有効すると、音は聞こえないのに妙な音圧があったが、それがかなり軽減。個人的には気にならなくなった。 また、WH-1000Xのころは、ノイズキャンセラーを無効にしても、なんか作られたような音が出ていたような気がしたが、割と普通に聞こえる。 USB-Cになったのも良い。飛行機でも使う …
»続きを読む

Catalina(10.15)

Catalina Beta を入れ始めたので、自分用のまとめ。 2019/10/8、Catalinaが振ってきたので製品版用に記載を変えました。 32bitアプリを確認すること。 Activity Monitorで32bitアプリがわかるので、そういうアプリがあるなら代替品を見つけておくこと。 /etc以下のいくつかのファイルをバックアップしておくこと。 /etc …
»続きを読む

ディスクの不良を確認する(iostat -EnのError等)

ディスク関係のスタックをざっくり書くと次の様になっています 例、SAS Expanderを使う場合、 例、AHCIなどを使う場合、 これらのエラーは、次の様なコマンドで知ることができます。 出力結果例 このなかで、 たとえば、SATAディスクを利用している際に負荷が上がってしまい、ディスクの応答が間に合わないシチュエーションでは、Transport Errorが一気に …
»続きを読む

2017年、新年明けまして、おめでとうございます。

日記/2017年、新年明けまして、おめでとうございます。

新年明けまして、おめでとうございます。今年もよろしくお願いします。 昨年中は、皆様にお世話になりました。 昨年は、コツコツと3年程前から行ってきた改革がある程度完成された年で、この先5年、10年を見据えて、次のフェーズへと進む為の土台が完成した年でもありました。 それにキャッチアップする形で、個々の従業員一同が、役割を自覚し、明確に動けた年であったかと考えています。 …
»続きを読む

RSA鍵認証のみにし、Password認証を無効化する

意外に覚えきれなくて、いつも忘れるので、メモついでに残しておきます。 古いOpenSSHや、SunSSHの場合は、これも無効にします。 ユーザ目線でのザックリとした説明を。OpenSSHではなく別のSSH実装も含めて考えているので、OpenSSHのソースをじっくり読んだわけではないため、間違ってたらすみません。 まず、Password認証を無効にする場合、 PasswordAut …
»続きを読む

最新  |  << 前ページ  |  次ページ >>  |  最初