TECH REPORT
テックレポート
弊社では複数サーバ/ワークステーションを連携したクラスタシステムについて、これまでの多くの納入実績から得た知見を元に、お客様へ最適なクラスタ基盤を提供しています。 多くのお客様は、MPI による並列シミュレーションを高速化する、多数のプログラムあるいはデータを同時に処理する等の目的でご購入されています。最近では DeepLearning 処理のための GPU クラスタに対するご要望が増えてまいりました。
今回は、こうした高負荷かつ多自由度の処理を効率的に処理するクラスタシステムに必要なソフトウェアについて、弊社が推奨するミニマルのクラスタシステム設計・設定をご紹介します。
これまでワークステーションで計算をしてきたがさらに大きな計算をやりたい、また、これまでスパコンセンターを使ってきたがご自身の研究室で自由に使えるシステムが欲しい、とお考えの皆様にご参考になればと思います。
JOB 管理システム
クラスタシステムをマルチユーザ環境で利用する場合や、多くのデータケース計算を全体として効率的に早く完了させたい、また、他からの影響を極力除外して早く計算を完了させることを望む場合は、JOB 管理システムを利用するのが手っ取り早い解決策です。JOB 管理システムの基本的な機能は、自動的に FIFO つまりところてん式に計算を実行させていくことにあります。さらに、ユーザはこのシステムにやりたい計算を複数でも一旦登録すれば、後はシステムが自動的に、空いている CPU や GPU を考慮して(backfill)スケジューリングしてしてくれます。
弊社ではお客様のご要望により、Univa Grid Engine、slurm、pbspro-ce などの有償無償の JOB 管理システムのインストールを代行しています。
フリーソフトの弊社の推奨は slurm です。これは他のパッケージと比較して新しく開発されているものですが、バグ修正が早く安定性や管理のしやすさに優れ、近年欧米のスーパーコンピュータセンターに多く採用されています。GPU スケジューリングも可能です。
弊社では、科学技術計算や解析などの各種アプリケーションについて動作検証を行い、すべてのセットアップをおこなっております。
お客様が必要とされる環境にあわせた最適なシステム構成をご提案いたします。