富士通がLinuxクラスター対応BLAST構築サービスを製品化
大量/大規模クエリーの両タイプの処理に柔軟対応、50倍の高速化を実現
2002.04.17−富士通は17日、遺伝子の相同性を検索するソフトウエア「BLAST」をLinuxクラスターシステム上で高速に動作させる技術を開発、「PCクラスター用BLASTシステム構築サービス」として製品化し、6月から提供をはじめると発表した。32プロセッサー構成で単一プロセッサーの50倍以上の性能を発揮できるとしており、自社製のブレードサーバーを利用してクラスターを組んでシステムを提供するだけでなく、他社製クラスター上でも同様のサービスを展開していく。今後3年間で200システムの受注を見込んでいる。
BLASTは遺伝子の塩基配列やアミノ酸配列の相同性を検索するための標準的なパブリックドメインソフトで、米NCBI(国立バイオテクノロジー情報センター)からはSMP(対称型マルチプロセッサー)対応のBLASTも提供されている。しかし、8プロセッサー程度で性能向上が頭打ちとなり、たくさんのプロセッサーを効率的に利用できないという問題があった。
その一方で、遺伝子の公的データベース(DB)は年率50%以上の速度でふくれあがっており、DNAシーケンサーの普及ともあいまってBLAST解析のニーズは拡大の一途をたどっている。最近では、シーケンサーから出てきた断片の配列データを次々にBLASTにかける“大量クエリー検索”、また微生物の全ゲノムのような数100万塩基対の配列を検索のキーにする“大規模クエリー検索”の2種類の処理が増えてきており、どちらも半日単位の実行時間を要しているのが現状だという。DBサイズがまだまだ大きくなることを考えると、スケーラブルなクラスターシステムを利用してBLASTを高速化するニーズはますます高まると予想される。
今回、富士通が開発したPCクラスター用BLASTは、大量クエリー検索と大規模クエリー検索の両方に対応できるのが特徴。小さいクエリー(1,000塩基対程度)を大量に流す場合は、クエリーをプロセッサーに割り振って検索処理を並列化する。大きなクエリー(100万塩基対以上)の場合は、処理の負荷を調節しながらDBを動的に分配・分割することでパフォーマンスを稼いでいる。
実際、ペンティアムIII(1GHz)を16ノード(32個)搭載したシステム上でNCBIの塩基配列DBに対し、平均サイズ650塩基対の1,000個のクエリーを流した場合の処理時間は16.2分で、単一プロセッサー時の標準型BLASTの814分に対して約50倍、O157の全ゲノム549万8,450塩基対をクエリーとした場合の処理時間は42.1分で、単一プロセッサー時の標準型BLASTでの1,083分に対して約25倍の性能向上が認められた。
今回のBLASTは、内部的には基本アルゴリズム部分と並列化部分を分離しているため、オリジナルのBLASTのバージョンアップにも容易に追随できる。機能は変わらないが、クラスター用のミドルウエアであるSCOREに対応したバージョンも用意しており、ユーザーの実行環境に合わせることが可能。また、いつも最新のDBでBLAST解析が行えるように、遺伝子DBを毎日取得しアップデートする「バイオデータベース運用環境構築サービス」も提供する予定である。
今回の「PCクラスター用BLASTシステム構築サービス」の価格は、プロセッサー当たり10万円。オリジナルのBLASTのバージョンアップに対応させる保守サービス費用はプロセッサー当たり年間7万円となっている。すでに、国立遺伝学研究所から32ノード(64プロセッサー)構成で、大阪大学遺伝情報実験センターから16ノード(32プロセッサー)構成のシステムを受注しており、6月には納入・稼働の予定。
なお、今回のBLASTは基本的には他社のLinuxクラスターでも動作可能であり、同社としてはそれらも積極的にサポートしていく方針。ただし、富士通が近く発売するブレードサーバーを利用すれば、高さ3Uの筐体に20ノード(40プロセッサー)を高密度実装でき、ギガビットイーサネットによる高速ネットワークなどの利点を活用できるため、これらの提案活動も合わせて推進していく計画だ。