JSTが日化辞をハブにしたライフサイエンスデータベース統合に着手
RDFデータをオープン化、日米欧のDB連結へ
2015.06.12−科学技術振興機構(JST)は、バイオサイエンスデータベースセンター(NBDC)のデータベース統合推進事業の一環として、国内最大の化合物データベースである「日化辞」(日本化学物質辞書)をハブに、ライフサイエンス系データベースの化学物質情報を統合するための基盤整備に着手した。まず、日化辞データのRDF(リソース・ディスクリプション・フレームワーク)対応を行い、科学技術情報を一元的に検索・提供する新サービス「J-GLOBAL Knowledge」の第1弾として公開した。米国や欧州もデータのRDF化を進めているため、将来的には日米欧のデータベース間の相互利用の促進、データベースを横断した検索によるユーザビリティーの向上などが期待されている。
JSTが無償で公開している「日化辞Web」は、有機低分子化合物を中心に約340万件のデータを収録した国内最大級の化合物データベース。一方、科学技術総合リンクセンター「J-GLOBAL」は、研究者、文献、特許、化学物質、大学・研究機関など、JSTが体系的に整備してきた科学技術基本情報を無償で提供している。今回の新しい「J-GLOBAL Knowledge」は情報をすべてRDFなどのリンクトデータ(Linked Data)で提供しようというもので、その第1弾として日化辞RDFデータが公開されたことになる。
実際にRDF化を行ったのはNBDC。ライフサイエンス分野では数多くのデータベースが整備されており、それらを横断的に調べるなど、研究者に使いやすくする工夫が課題とされていた。その意味で、化学物質は各データベースに共通のキーになり得るため、日化辞のデータをRDF化することによって、多くのデータベースの連結・統合化を推進できるという考え方が基本になっているという。
具体的には、欧州バイオインフォマティクス研究所(EBI)の化学物質データベース「ChEMBL」および米国生物工学情報センター(NCBI)の同データベース「PubChem」でも利用されているオントロジーを用いて日化辞のデータ構造を標準化し、セマンティックウェブに適合したデータ記述モデルであるRDFによりリンクトデータとして記述し直した。
RDFはリソースの関係情報を主語、述語、目的語の3つの要素で表現し、そのひとかたまりをトリプル(三つ組)と呼ぶ。例えば、日化辞番号がこれ(主語)の物質名は(述語)これこれ(目的語)、化学式は(述語)こう(目的語)といった感じで記述されるという。
RDFの記述は単純であるため誤解の余地がなく、機械的に読み取りやすいという特徴がある。他のリンクトデータとのマッシュアップも容易で、複数の拠点に分散したリンクトデータを、あたかも同じデータベース内にあるかのように扱えるという。今回の日化辞RDFデータのボリュームは約1億5,000万トリプルとなっている。検索は、RDFの問い合わせ言語であるSPARQLを用いて行う。
また今回、NBDCはUniChem(化合物IDとInChI/InChIKeyのマッピング情報を提供するデータベース)を使った日化辞番号のリンク情報の拡張を行っている。これにより、日化辞とChEMBL、PubChemなど世界の28種類の化学物質データベース間で、それぞれ固有の化合物IDを網羅的に収集することが可能になった。
この日化辞RDFデータは、クリエイティブ・コモンズ・ライセンス(CCライセンス)のもとでオープン化されており、改変や二次利用(営利目的を含む)も自由。J-GLOBALのアカウントを作成すれば、だれでも無償で一括ダウンロードすることができる。
とくに、「J-GLOBAL Knowledge」のサイト上からは、キーワードでの全文テキスト検索のほか、SPARQLを使った検索を行うことが可能。SPARQL検索結果はトリプルで表示され、各要素のリンクをクリックして対象のリソースを閲覧・ダウンロードすることができる。SPARQLに不慣れな人のために、簡易なパラメーターを指定するだけでSPARQL検索が裏側で走るWebAPI検索機能も用意している。SPARQL検索でAPIを利用すれば、自作のアプリケーションと統合することなども簡単に行える。
今回、日化辞がリンクトデータでオープン化されたことにより、ユーザーは複数のデータベースを渡り歩くことなく、化学物質情報を一括して効率的に収集することができるようになる。また、データベースの作成・提供者にとっても、化学物質の外部リンク情報をUniChemなどに対応して一括取得できるため、作業が大幅に軽減されるというメリットがある。
******
<関連リンク>:
J-GLOBAL Knowledge(トップページ)
https://stirdf.jglobal.jst.go.jp/
J-GLOBAL(トップページ)
http://jglobal.jst.go.jp/
日化辞Web(トップページ)
http://nikkajiweb.jst.go.jp/nikkaji_web/pages/top.html
科学技術振興機構(NBDCトップページ)
http://biosciencedbc.jp/