LINCがAI創薬システム群の開発状況を報告
データ収集で苦戦も、垣根越える共通知識ベースの必要性
2019.11.10−ライフインテリジェンスコンソーシアム(LINC)の活動が最終年度に入り、“AI創薬”を具体化するためのシステム開発も佳境に入ってきた。10月2日と3日に大阪で開催された「2019年度第1回報告会」では、進行中の約30件のプロジェクトのうち、「AIによる病理画像処理」「膨大な論文データより共同研究者を発掘するAIの創成」「ドラッグリポジショニング」「AIによるドッキング計算高度化」「結晶形予測」「アウトカムリサーチ(HERO)/医療技術評価(HTA)」「知識データベースの構築」「調剤ロボティクス 付着粒認識AI」の8プロジェクトが開発状況を発表した。その後に行われたパネルディスカッションでは、学習のためのデータ不足、AI技術者の育成などの課題について議論されたほか、来年秋以降のポストLINCの活動イメージについても話し合いが行われた。
◇ ◇ ◇
冒頭で、LINCの奥野恭史代表(京都大学大学院医学研究科ビッグデータ医科分野教授)は、世界的なAI研究のスピード感に付いていくためにはオープンイノベーション型での開発が必須であると述べ、AIを利活用するライフサイエンス関連企業とAIを開発するIT系企業、アカデミアを含めて国内の100を超える企業・団体が集まるLINCの意義を強調。はやい(時間のシェア)、やすい(資金のシェア)、うまい(知識のシェア)で、幅広く実用的なAIシステムを短期間に揃えることを目指していると述べた。このあとの各グループからの報告を通して、着実に開発が進んでいることが確認されたが、データが集めやすいプロジェクトは比較的スムーズに進行しているものの、医療データのように個人情報に関係する分野など、データ取得が困難なプロジェクトは苦戦している状況にあることが示された。
とりわけ重要なのは奥野教授の次の指摘だろう。当初のLINCの構想では、公開データを収集したり非競争領域のデータを持ち寄ったりしてLINC内でAIプロトタイプをつくり上げたあと、各社が独自のデータを用いてモデルを改良し、実用化を図るという考え方をとっていた。奥野教授は、今年6月に欧州の製薬企業10社がアカデミアやIT企業を巻き込んで「MELLODDYプロジェクト」を始動させたことに触れ、「彼らは各社の競争領域のデータを互いに秘匿しながら利用し、共同学習モデルを作成することを目指している。ほかにも、欧米の製薬大手はグーグルやマイクロソフトと大規模な提携を進めており、日本企業の社内データでプロトタイプをそれぞれに改良しても、個社のデータでは世界と戦えるAIに育つ可能性は低い」と指摘した。
そこで、ポストLINCに向けての課題として、アカデミアの先端技術を生かして少量データからでもAIが構築できる方法の開発、医療データ・ヘルスケアデータの利活用体制の構築、添付文書など業界共通文書や共通データからの共通知識ベースの構築−を取り上げた。さらに、プロトタイプAIの運用に際しては、個社のデータではなく、各社が必要なデータを臨機応変に共有できるデータシェアリング、モデルシェアリングが必要だと論じた。
すでに、ポストLINCを見越して、推進役である京都大学、医療基盤・健康・栄養研究所、理化学研究所が共同で業界共有知識ベースの開発に乗り出しており、今後の成果が期待される。奥野教授は、「われわれが先行して取り組んだところに、海外がコンソーシアムを組んで追いかけてきたからには、絶対に負けるわけにはいかない。海外に勝てる方策を選び取っていく」と強く表明した。
◇ ◇ ◇
プロジェクトメンバーからの具体的な成果発表は、ワーキンググループ02(WG02)「臨床・診断」のプロジェクト06(PJ06)「AIによる病理画像処理」からスタートした。プロジェクトでは、病理画像から正常か異常かを判別するAIの開発(腎臓のデータを使用)と、病変の種類を判別するAIの開発(肝臓のデータを使用)を進めている。病理画像は1枚で数GBと大きいため、病変部位を切り出して学習データにしたという。うまくいっているのは病変の種類を判別するAIで、肝臓の壊死や空胞化、胆管増生、好酸性化、好塩基性化、肥大、萎縮などの病変画像をアノテーションを付けて教師データとし、学習させた。判別率としては、正常画像が91.1%、異常画像が86.8%という結果が出ているという。今後、正常・異常を判別するAI開発を継続するとともに、判別精度の低い検体についての原因調査と、AIモデルの改善を進める。
WG03「創薬テーマ創出」/PJ08「有望提携先や研究テーマの自動探索」からは、「膨大な論文データより共同研究者を発掘するAIの創成」というテーマで発表がなされた。このAIは2月の全体報告会でも取り上げられており、8月にジー・サーチから商用サービスが開始されている。もとになっているのは、ジー・サーチが提供している科学技術文献データベースJDreamIIIで、媒介中心性計算と呼ばれる手法を利用し、論文の共著関係から人間関係の広がりを抽出するとともに、その経年変化を追跡することで、媒介中心性の伸びの良い研究者をピックアップできることが特徴。「JDream Expert Finder」の名称でサービスが提供されており、現在は論文だけでなく学会情報なども細かく集めているという。
WG09「知識ベース・自然言語処理」/PJ30「知識ベースの構築」からは、全PJ横断的なデータ活用・統合のための基盤づくりについての説明があった。各PJで使用できるデータベースを調査し、今年6月からLINCメンバーが自由に利用できる形での運用を開始している。また、日本医療研究開発機構(AMED)が進めている創薬推進事業「毒性・薬物動態予測システムの開発」との連携として、医薬品申請文書などからのデータ抽出ツールを作成した。開発中止や撤退の主要因となる肝毒性や心毒性、体内動態の不備などの情報を抜き出して、そのデータを構造化し、機械学習で利用できる形式に変換するなどの処理を行ったという。今後は、京都大学、医療基盤・健康・栄養研究所、理化学研究所がそれぞれ蓄積しているデータベースを統合的に利用できる環境整備を行うとしている。
WG03/PJ10「ドラッグリポジショニング」は、タンパク質と疾患をひもづけ、新規適応疾患を予測するAI開発を目指している。化合物の構造を入力すると、それと相互作用するタンパク質を予測したり、それが効く疾患を予測したりするAIだ。具体的には、Tox21およびChEMBLのデータをもとに既存タンパク質と相互作用する化合物の組み合わせをマルチタスクモデルとして構築、グラフコンボリューションネットワークで機械学習させた。化合物−ヒト標的タンパク質の相互作用情報を学習し、化合物−ラット標的タンパク質の相互作用予測により、予測精度の検証を実施。今後、このモデルを農薬標的種(菌・虫・草)と化合物の相互作用を予測するAIに調整し公開する計画だという。一方、ドラッグリポジショニングについては、多階層モデルに利用する疾患およびフェノタイプのデータ選択を実施している。また、化学構造(SMILES表記)から標的タンパク質を探索するアプリケーションはすでにデモが可能な状態となっている。
WG04「分子シミュレーション」/PJ12「AIによるドッキング計算高度化」は、タンパク質と化合物のドッキングポーズを予測することを目指している。現在、計算化学では精度が頭打ち、機械学習はドッキングの本質である空間的な配置や構造情報が欠落するという問題があるためだ。そこで、複合体の3次元空間的な配置・構造をとらえる新しい機械学習方法を確立しようというのが狙いとなっている。PJが採用した3D-CNN(3次元畳み込みニューラルネットワーク)を使用したモデルは、計算化学ではうまくいかないケースでも正しい結合ポーズを予測できることが確認できたという。PJはさらにこの結果を利用して、化合物に活性があるかどうかを予測(正しくドッキングできれば活性ありと理解)できるAI開発にも挑戦している。活性があるかないかの二値分類に加え、活性値の定量的な評価にまで踏み込みたいとしている。
WG07「バイオロジクス・製剤・ロボティクス」/PJ22「結晶形・製剤関連AI」からは、結晶形予測AIの開発状況が報告された。薬物は、同じ化合物でも分子結晶の形が異なると薬効・吸収・体内動態・製造コストが大きく変わることがあるため、最適な物性を持つ結晶形の探索が重要になる。網羅的な実験が必要になるため、AIで予測したいというのが今回のモチベーションだ。PJは結晶構造を特徴付ける独自の固定長記述子を考案、量子化学計算によるエネルギー値を教師データとして与え、機械学習を実施した。さまざまな機械学習方法でモデリングしたところ、深層学習が最も良い予測精度を示した。この技術は特許出願中だという。また、結晶の特性(溶解性、安定性、吸湿性など)を予測するAIも、同じ結晶記述子を利用して構築中。こちらはデータが少なくて苦労しているということだが、年内には1,000結晶以上のデータを集め、モデル作成に入りたいとしている。
WG08「治験・市販後・メディカルアフェアーズ」/PJ27「アウトカムリサーチ・医療技術評価」も2月の全体報告会ですでに報告されているが、その後の技術検証で得られた成果と有効性をもとに、実用化に向けた活動を開始しているという。新薬の保険収載のための申請項目として、その薬剤の費用対効果を申請するヘルステクノロジーアセスメント(HAT)業務に当たり、論文などの文献を対象にしたシステマティックレビューを助けてくれるAIである。自然言語処理技術による固有表現抽出、文章分類、関係抽出などにより、HTA関連知識ハイライト機能、HTA論文優先表示機能、知識構造化機能などを実装したプロトタイプ開発を進める。今後は、リアルワールドデータからの費用情報抽出、日本語論文への対応なども図るという。
WG07/PJ23「調剤ロボティクス」からは、薬物製造設備の金属容器内壁に残留した付着物(粉粒体)を認識するAIが報告された。これは、照明条件の悪い閉鎖環境におけるカメラ画像からハレーションなどの影響を受けずに付着物の位置を認識できるもの。とくに、学習方法を工夫しており、固体位置検出と領域位置検出をピクセルワイズで実施、各ピクセルにおける存在密度を周辺領域から予測することで学習データの水増しを行っている。このため、少数の学習データと短時間の学習で高精度の予測が可能になった。実際には、ハレーション認識用、粉認識用、鏡像認識用の3パターンの画像を合計25枚学習に使用しただけだが、ハレーションと粉との判別は99%、目視ではわかりにくい付着粉の認識が95%、容器に反射した鏡像の判別が90%という認識精度を引き出している。最終的には、多数の小型ステンレス容器を扱う工程の洗浄後残渣検査の自動化や、ロボットを応用した装置・配管内残渣自動掻き取りシステムなどへの適用を狙っていく。
◇ ◇ ◇
第3部のパネルディスカッションは「ライフサイエンスAIの近未来−LINCの目指す姿−」のテーマで行われ、本間光貴LINC副代表がコーディネーターを務め、パネリストとして水口賢司LINC副代表(医療基盤・健康・栄養研究所)、榑林陽一(医療基盤・健康・栄養研究所、東京大学、神戸大学)、池森恵(日本製薬工業協会)、下條真司(大阪大学)、川口俊徳(経済産業省)、奥野恭史LINC代表が参加した。
議論の中では、第2部で報告があった以外のプロジェクトの現状も多く紹介されたが、データそのものが不足している分野や個人情報保護など手続き上の問題でデータが集めにくい分野は開発が遅れ気味になってしまうこと、また逆にデータが十分にある分野は、海外にも研究グループが多いため飛び抜けた精度を達成するのが難しいといった状況が説明された。AI人材育成の課題に関しては、製薬企業内にAI人材を抱えるのは疑問で、外部のAI専門家と連携した方が良いという考え方がある一方、やはり医薬・生物系の研究者でAIができる人を育成してリーダーに据えることが望ましいといった意見も出た。
また、欧州のMELLODDYプロジェクト(Amgen、Astellas、AstraZeneca、Bayer、Boehringer Ingelheim、GSK、Janssen、Merck、KgaA、Novartis、Servier)など海外勢が急追してきている現状で、自社のデータを提供することが本当のリスクなのかどうかをよく考えるべきで、日本全体の連係によるデータとモデルの共有を図ることが重要だとの指摘もなされた。
最後に奥野代表が、「参加機関のみなさんには、できるだけ若い研究者をLINCの場に送り出していただけるようお願いしたい。次世代を担う立場の若手こそ、いまAIに慣れ親しんでおく必要がある」とまとめた。
******
<関連リンク>:
LINC(トップページ)
https://linc-ai.jp/