|
上海で開催された世界人工知能会議に先立ち、テンセントは創薬分野への進出において2つの新たな展開を発表しました。応用面では、テンセントAIラボとテンセントクラウドの強みである最先端アルゴリズム、最適化されたデータベース、そしてコンピューティングリソースを統合した、同社初のAI駆動型創薬プラットフォーム「iDrug」を発表しました。このプラットフォームは、タンパク質構造予測、バーチャルスクリーニング、分子設計・最適化、ADMET特性予測(近日オープンソース化予定)、合成経路計画など、前臨床創薬プロセスをカバーする5つのモジュールを提供しています。現在、このプラットフォーム上では、COVID-19治療薬のバーチャルスクリーニングや特性予測(スクリーニング結果は現在実験的に検証中)など、約10件の研究プロジェクトが進行中です。 公式サイト体験アドレス: https://drug.ai.tencent.com/ 研究面では、テンセントAIラボは、世界で最も権威のあるタンパク質構造予測テストプラットフォームであるCAMEOにおいて、6ヶ月間で5回月間チャンピオンを獲得し、多くの国際的に著名な研究チームをリードしてきました。タンパク質構造予測は医薬品設計の基礎であり、生体内の分子間の相互作用を理解する上でも不可欠です。テンセントが独自に開発したアルゴリズムは、難症例において大幅な改善を示し(権威ある手法よりも10%以上高い)、その革新的なアプローチは「クラウドディープインテリジェンスドラッグ」プラットフォームに採用され、新たなターゲットの発見や疾患メカニズムの研究においてより大きな役割を果たすでしょう。プラットフォームの名称「雲神智能創薬」は、唐代の詩『求仙徒然草』の「彼はただこの山におり、雲は深く、どこにあるか分からない」という一節に由来しています。これは新薬発見のプロセスを的確に捉えています。新薬の誕生は人類の健康と幸福にとって極めて重要ですが、従来の医薬品開発は時間と労力を要し、毎年市場に投入される新薬は数十種類にとどまっています。新型コロナウイルス感染症(COVID-19)の世界的な感染拡大に伴い、迅速かつ低コストの医薬品開発は業界共通の課題となっており、ビッグデータマイニングや機械学習といった技術を活用した創薬手法の可能性と価値が浮き彫りになっています。テンセントAIラボは、「医薬品開発のデジタル化とインテリジェント化の時代が到来しました。医薬品設計における人工知能とビッグデータの応用は、第13次5カ年計画の主要新薬プロジェクトにおける重要な革新技術の一つに挙げられており、国家新インフラ構想における技術革新の重点分野でもあります。『テクノロジーで社会に貢献する』という理念を堅持し、クラウドディープファーマは先進的な技術優位性を最大限に活用し、医薬品業界にイノベーションのプラットフォームと機会を提供していきます」と述べました。プラットフォームの仮想スクリーニングおよびADMET特性予測モジュールは既に無料で利用可能です。タンパク質構造予測、分子設計・最適化、合成経路計画のモジュールは、年内に順次リリースされる予定です。特筆すべきは、プラットフォームが独自に開発したアルゴリズムは国際コンペティションで実証されており、一部の基本モジュールはオープンソース化されることです。 CAMEOは、自社開発のチャンピオンレベルの革新的アルゴリズムであり、世界唯一のタンパク質構造予測自動評価プラットフォームです。2012年のリリース以来、世界トップクラスかつ最も広く利用されている自動タンパク質構造予測サーバーを集積し、タンパク質構造予測サーバーにおける最も権威ある評価基準となっています。現在のコンテストチームには、「タンパク質設計の天才」として知られるワシントン大学のDavid Baker教授のチームや、CASP(タンパク質構造予測会議)で6連覇を果たしたミシガン大学のYang Zhang教授のチームなどがあります。 「クラウドディープドラッグ予測」プラットフォームは、テンセントAIラボが開発したタンパク質構造予測の斬新なアプローチを採用しています。このアルゴリズムは2020年にCAMEOに搭載され、35のトップ学術チームや企業と競い合いました。テンセントは競合他社を大きく上回り、月間および週間のチャンピオンシップを維持し、基盤となるアルゴリズムの技術的価値を実証しました。前述のように、テンセントAIラボが提案した新しい手法は、難しいケースにおいて顕著な改善を示し、業界で認められた権威ある手法であるRobbettaを10%上回りました。薬物の仮想スクリーニングとADMET特性予測においても、AIラボは独自開発のアルゴリズムを用いて、複数の公開データセットで高い精度を達成し、業界標準を上回りました。縦軸 lDDT はタンパク質構造予測品質スコアを表します。スコアが高いほど、予測されたタンパク質モデルが実際のタンパク質構造に似ていることを示します。コアモジュールはオープンソースです。ADMET予測モジュールは、大規模な自己教師型分子グラフ事前学習済みモデル(GX)を搭載し、まもなくオープンソース化されます。分子生成モデルも今年後半にオープンソース化される予定です。GXモデルは、ディープグラフニューラルネットワークをベースとした業界初のオープンソース大規模分子グラフ事前学習済みモデルです。大量のラベルなし小分子データを活用し、原子/化学結合レベルで自己教師型分子タスクを構築して化学特性に関する基礎情報を学習し、メッセージパッシングモデルを活用して汎化性能を向上させます。11の分子属性予測データセットにおいて、主流アルゴリズムと比較評価した結果、GXモデルは微調整後の最先端(SOTA)アルゴリズムと比較して平均6%の性能向上を示しました。このプラットフォームの機能は、新薬発見の全プロセスをカバーしています。 前臨床創薬プロセスは、標的の探索と検証、リード化合物の探索、パイロット化合物の探索と最適化、そして最終的に臨床候補化合物の確認と開発という流れで進みます。「Cloud Deep Drug Discovery」プラットフォームは、前臨床創薬プロセス全体を包括的にカバーし、研究者の研究をより容易にします。 Cloud Deep Intelligence Drug Platform の機能モジュールは、「ターゲットの特定と決定」から「候補化合物の確認と開発」までの全プロセスをカバーします。創薬は複雑で体系的なプロジェクトです。最初のステップは標的の特定と確認、つまり体内での薬剤の作用部位の特定です。標的タンパク質の構造決定は極めて重要な作業であり、医薬品開発の重要な基礎と考えられています。例えば、あるタンパク質が疾患に関与し、主要な経路の重要な部分を担っている場合、研究者はそのタンパク質の構造を理解すれば、そのタンパク質の機能を特異的に制御する薬剤分子を設計することができます。タンパク質の構造を実験的に決定することは、多くの場合困難で、時間と費用がかかります。ディープラーニングモデルを用いてタンパク質の構造と機能を予測することで、コンピューターは数億もの小さな分子から潜在的なリード化合物を迅速かつ特異的に見つけることができます。 「雲神智能医療」プラットフォームが採用するタンパク質構造予測法は、2つの主要技術の飛躍的進歩により、国際的にトップクラスの精度を達成しました。第一に、自己教師学習に基づくタンパク質フォールディング法を採用しています。この手法は相同配列に依存せず、自己教師学習によって配列データベースから共進化パターンを直接学習します。これにより、共進化情報を含んだ疑似相同配列をゼロから生成し、最終的にこれらのタンパク質を効果的にフォールディングすることが可能になります。第二に、深層学習に基づく反復法を採用し、テンプレートモデリングとフリーモデリングを効果的に統合しています。この手法は、動的な反復的かつアミノ酸ペア固有の制約を初めて提案し、モデリング精度を大幅に向上させ、より優れたタンパク質フォールディングを実現します。新薬発見の第二段階は、標的に対するリード化合物のスクリーニングです。従来の実験スクリーニングと比較して、計算による仮想スクリーニングは化合物サンプルを必要とせず、人的資源とリソースを大幅に節約します。リガンドベースドラッグデザイン(LBDD)は、仮想スクリーニングの一般的な手法です。これは、既知の活性リガンド小分子構造から分子構造と活性の関係を学習・構築し、新規化合物の活性を予測するものです。しかし、多くの標的において、実測された化合物活性データが限られているため、予測モデルの精度が著しく制限されます。AI手法はこの問題への対応を期待できます。例えば、「YunShen Intelligent Drug」プラットフォームの仮想スクリーニングモジュールは、メタ学習とディープニューラルネットワークアルゴリズムをLBDDタスクに適用した初めてのプラットフォームです。他の標的から学習した知識(例えば、局所的な分子構造が標的結合強度に与える影響など)をAIを介して「転送」することで、標的に対するモデル予測精度を向上させます。現在、このアルゴリズムの何千もの実験データセットに対する平均予測精度(予測されたアクティビティと実験的に測定されたアクティビティとの相関関係)は、過去最高の 0.36 から 0.42 に向上し、スクリーニングされた使用可能なモデルの割合は 56% から 60% に増加し、業界標準を破っています。医薬品開発の後期段階では、分子のADMET特性(薬物の吸収、分布、代謝、排泄、毒性など)を予測することが極めて重要です。統計によると、後期段階における医薬品開発の失敗の最大60%はADMET特性の問題が原因です。したがって、薬物類似特性の低い分子を早期に特定し、排除することで、後期段階における医薬品開発の失敗リスクを大幅に低減できます。AIベースのADMET特性予測により、医薬品化学者は分子構造を迅速に修正し、分子の物理化学的特性を最適化し、医薬品開発サイクルを短縮し、実験試験コストを削減することができます。「Cloud Deep Pharma」プラットフォームの低分子ADMET特性予測モジュールは、複数のデータセットにおいて、学術界における既存の最高のモデルを3%~11%上回る性能を示しました。パートナーからのフィードバックによると、このプラットフォームが独自に開発したアルゴリズムは、既存の商用ソフトウェアを6%~37%上回る精度を達成しています。同時に、このプラットフォームはアテンションなどのメカニズムを用いて、部分構造が結果に与える影響を視覚化し、モデルの解釈可能性を高めています。さらに、このプラットフォームは、ローカル バージョンを含む柔軟な展開オプションを提供し、ユーザー データのセキュリティを確保します。このプラットフォームは、データベース、アルゴリズム、コンピューティング能力を含む統合サービスを提供します。 AIを活用した医薬品開発は、アルゴリズム、コンピューティングパワー、そしてデータという、不可欠かつ相互に補完し合う3つの要素に依存しています。高度なアルゴリズムは、既存のビッグデータ間の暗黙的な関係性を深く掘り下げて分析します。このプロセスは、新薬の発見に直接役立つだけでなく、多数の既存データベースを統合し、新しいデータの生成と蓄積を促進し、アルゴリズムの最適化にもつながります。最適化されたアルゴリズムは、モデルのデータ量への依存を低減し、汎用性を向上させます。同時に、テンセントの強力なコンピューティングサポートは、データベースの保存と検索、アルゴリズムの反復処理速度を加速し、モデル使用時の計算時間を大幅に短縮します。クラウドディープインテリジェント医療プラットフォームは、アルゴリズムの分野における継続的な革新に加えて、コンピューティング能力とデータベースの統合サービスサポートも提供します。データの観点から見ると、分子ビッグデータは医薬品開発のインフラです。PubChemやChEMBLなど、既に公開されている医薬品分子データセットは、多様なソースから提供されています。しかし、各機関の実験環境が異なるため、データの整合が難しく、多くのフィールドが欠落しており、全体的な品質が低いため、予測モデルの開発に直接利用することは困難です。Cloud Deep Pharmaプラットフォームで使用されている分子ビッグデータは、既存の公開データセットに基づいて、複数段階の綿密なクリーニングと処理を経ており、ディープラーニングモデルの構築に直接利用できる医薬品分子ビッグデータデータセットとなっています。このデータセットは複数の医薬品開発プロジェクトで検証されており、クリーニングプロセスによって複数のプロジェクトの結果が大幅に改善されています。複数のデータベースを統合したクリーニング済みデータセットは、徐々にオンラインで公開されています。コンピューティング能力の面では、Tencent CloudはCloud Deep Medicineプラットフォームにデータベースサービスを提供しています。製薬会社や研究機関は、自らコンピューティングリソースを配備することなく、プラットフォームにログインするだけで研究を実施できるため、既存の研究開発プロセスにAI機能を迅速に統合できます。テンセントのクラウドディープドラッグディスカバリーは、AI技術を活用した創薬支援を行う初の製品です。プラットフォームの各種機能モジュールと分子データベースは継続的に改良され、より多くの創薬・分析機能が順次リリースされます。製薬会社や研究機関は、プラットフォームの中核機能を無料で試用できるだけでなく、テンセントと協力してカスタマイズされたAIツールを開発することもできます。現在、テンセントは複数の製薬会社と提携し、AIモデルを実際の医薬品開発プロジェクトに適用しています。今後、国家の新インフラ構想を背景に、テンセントAIラボは人工知能、ビッグデータなどの技術と医薬品開発のニーズとの深い融合を継続的に推進し、業界に先進的な技術力を提供し、中国の医薬品開発分野の急速な発展を牽引していきます。 |