楊静が奥飛寺、QbitAIから報告 | WeChat公式アカウント中国初の大規模医療モデルはすでに患者を「治療」している。 最近、病院で働く AI 医師に関する実際のデータセットが公開されました。
このようなオープンで大規模な AI 医師評価は中国初であり、世界でも初めての試みです。 さらに驚くべきことに、そのすべての主役であるMedGPT (Transformer に基づく1,000 億のパラメータを持つ大規模なモデル) が登場してからまだ 1 か月しか経っていません。 現在、実際の臨床現場では、マルチターンの継続的な対話とマルチモーダル機能を既に備えています。MedGPTは将来的に、プラグインストアの医療版も立ち上げる予定です。このプラグインストアには1,000以上の医療アプリケーションが収録される予定で、AI医師が利用できる診断ツールが大幅に充実し、診断効率が向上します。 上記のデータとパフォーマンスに基づくと、一貫性は 96% となり、これは予想外の結果です。 このような急速な反復速度はさらに予想外です。 MedGPT初のライブ放送:100人の患者を受け入れるこのライブストリームデビューは、実世界における人間と機械の医療整合性評価でした。AI医師MedGPTに加え、四川大学華西病院の主治医10名も参加しました。 評価の権威性と科学的厳密性を確保するため、国内トップクラスの病院の専門家と教授で構成された審査委員会が結成され、審査と多面的な採点を実施しました。 一方、全体のプロセスは特別に設計されています。簡単に言うと、患者は診察室に入りますが、実際に話しているのは医師免許を持つ「翻訳者」です。翻訳者は患者の主訴をコンピューター上の人間の医師とAI医師の両方に伝え、このプロセスを複数回繰り返し、最終的に診察結果に基づいて診断が下されます。 AlphaGo が囲碁界で戦ったときと同じように、AlphaGo が「配置」動作を実行するのを手伝ったプレイヤーは「翻訳者」でした。 このように、AI医師と人間の医師は互いに干渉することがなく、条件も基本的に同じなので、両者が独立した判断を下すことができます。 最終的に、1 日間の激しい競争を経て、本物の医師は総合点 7.5 点を獲得し、AI 医師は総合点 7.2 点を獲得し、スコアの一貫性は 96% でした。 検討プロセス中に、専門家はいくつかの予期せぬ「驚き」も発見しました。 たとえば、見逃されたり誤診されたりする確率は比較的小さいです。 北京大学人民病院の院長である薛鋒博士は、複数回の問診と患者の足の痛みの症状に基づいて、MedGPT が最終的に頸神経圧迫の可能性がある症例を推測し診断できることを発見しました。 つまり、知識の蓄積という点では、AI 医師は経験の浅い医師よりも優れている可能性があるということです。 さらに、診察中のMedGPTの「落ち着いた」態度も賞賛されました。 中日友好病院心臓科主任医師の任静益氏は次のように語った。「診断がはっきりしない場合、 MedGPTは簡単に結論を出さず、継続的な相談や検査を通じてより多くの情報を収集することを主張するというのが最も良い点だと思います。」 MedGPT にはまだいくつかの問題があるにもかかわらず、彼女は実際の医師よりも高いスコアを付け、「これは画期的な結果です」と言いました。 MedGPTには、依然として解決すべき課題がいくつかあることは否定できません。多くの専門家が、過剰な治療推奨、検査の繰り返し推奨、特定の概念の説明が不正確、身体検査が実施できないといった限界を指摘しています。MedGPTをより使いやすくするためには、こうした意見は肯定的なレビューよりもある程度重要です。 全体として、医療用大型モデルの初公開の結果は非常に良好でした。 要約すると、意味理解、マルチターン対話、マルチモーダル認識などの大規模モデルの基本機能を備えており、OpenAIと同様に、プラグインストアを通じてさまざまな業界のアプリケーションにリンクすることもできます。 さらに、一般的に大規模モデルでは調整と精度の問題が広く批判されているにもかかわらず、MedGPT の全体的な結果は実際の医師の結果に匹敵します。 業界の観点から見ると、医学的見地から医師に効果的な支援を提供し、患者の疾病管理の効率を向上させることができます。 この実際のテストでは、MedGPT が効果的な医療相談と検査データに基づいて病気を正確に診断し、患者の治療計画を作成できることが実証されています。 MedGPT は診断後も、患者が投薬を受けた後の投薬指導と管理、インテリジェントなフォローアップ訪問、リハビリテーション指導などのインテリジェントな疾患管理サービスを提供します。 現在、 ICD-10 でカバーされている病気の 60% を基本的にカバーしており、ほとんどの一般的な症状に対応できることを意味します。 24時間365日、中断なく稼働します。医師の診断・治療を支援するために大規模に導入されれば、医療効率を大幅に向上させ、階層的な診断・治療や医療資源への普遍的なアクセスに貢献することができます。 最初の大規模な医療モデルはどのように開発されたのでしょうか?ヘルスケアは、AI の応用において常に最も専門的で、障壁が最も高く、セキュリティが最も重要な分野の 1 つです。 これまで、ユーザーは病気の予備的な判断を下すために情報検索を習慣的に使用していましたが、情報は混在しており、一般ユーザーには情報を効果的にフィルタリングするための専門知識が不足していたため、効果がほとんどないことがよくありました。 しかし、この分野は人々の生命と健康に関わるため、市場のニーズと社会的価値は常に大きいものでした。 そのため、ChatGPTの誕生以来、それがいつ医療現場で「定着」し、役割を果たすことができるのかという問題は、産業界、学界、研究界の専門家から大きな注目を集めています。 「精神障害者」フォーラムがさまざまな汎用医療モデルの機能をテストするためのベンチマークとなっているのと同様に、これらのモデルの医療機能はUSMLE (米国医師免許試験) でもテストされています。 以前、ハーバード大学の教授が、ChatGPT の診断支援におけるパフォーマンスを個人的にテストしました。 結果によると、ChatGPTは45例中39例で正しい診断を行い、30例で適切なトリアージの提案を行いました。この性能は既存の機械診断能力を上回り、医師の診断能力に迫るものです。 もう一つの例は、Google Healthチームが開発したMed-PaLM 2です。幅広い医療質問に答えることができ、米国の医師免許試験でエキスパートレベルに達した最初の大規模言語モデルと言われています。 しかし、問題を解決できるからといって、必ずしもそれが実際に適用できるというわけではありません。 GPT-4のような汎用大規模モデルは、回答を生成するためにテキストの統計的確率に大きく依存しています。おそらくお分かりの通り、GPT-4 は一見無意味な発言をすることに長けており、日常のコミュニケーションにおいて非常に面白いものとなることがあります。 しかし、産業界に適用すると、専門家ではない人がリスクに気付かないことが多く、様々な問題を引き起こす可能性があります。これは特に、コンテンツ生成に対する高度な制御が求められ、わずかなエラーも許容できない医療業界において顕著です。 言うまでもなく、医療分野自体が広範かつ複雑な知識範囲を網羅しており、医療プロセス全体の観点から見ると、診断前、診断後、そして診断後の段階において、様々なロングテールタスクが存在します。必要とされる高品質なデータは、一般的なモデルと比べて決して少なくなく、また、そのデータの大部分はインターネットから抽出されたものではありません。 企業にとって、これは単なるアルゴリズム、コンピューティング能力、データのテストではなく、一連のシステム エンジニアリングの課題です。 では、中国初の大規模医療モデルであるMedGPTはどのようにしてこれを達成したのでしょうか? 一言で言えば、プロフェッショナルな大規模モデルと、その有効性を保証する複数の精度メカニズムです。 まず、大規模な医療モデルの作成から始めました。 従来の大規模専門モデルへのアプローチは、まず大規模モデルを構築し、その後、専門データを用いて教師ありファインチューニングを行うというものでした。しかし、MedGPTは医療データを直接事前学習とファインチューニングに使用し、100人以上の医師が参加するRLHFメカニズムを備えています。 そのためには、企業は垂直産業における深い専門知識を培うだけでなく、AI技術力も備えている必要があります。そこで、 Medlinkerの開発元が登場しました。 業界において、インターネットヘルスケアへの早期参入者として、Medlinkerは150万人以上の医師と2,000万人以上の患者を擁しています。医師と患者の長期的な安定した関係構築により、膨大な量の専門的な医療データが生成されています。 さらに、メドリンカーは長年にわたり医療とテクノロジーの深い融合に注力し、腫瘍、心血管疾患、脳血管疾患、糖尿病などの一般的な疾患を網羅し、1,000以上の疾患を網羅する140近くの標準化された疾患管理プロセスを構築し、完全なデジタル化と全プロセス化を実現した疾患管理システムを構築してきました。 インターネットベースのヘルスケア時代において、これらの疾病管理システムは業界に効果的なオンライン管理データを提供し、業界全体の効率性を向上させることができます。AIを活用したデジタルヘルスケアの登場により、これらのシステムはAI主導型ヘルスケアの重要な基盤となります。 AIに関しては、同社はかなり早い段階から注目し、計画を進めてきました。メドリンカーは2017年に医療ビッグデータを構造化する能力を確立し、2018年にはNLPやCVなどのAI技術を、インテリジェント体液検出、インテリジェントトリアージ、口腔画像認識など、さまざまなシナリオに適用しました。 2019年には、単一疾患・単一ステージを対象としたAI診断・治療モデルも発表しました。複数の病院や機関と提携し、アジア初の多発性硬化症早期スクリーニングAIモデルを開発し、患者の多発性硬化症リスク予測と予防能力を1~3年先まで向上させることに貢献しています。 AI分野におけるこうした初期の探求と、医療と最先端技術の長期的な融合が、Medlinkerが業界で初めて大規模医療モデルを立ち上げ、適用するための基盤を築きました。これらすべては決して偶然ではないと言えるでしょう。 詳しく見てみましょう。医療モデルの正確性と一貫性を確保するために、Medlinkerはモデルの作成から実際の適用まで、多くの作業を行ってきました。 これには、モデル アルゴリズムの一貫性検証メカニズム、多次元の診断および治療評価メカニズム、専門家のレビューに基づく実際の医師のベンチマーク メカニズムが含まれます。 例えば、患者に正式な回答を提供する前に、その回答はまず臨床医学のルールに基づくシステムによって検証されます。さらに、実際の医師を招き、コンピューターの前で判断を下してもらい、その後、両方の結果を専門委員会に提出して審査を受けることで、実際の医師の判断との整合性を確保します。 この方法論に基づいて、Medlinker チームは、プロフェッショナルな大規模モデルを作成するための業界における先例を確立しました。 医療AI2.0の幕が上がる。最後に、MedGPT 自体の一般評価に戻ると、大規模モデルの開発にも 3 つの傾向が見られます。 まず、医療AI 2.0の時代が始まり、システムの複雑さの問題が解決されます。 対話が入り口となる大規模モデルに代表されるAI 2.0時代の到来は、あらゆる応用シナリオを再定義しました。AIの影響を受ける業界は、大きな変革の真っ只中にあります。 過去、AI 1.0では、NLP、CV、マルチモーダルコンピューティングといった単一技術が急速に発展し、医療AIアプリケーションは多様化しました。これらの技術は高度なルールベースと制御性を備えていましたが、シナリオとデータの統合が不十分だったため、一般化能力が弱く、体系的かつ複雑な問題に対応できませんでした。 Transformersのおかげで、モダリティ、データ、タスクシナリオ間の障壁が取り除かれました。医療分野では、膨大な医療テキストとデータを活用して高並列・長距離学習と統合を行うことで、複雑かつ体系的な問題を解決できます。 これをさらに推し進めていくと、クラウド薬局やクラウド検査といったメドリンカーのクラウド基盤の機能と組み合わせることで、AI医師自身の疾病管理能力が向上するだけでなく、患者も地理的な制約から解放され、予防から診断、治療、リハビリまで、疾病管理の全プロセスを容易に完結できるようになるでしょう。 これは想像に難くありません。様々な専門分野の患者を診察し、一流病院の医師に匹敵するAI医師が、24時間体制で診察を提供してくれることを知っておくだけで十分です。同時に、すべての検査と診断サービスは自宅から1キロメートル圏内で完了します。 一流病院で診察の予約のために列に並んだことがある人なら誰でも、専門医の予約を取るのが難しかったり、検査に1ヶ月も待たされたりするのがよくあることをご存知でしょう。コスト削減、効率性向上、そして業界の課題解決、そしてヘルスケアの次世代の到来は、すべてMedGPTのような専門モデルのおかげなのです。 第二に、大規模モデルによる業界の利益は、テクノロジー大手の手にではなく、シナリオとデータを持つプレーヤーの手に委ねられています。 皆さんも気づいていると思いますが、医療分野に特化した大規模モデルや製品が次々と登場しており、最も代表的な製品は Google と Microsoft という 2 大企業から提供されています。 GoogleのMed-PaLM 2は現在、X線検査後に診断結果を提供するなど、マルチモーダル機能の実験を行っています。今年後半には、一部のGoogle Cloudユーザーに提供される予定です。 マイクロソフトに200億ドルで買収されたNuanceは、マイクロソフトOpenAIとの連携を活用してGPT-4を臨床記録ソフトウェアDAXに統合し、臨床医の負担軽減を目指している。 前者の大規模モデルはまだ本格的に実装されておらず、後者は一般的な大規模モデルを統合した API に過ぎず、業界レベルの正確性や一貫性は保証されていません。 しかし、MedGPT はデビューと同時に業界初の成果をいくつか達成し、観客を驚かせました。
これは垂直なフィールドでの深い耕作とシナリオとデータを持つことに関係しています。 Medlinker は 9 年間にわたりヘルスケア業界に深く関わり、豊富な知識、データ、アプリケーションを蓄積し、強力な技術とユーザーの障壁を構築してきました。 大規模モデル技術は適用されれば、既存のユーザーシナリオ内で迅速にスケールアップされ、展開されます。これは、他の潜在的参入者が持ち得ない先行者利益です。 AI の最後の波が到来したとき、最終的に AI の恩恵を最初に享受したのは、特定のシナリオのプレイヤーでした。 大規模モデルのメリットを享受するシナリオベースのプレーヤーにも同じことが当てはまりますが、技術的な道筋は明確になっており、実装速度は当然ながら以前よりもはるかに速くなっています。 第三に、医療AIの導入加速は、大規模モデルの開発動向を間接的に裏付けています。 雪だるま式に増える効果は明らかで、テクノロジーからアプリケーションの展開までのフライホイールはますます速く回転するでしょう。 ChatGPT は当初、真面目な態度でナンセンスを吐き出すことから始まりましたが、わずか数か月以内に、ユーザーからのフィードバックとプラグイン開発エコシステムに基づいて、さまざまな業界の人々のワークフローに実際に組み込まれ、デバイス上のアプリケーションがリリースされました。 手を描けないと批判されていたMidjourneyとStable Diffusionの問題もわずか数週間で解決され、Wenxin Yiyanが月に4回反復するなど、更新速度が速い大規模モデルが中国で登場しました。 「ビッグモデル-アプリケーション-データ」の加速された閉ループが確立されると、産業実装の速度は以前の波よりも速くなります。 Medlinkerが開発した大規模データモデル「MedGPT」は、1ヶ月以内に実際の患者を対象としたフルプロセステスト段階に入りました。その後、データフライホイールを通してモデルを反復処理することで、導入をさらに加速させます。 おそらく近い将来、医療 AI 2.0 がすべての人に利益をもたらすでしょう。 |