HUOXIU

オンデマンド脳:人工知能の新たなフロンティア

ニューラル AI とは何ですか?

ニューラルAIは、1) 人間の脳を研究することでAI技術を発展させ、2) AIを活用して人間の脳をより深く研究することを目的とする新興分野です。ニューラルAIの中核ツールの一つは、人工ニューラルネットワークを用いて特定の脳機能のコンピュータモデルを作成することです。このアプローチは、MITとコロンビア大学の研究者が、深層人工ニューラルネットワークが脳の物体認識領域である下側頭葉(IT)の反応プロセスを説明できることを発見した2014年に始まりました。その後、彼らは人工ニューラルネットワークと脳を比較するという基本的な実験手法を導入しました。彼らは、形状認識、動作処理、音声処理、腕の制御、空間記憶など、様々な脳反応プロセスを反復的にテストし、それに応じてそれぞれの反応に対する脳処理モデルを構築しました。

1. シリコンベースの人工ニューラルネットワークを学習させ、物体認識などのタスクを解く。このネットワークはタスク指向ニューラルネットワークと呼ばれる。重要なのは、モデルの学習には通常、画像、動画、音声のみが必要であり、脳データを必要としないことである。

2. 線形回帰や表現類似性分析などの統計分析手法を使用して、トレーニングされた人工ニューラルネットワークの中間活性化値を実際の脳の値と比較します。

3. 現在の脳領域に最適なモデルとして、最もパフォーマンスの高いモデルを選択します。

この方法では、実際の脳のデータは、個々のニューロンを通じて取得することも、脳磁図法 (MEG) や機能的磁気共鳴画像法 (fMRI) などの非侵襲的な技術を使用して脳内のデータを収集することによって取得することもできます。

特定の脳領域のニューラルAIモデルには、2つの重要な特性があります。1つ目は計算可能であること。つまり、このコンピュータモデルに刺激変数を与えると、対応する脳領域がどのように反応するかを計算できます。2つ目は微分可能であること。つまり、ディープラーニングネットワークであるため、視覚認識や自然言語処理モデルを研究するのと同じように最適化することができます。つまり、神経科学者は、PyTorchやTensorFlowといったテンソル代数システムを含め、ディープラーニング革命を推進する強力なツールをすべて活用して、より優れた研究を行うことができるのです。

これは、脳の働きのほとんどを理解できない状態から、特定の領域のダウンロード可能なモデルを作成できるようになるまで、大きな技術的飛躍を達成することを意味します。

ニューラルAIの応用分野

芸術と広告

私たちは様々なメディアを99%の時間、目と耳を通して認識しています。目と耳自体は体験を解釈するものではなく、単なるセンサーに過ぎません。これらの情報を処理・理解するのは脳です。様々なメディアコンテンツに直面すると、私たちの脳は見聞きしたものを分析し、様々な思考や感情を呼び起こします。しかし、この分析結果は必ずしも制作者が伝えようとした内容や、視聴者が受け入れる内容と一致しているとは限りません。

したがって、作品に埋め込まれた情報が視聴者に期待通りに受け取られているかどうかを判断するには、継続的なテストが必要です。一部のインターネット企業でよく採用されている解決策は、A/Bテストです。例えば、Googleは検索結果を表示するハイパーリンクに50種類の異なる青の色合いを適用し、最適な解決策を見出した結果、Googleの収益は基準値から2億ドル増加しました。これは当時のGoogleの収益の約1%に相当します。Netflixは、ユーザーエクスペリエンスを最適化するために映画のサムネイルを調整しています。

しかし、大規模なテストやテストデータの取得なしに、特定のメディアに対する人々の反応を予測できたらどうでしょうか?そうすれば、企業は注目を集める前に、自社の資料やウェブサイトをより適切に最適化できるようになります。ニューラルAIは、視覚的な素材に対する人々の反応を予測する上で既に優れた成果を上げています。例えば、アドビの研究者たちは、デザイナーが人々の関心をより正確に予測し、誘導するためのビジュアルデザインツールの開発に取り組んでいます。例えば、写真を編集して視覚的に記憶に残るようにしたり、見た目に美しくしたりといったことがこれに含まれます。

さらに、人工ニューラルネットワークは、実際の画像よりも効果的に情報を伝達する方法を見つけることもできます。OpenAIのCLIPツールは、伝えたい感情に合った画像を見つけるのに役立ちます。また、OpenAIとGoogleは、テキストプロンプトに基づいてリアルな画像を生成できます。

現在、オーディオビジュアルメディア、ウェブサイト、そして特に広告の最適化に対する市場需要は非常に大きく、私たちはすでにニューラルAIとアルゴリズムアートをこのプロセスに取り入れ始めています。この巨大な市場需要は、開発の好循環を生み出すでしょう。実用化へのリソース投入が増えるにつれて、ニューラルAIはより優れたものとなり、より有用なものになるでしょう。副産物として、広告以外の分野も、より優れた脳モデルの恩恵を受けるでしょう。

アクセシビリティとアルゴリズム設計

ニューラル AI の最もエキサイティングなアプリケーションの 1 つは、製品のアクセシビリティの向上です。

ほとんどのメディアは「平均的な人」向けに設計されていますが、視聴覚情報の処理方法は人それぞれです。例えば、色覚異常のある人は一般の人々とは異なる方法で情報を処理するため、多くのメディアが色覚異常のある人には適していません。多くの製品が色覚異常をシミュレートできますが、調整を行う前に正常な色覚を持つ人に製品の説明をしてもらう必要があります。静的なカラーリマッピングでは、一部の資料の意味がカラーリマッピング後に変化するため(例えば、グラフが読みにくくなる)、彼らのニーズを満たすことができません。しかし、ニューラルAIを活用すれば、既存のグラフィックの意味を維持しながら、色覚異常のある読者に適した資料やウェブサイトを自動的に生成できます。

もう一つの例は、失読症などの学習障害を持つ人々を支援することです。失読症の根深い原因の一つは、文字の混み具合に対する過敏さです。そのため、似たような基本的な特徴を持つ図形を認識することが困難になります。MITは、失読症の人々の視覚システムのニューラルAIモデルを研究しており、このモデルは、美しく読みやすいフォントの設計に役立つ可能性があります。これは、生活の質を大幅に向上させる可能性を秘めており、早急に必要とされています。

健康

多くの神経科学者は、自身の研究が人々の健康、特に神経疾患や精神疾患に苦しむ人々の健康に良い影響を与えることを期待して、この分野に参入しています。ニューラルAIモデルの活用は、新たな治療法の開発につながる可能性を秘めています。優れた脳モデルを得ることで、鍵と鍵穴をマッチングさせるように、適切な刺激を綿密に設計し、適切な情報を伝えることができるのです。この意味で、ニューラルAIの応用はアルゴリズムによる創薬に似ていますが、薬物分子を体内に放出するのではなく、画像や音を放出する点が異なります。

目と耳の受容体に関わる問題は、既に十分にモデル化されているため、最初に解決される可能性が最も高いでしょう。例えば、人工内耳手術では、ニューラルAI脳モデルの助けを借りて、インプラントの刺激パターンを最適化し、音声を増幅することで補聴効果を向上させることができます。

多くの人は生涯を通じて、近視など感覚系の変化を経験します。こうした変化の後、人は脳を外界に適応させ、新しい知覚情報をより深く理解する方法を継続的に学習します。これは知覚学習と呼ばれる現象です。ニューラルAIはこの知覚学習を増幅させ、感覚能力をより迅速かつ効果的に回復させることができます。同様に、ニューラルAI技術は、脳卒中後に四肢をスムーズに動かす能力を失った人を支援したり、健常者の感覚体験を最適化したりすることができます。例えば、野球選手、アーチェリー選手、病理学者のトレーニングを支援することができます。

最後に、これらの技術は気分障害の治療にも大きな可能性を秘めていることを発見しました。気分障害は感覚体験を通して治療できます。例えば、電気刺激によって脳の特定の部位の活動を制御することで、治療抵抗性うつ病を軽減できることが分かっています。ニューラルAIでは、感覚を通して脳の活動を間接的に制御することで、同様の効果が得られる可能性があります。

拡張現実

ニューラルAIアプリケーションをさらに強力にする技術の一つがARグラスです。AR技術は日常生活にシームレスに統合できるため、ユビキタス・コンピューティング・プラットフォームとなる可能性を秘めています。多くのテクノロジー企業やインターネット企業が、より高度なARグラスの研究を加速させており、供給側からの開発への大きな推進力を生み出しています。これにより、現在の静的な画面よりもはるかに強力なディスプレイデバイスが広く普及するでしょう。

VRデバイスの開発軌跡を辿ると、最終的には視線追跡機能が統合されるでしょう。これは、現在の技術的限界をはるかに超え、より制御可能な方法でより広範な視覚刺激を実現できることを意味します。さらに、これらのデバイスは健康分野において大きな応用の可能性を秘めています。

脳コンピューターインターフェース(BCI)

優れたディスプレイ(画像)とスピーカー(音)があれば、脳への主要な入力信号を正確に制御できます。感覚を通して刺激を伝えるための次の、より強力な段階は、読み取り専用の脳コンピューターインターフェース(BCI)を介して、脳が期待通りに反応するかどうかを検証することです。これにより、刺激が脳に与える影響を評価し、期待通りに反応しない場合は、いわゆる閉ループ制御システム内で調整を行うことができます。

チップや脳深部刺激装置を頭蓋内に埋め込む必要はありません。なぜなら、そのような簡便な評価は、頭蓋外で非侵襲的に脳活動を測定することで行えるからです。また、BCIを介して脳を直接刺激する必要もありません。メガネやヘッドフォンで脳への入力の大部分を制御できるからです。現在、多くの非侵襲性の読み取り専用BCIが商品化または開発中であり、閉ループ制御に使用できます。例としては、以下のようなものがあります。

• 脳波検査(EEG)。EEGは頭蓋骨の外側にある脳の電気活動を測定します。頭蓋骨は体積導体として機能するため、EEGは時間分解能は高いものの、空間分解能は低くなります。EEGは、刺激を制御できるようになると、さらに強力なツールとなります。例えば、刺激とEEG信号を関連付け、どの刺激が注意を惹きつけるのか(誘発電位)を解読するなどです。

• 機能的磁気共鳴画像法(fMRI)。fMRIは、神経活動に伴う血中酸素濃度の微細な変化を測定するもので、脳深部の活動を空間的にかつ非侵襲的に読み取ることができる唯一の技術です。閉ループ神経制御に関しては、2つのパラダイムが比較的確立されています。1つ目はfMRIに基づくバイオフィードバック、2つ目は皮質マッピングです。どちらの手法も、神経AIが脳刺激に及ぼす影響を評価することが十分可能であることを示しています。

• 近赤外線機能脳イメージング(fNIRS)。fNIRSは、拡散光を用いて送信機と受信機間の脳血流量を測定します。従来の近赤外線イメージングは​​空間分解能が低いですが、時間ゲーティング(TD-NIRS)と大規模オーバーサンプリング(拡散光トモグラフィー)によって改善できます。学術分野では、WUSTLのジョー・カルバー氏のグループが視覚皮質のビデオデコードに成功しました。商業的には、カーネル社が現在TD-NIRSヘルメットを製造・販売しており、これはまさに驚異的な技術的成果です。この分野は常に前進を続けており、急速に進歩しています。

• 脳磁図(MEG)。MEGは磁場の微細な変化を測定することで脳活動の位置を特定します。EEGと同様に、MEGは電磁場の変化を測定しますが、体積導体の影響を受けないため、より優れた空間分解能を備えています。光ポンピング磁力計(OPM)も進歩しており、将来的にはOPMセンサーを個別に市場で購入できるようになるかもしれません。

これらのよく知られた技術に加えて、デジタルホログラフィー、光音響トモグラフィー、機能的超音波などのいくつかの新興技術が、この分野におけるパラダイムシフトを大幅に加速する可能性があります。

消費者向け非侵襲型BCIはまだ初期段階ですが、ARユースケースを取り巻く旺盛な需要が市場を牽引し続けるでしょう。低次元BCIの急速な発展が見込まれ、前述の様々なニューラルAIアプリケーションが現実のものとなる可能性も十分にあります。

著者:パトリック・ミノー、翻訳者:ホン・シャン