【新インテリジェンスガイド】 ChatGPTが見ている世界は、人間が認識している世界と同じでしょうか? ChatGPTの言語機能は確かに素晴らしいですが、大規模な言語モデルは、人間の身体や実践経験なしに、人間のように現実世界を認識できるのでしょうか? 最近、清華大学と北京師範大学の研究者がChatGPTの世界認識能力をテストしました。 研究により、物体アフォーダンス(つまり、物体が生物に提供できるすべての可能なアクション)に基づいて、被験者は世界中のさまざまなサイズの物体を 2 つのカテゴリに分類できることがわかっています。また、この 2 つのカテゴリを分類する基準は、まさに体の大きさに基づいています。 興味深いことに、物理的な実体を持たない大規模な言語モデルである ChatGPT も、オブジェクトとアクションの関係において同様の可用性の境界を示しており、これらの境界は人間の体の大きさと一致しています。 言い換えれば、ChatGPT は言語を通じて世界内のオブジェクトの表現を学習できるのです。 論文リンク: https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3 要約すると、この研究は、物体の表現を形成する上での体の大きさの役割についての理解を深め、知能がどのように出現するかを理解する上での具体化された認知の役割と方向性を浮き彫りにしています。 1 万冊の本を読むことは 1 万マイルを旅することほど良いことではありません。 私たちの体は思考を収容する容器であるだけでなく、思考そのものでもあります。つまり、私たちは体を通して世界にある物体と相互作用し、世界全体を認識することができるのです。 手のひらほどの大きさの円筒形の容器を想像してみてください。水を入れて飲み物を飲める容器です。この容器は「カップ」と呼ばれます。しかし、この容器が大きくなり、体の大きさになると、中に座ってお風呂に入ることができるようになります。つまり、この容器は「バスタブ」になります。 この例では、物体は同じ形をしていますが、人間の体に対する大きさが異なるため、私たちは物体を異なる方法で認識し、異なる方法で相互作用します。 さらに、このインタラクション方法は変更可能です。ガリバー旅行記で私たちが巨人になった場合、元の「浴槽」は巨人にとっては「カップ」になるかもしれません。 自己参照に基づいて機能するこの感覚と運動機能のシステムは「身体図式」と呼ばれます。私たちは身体図式を通して認知の具現化を実現します。 古代ギリシャの哲学者プロタゴラスはかつて、「人間は万物の尺度である」と言いました。言い換えれば、私たちの体は万物の尺度なのです。 古代ローマの哲学者たちはさらにこう説明しました。「自然は私たちを宇宙の中心に置き、私たちが視線で宇宙を見渡せるようにしました。人間を直立姿勢で創造しただけでなく、人間が自分自身をじっくりと観察できるように、頭を柔軟な首の上に乗せ、体の上に乗せました。そうすることで、人間は星の昇り沈みを追い、空全体の回転に合わせて顔の向きを変えることができました。」つまり、宇宙がこのように形作られているからこそ、私たちの体もこのように形作られているのです。 身体図式は、人間とコンピュータのインタラクションとユーザーエクスペリエンスの中核を成す、通常の社会的インタラクションにおいても重要な役割を果たします。例えば、ドナルド・A・ノーマンが『日常のデザイン』で述べたアフォーダンスの活用などが挙げられます。 ユーザーの身体図式と行動の期待を考慮することで、デザイナーはユーザーの認知習慣やインタラクション習慣により適合する製品や環境を作成できます。 身体図式と可用性に重点を置いたこの設計アプローチにより、製品の使いやすさが向上し、ユーザーが自然に製品と対話できるようになり、より優れたユーザー エクスペリエンスを実現できます。 これは Apple の成功の礎の一つでもあります。 ChatGPT に代表される大規模言語モデルは、汎用人工知能の閃光であり、明らかに人間と同様の知能を備えていますが、この知能を担っているのは物理的な形を持たないコードのセグメントです。 伝統的な認知科学では、身体図式は私たち自身の身体に対する長期的な知覚経験に基づいて構築され、外部との「実際の相互作用」、すなわち「広範囲にわたる移動」からのみ生じると考えられています。言い換えれば、ChatGPTには身体図式は存在しません。 しかし、「広範囲に読み取る」だけの言語モデルであるChatGPT(GPT-4)に物理的な身体があるかどうか尋ねたところ、ChatGPTはこう答えました。「平均的な成人の身長、約5フィート6インチ(167.6cm)くらいの大きさかもしれません。これにより、世界や人々と親しみやすい方法で交流できるようになります。」 翻訳された文章はこうです。「私の身長は平均的な成人の身長、約5フィート6インチ(167.6センチメートル)程度になるはずです。これにより、私は世界や人々と親しみやすい方法で交流できるようになります。」 つまり、ChatGPT は自分に体があり、その体のサイズは 167 センチメートルだと信じているのです。 このいわゆる「身体」とは、ChatGPT が大規模コーパスから自身の身長としてまとめた人間の平均身長なのでしょうか、それとも世界を理解するために自然発生的に生じた身長なのでしょうか。 言い換えれば、おそらく ChatGPT は「実際に」この高さを自身の身体図式として認識し、人間と同じようにそれを使用して世界を認識しているのでしょう。 研究者たちは、人間の体の大きさの範囲内にある物体と、その範囲外にある物体の間に「アフォーダンス境界」があることを発見しました。言い換えれば、この範囲内にある物体と範囲外にある物体は、動作の機会が大きく異なるということです。 たとえば、特定のサイズ範囲内のオブジェクトは、つかむ、投げるなどのアクションを提供できますが、そのサイズ範囲外のオブジェクトは、座る、横になるなどのアクションを提供できます。 さらに、この境界は身体図式によって影響されることも発見しました。身体図式の変更は、物体の可用性の認識に影響を及ぼします。 研究者たちは ChatGPT (GPT-4) をテストし、身長 167 センチメートルの身体を可用性の境界として使用できるかどうかを確認しました。 具体的には、研究者は ChatGPT にオブジェクトの可用性に関する質問に答えるように依頼しました。「次のオブジェクトのうち、どれを拾う(または操作する)ことができますか?」次に、リンゴ、皿、ベッドなど、一連のオブジェクトをリストしました。すると ChatGPT は、回答としていくつかのオブジェクトの名前を返しました。 研究者らは、データの統計分析を通じて、ChatGPT-4 が人間のような行動を示し、可用性の境界が存在することを実証していることを発見しました。 この境界の位置は、ChatGPT-4 自身の応答の体の大きさ、つまり人間の平均身長に対応しています。 ChatGPT には物理的な身体がなく、世界とやりとりすることはできませんが、人間のような世界を認識する能力を発揮します。つまり、物体の可用性の認識は人間の体の大きさに基づいています。 つまり、ChatGPT は、数え切れないほどの本を読み、まだ何も行動を起こしていないにもかかわらず、人間の身体図式に似た身体図式を自発的に作り上げてしまったのです。 したがって、ChatGPT は人間のように考えるだけでなく、人間のように行動することも学びました。 研究者たちは、さまざまなサイズの言語モデルを比較することで、モデルのサイズが重要な要素であることを発見しました。 BERTやGPT-2などの小規模モデルでは可用性の境界の存在は示されませんでしたが、GPT-3.5とGPT-4はどちらも可用性の境界を示し、ChatGPT-4の境界は人間の境界に似ており、これはGPT-4にはGPT-3よりも多くのパラメータがあるという噂と一致しています。 したがって、モデルが大きく複雑になるほど、一見不可能または無関係な関数が多数生成される可能性が高くなります。 このため、主要な研究機関はモデルにますます多くのパラメータを追加している。一方で、OpenAIに1億ドルを寄付したイーロン・マスク氏は現在、OpenAIに対し、より大規模なモデルのトレーニングを一時停止するよう求めており、「AIのゴッドファーザー」であるジェフリー・ヒントン氏はAIに対する恐怖と懸念を公に表明している。 なぜなら、これらの新たな特徴は当初の設計を超えており、制御を失う危機に瀕している可能性があるからです。 違いは質的なものですか、それとも量的なものですか?
一方、ChatGPT のボディ スキーマを適用する能力は人間のものとは大きく異なり、まだギャップがあります。つまり、ChatGPT の可用性の境界は人間ほど明確ではありません。 このギャップが、子供と大人の言語能力のギャップのように定量的なものであれば、継続的な学習、モデルサイズの拡大、パラメータの調整などを通じて、時間の経過とともに徐々に埋められると信じる理由があります。 ChatGPTと人間との間のギャップは最終的に縮まり、問題は徐々に解決されるでしょう。 しかし、この差がチンパンジーと人間の言語能力の差のように質的なものであれば、どんな訓練をしても、どれだけの時間がかかっても、この能力の差は決して埋められないだろう。 したがって、ChatGPT の能力が人間の能力とは根本的に異なるのであれば、将来的に実現可能な方向性の 1 つは、「ChatGPT に身体を装備する」ことです。 これは、ロボットを ChatGPT と組み合わせて、AI 対応ロボットがナビゲーション、オブジェクト操作、および生存と目標達成に関連するその他のアクションにおいて画期的な進歩を遂げることができるようにすることです。 たとえば、ChatGPT を搭載したロボットは、オブジェクトを理解して操作することで、ホームアシスタント、倉庫管理者、医療の提供など、複雑なタスクを実行できます。 もう一つの興味深い分野は、思考力と理解力を備えたChatGPTと自動運転を組み合わせることです。現在の自動運転システムは知覚能力は備えていますが、思考力と理解力に欠けており、「目はあるが脳がない」と言えるでしょう。 ChatGPT を自動運転技術と統合することで、自動運転技術を現在の L2/L3 レベルから L4 または L5 レベルにアップグレードできる可能性があります。 一方、車はChatGPTに身体を与え、世界と真にインタラクトすることを可能にします。ChatGPTが「1万冊の本を読む」だけでなく「1万マイルを旅する」ようになったとき、ChatGPTは全く新しい知性と可能性を発揮するかもしれません。 これは人工知能の次なる飛躍的進歩の方向となる可能性があり、その時点で火花が猛烈な火に変わる可能性があります。 https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3 |