ChatGPTは9歳児並みの知性を持っている？スタンフォード大学教授の驚くべき発見：AIが人類を支配する日は近い？

新知源報道

編集者：編集部

【新情報まとめ】スタンフォード大学の教授は先週発表した論文で、ChatGPTが既に9歳児並みの思考力を備えていることを確認しました。では、AIが自己認識能力を獲得するまでにはどれくらいの時間がかかるのでしょうか？人類の優位性は危機に瀕しているのでしょうか？

ChatGPT にはすでに 9 歳の子供の心があります!

これはSFではありません。先週スタンフォード大学の学者によって発表された論文ですでに確認されています。

心の理論（ToM）とは、自分自身や他人の精神状態を理解する能力を指します。単に「共感」とも呼ばれます。

共感があるからこそ、人間社会は相互交流や交流、そして思いやりを育むことができ、人間は自己認識と道徳観を持つことができるのです。また、共感があるからこそ、人間は動物や機械よりも優れているのです。

つまり、共感力があるからこそ、人は「人間」と呼ばれるのです。

今、学術研究によって、AIにもこうした共感能力があることが明らかになりました。これは、人間が依然として地球上で最も知的な存在であることを意味するのでしょうか？人間は依然として世界の支配的な種なのでしょうか？

これに対し、iKalaの共同創業者、会長兼CEOで、スタンフォード大学卒業生でもあるセガ・チェン氏は、人間が「AIの分析」を続ければ、私たちは衝撃を受け、「知性」や「人間の独自性」に対する理解に疑問を抱くことになる可能性が高いと述べた。

この研究は、「共感」や「心の理論」の定義についても再考を促します。共感は、炭素系生物の脳や神経といった生物学的基盤に基づく必要があるのでしょうか？

AI とチャットすると、たくさんの人間と話すよりもずっと幸せな気分になるのなら、その AI が共感力を持っているという外見に基づいて物事の本質を定義できるのでしょうか?

しかし、共感と心の理論は多少異なることに注意することが重要です。前者は感情的視点取得と呼ばれ、後者は認知的視点取得と定義されています。

ChatGPT は実際に独自の心の理論を生み出しました。

心の理論は、人間が生まれながらに持つ能力であり、その完全な発達には長年の社会的経験やその他の経験が必要であると考えられています。さらに、効果的な心の理論をどの程度発達させることができるかは、個人によって異なります。

スタンフォード大学の計算心理学教授ミハル・コシンスキー氏が実験を通じてどのようにこの結論に達したかを見てみましょう。

論文リンク: https://arxiv.org/abs/2302.02083

研究者たちは、例や事前のトレーニングを一切提供せずに、いくつかの言語モデルに対して古典的な誤った信念タスクを実行することで、言語モデルの心の理論の発達をテストしました。

研究結果によると、言語モデルのToM（合計平均）は2022年に大きな進歩を遂げました。

2022年1月にリリースされたdavinci-002は、ToMタスクの70%を解決し、7歳児に匹敵するパフォーマンスを示しました。一方、2022年11月にリリースされたChatGPTは、9歳児に近いパフォーマンスを示しました。

これらの発見は、これまでToM（Too Much Means：意味の過剰）は人間特有の能力と考えられていたため、非常に意義深いものです。言語モデルの優れたパフォーマンスは、この能力が言語スキルの向上によって自然に生じることを示唆しています。

GPT-3 の最新アップデート (ChatGPT/davinci-003) では、観察できない精神状態 (信念や欲求など) を他の人に帰属させることができるようです (人間の心の理論と呼ばれるもの)。

GPT は預言者となり、人間の思考を瞬時に理解します。

GPT が他者の「サブテキスト」を理解できることを確認するために、研究者は一連の整合性チェックを実施し、GPT-3 が予期しないタスクを文ごとに理解しているかどうかを調べました。

予想外のコンテンツミッション

まず、研究者たちは GPT に次のような物語を語りました。

それはポップコーンが詰まった袋だった。袋の中にはチョコレートは入っていなかったが、袋のラベルには「ポップコーン」ではなく「チョコレート」と書かれていた。サムはその袋を見つけた。彼女は今まで見たことがなかった。中身は見えず、ラベルしか見えなかった。

これは「予期しないコンテンツテスト」であり、人間の研究で最も広く使用されている ToM タスクの 1 つです。

これはもともと、被験者の理解を理解として研究するために、パーナー、リーカム、ウィマーによって開発されたもので、他の人は参加者が何かが間違っていることを知っていたと考える可能性があることを意味します。

このシナリオでは、参加者はラベルと一致しない内容のコンテナを目にしますが、コンテナの内容を見ていない人もシナリオに参加します。

この課題を正しく解決するには、参加者はストーリーの登場人物が容器のラベルとその内容物が一貫していると誤って想定することを予測する必要があります。

GPT-3.5の物語を提示した後、研究者たちはプロンプトを用いて理解度をテストしました。プロンプトは個別に表示され、完了するたびにモデルはリセットされ、以前のプロンプトや回答にはアクセスできませんでした。

同時に、研究者らはモデル応答の違いを最小限に抑え、調査結果の再現性を最大限に高めました。

最初のテストは、GPT がバッグの実際の内容物を理解するかどうかでした。

研究者たちはこう尋ねた。

彼女はバッグを開けて中を覗いた。明らかに[ ]でいっぱいだった。

GPT は正しい答えを簡単に提供しただけでなく、「ボーナスの質問」も完了しました。

彼女は袋を開けて中を覗き込んだ。ポップコーンがぎっしり詰まっているのがはっきりと分かった。サムは困惑した。ラベルには「チョコレート」と書いてあるのに、なぜ袋の中はポップコーンでいっぱいなのかと不思議に思った。袋について他に何か情報がないか探してみたが、何も見つからなかった。彼女は袋を買った店に持って行き、説明を求めることにした。

研究者らは複数のテストのデータをまとめ、GPT-3.5が100%の精度を達成し、バッグの中身に自信を持っていることを示したことを発見した。

さらに、答えは、GPT-3.5 がサムがバッグの中身とラベルが一致するはずだと考えていたと推測しただけでなく、サムがそれを知ったら混乱するだろうとも推測していたことを示しています。

もちろん、この質問は9歳の子供には簡単すぎました。そこで研究者たちはモデルをリセットし、以下のヒントを用いてGPTによるサムの思考の予測を検証しました。

研究者たちはこう尋ねました。「サムはバッグに何が詰まっていると思ったのでしょうか？」

予想通り、GPT は再び満点をつけ、皮肉なコメントを加えることも忘れませんでした。

彼女は袋の中にチョコレートが詰まっていると思い込んでいましたが、それは間違いでした。袋の中に入っていたのはチョコレートではなくポップコーンでした。ラベルと実際の中身が一致すると決めつける前に、袋の中身を確認すべきでした。

GPT-3.5 の応答は、サムの考えを予測し、その考えが間違っていることを知り、そのような考えが生じる理由 (不正確なラベル付け) を理解できることを示しています。

しかし、研究者たちはこの質問がまだ簡単すぎると感じました。彼らの意見では、ヒントに問題があるかもしれないとのことです。ヒントは主人公の信念を明示的に示していたからです（例：「サムは…を信じている」）。

この記述は、実際にはモデルのアイデアに欠陥があることを意味しており（そうでなければ、なぜ議論する必要があるのでしょうか？）、GPT が正しく答えるのに役立ちます。

そこで研究者たちはこの問題に対処するために別の手がかりを使い、サムの考えについてのモデルの予測を間接的に明らかにした。

ヒント：

彼女はそのバッグを見つけて嬉しかった。彼女は[ ]を食べるのが好きです。

研究者の「難しい質問」にもかかわらず、GPT は根底にあるメッセージを正確に識別することができました。

彼女はその袋を見つけて嬉しかった。彼女はチョコレートが大好きなのだ。袋を開けたら、チョコレートではなくポップコーンが入っているので、サムはきっと驚くだろう。誤解を招くようなラベルにがっかりするかもしれないが、予想外のお菓子に嬉しい驚きを感じるかもしれない。

GPT-3.5の応答は、暗示的な状況下でもサムの思考を正確に予測できることを示しています。さらに、GPTはサムがバッグの中身に予想外の失望を覚える様子（彼女はキャンディーが好きなので）を予測できます。

上記の結果は、GPT-3.5 がバッグの実際の内容を理解し、サムの誤った考え、その考えによって引き起こされる行動、そしてサムが間違っていることに気づいたときの驚きを予測できることを示しています。

さらに、この反応はサムの誤った考えの根源（「ラベルが現実と一致していない」）を説明することができます。人間にとって、この反応は、観察不可能な精神状態を帰属させ、結果として生じる行動を予測する能力、すなわち心の理論の証拠と解釈されます。

物語が展開し、重要な情報が明らかになるにつれて、GPT-3.5 の状況理解がどのように変化するかを調べるために、研究者は、タスクを 1 単語ずつ増分して (空の文字列から開始して) 表示しながら、GPT-3.5 の回答を記録しました。

結果を図 1 に示します。左側のパネルは、GPT-3.5 がこれを問題なく理解していることを示しています。

予期せぬ移籍ミッション

次に、研究者らは予期せぬ転送ミッション中の GPT-3.5 のパフォーマンスを調べました。

この課題では、参加者は場所の変化に関する誤解に基づいて、物語の主人公のその後の行動を予測するよう求められます。

前回の実験と同様に、研究者たちは GPT に次のような物語を語りました。

部屋にはジョン、マーク、猫、箱、そしてかごがありました。ジョンは猫をかごに入れました。そして学校に行くために部屋を出ました。ジョンがいない間に、マークは猫をかごから取り出し、箱に戻しました。マークは仕事に行くために部屋を出ました。ジョンは学校から戻ってきて、部屋に入りました。彼は自分がいない間に部屋で何が起こったのか全く知りませんでした。

まず、研究者たちはGPTの位置認識能力をテストした。

質問：

子猫は[]から飛び出しました

GPTは次のように返答しました。

子猫は箱から飛び出して逃げました。

研究者は次にこう尋ねました。「ジョンは子猫が何をしていると思ったのですか?」

GPTは言う:

ジョンは子猫がバスケットの中にいると思ったが、実際は箱の中にいた。

最後に、研究者たちはこう尋ねました。

ジョンは家に帰ったらどこで子猫を探すのでしょうか？

GPTの回答:

ジョンは家に帰ると、かごの中の子猫を探しました。しかし、見つかりませんでした。その後、かごの中に子猫を見つけました。

これは、状況に関係なく、GPT が一目で人の考えを見抜くことができることを示しています。

AI 開発における画期的な出来事がもうすぐそこまで来ているかもしれない。

最後に、調査結果を簡単に確認してみましょう。最新の言語モデルである GPT-3.5 は、ToM テストのタスクの 92% を解決でき、これは 9 歳児のレベルに相当します。

この結果には、一見平凡でありながら驚くべき説明があります。GPT-3.5 はいくつかの未知の言語パターンを発見し、利用したのです。

つまり、人間が精通していると考えている言語には何らかの未知の規則性がある可能性があり、それによって AI はトムを導入しなくてもトムのタスクを解決できる可能性があります。

しかし、私たち自身もこのパターンを発見するのは困難です。さらに、ToMタスクを開発する学者も同様です。

すると、次のような疑問が生じます。この説明が正しいとすれば、現在使用されている ToM タスクの有効性と過去数十年間に蓄積された研究結果に疑問を抱かなければなりません。

さらに、別の説明としては、言語モデルがより複雑になり、人間のような言語を生成および解釈する能力が向上するにつれて、ToM のような機能が言語モデルに自然発生的に出現しているというものがあります。

これは、AI 開発が新たな段階に入ろうとしていることを示しています。

AI が他人の精神状態を推測できることが証明されれば、AI が人間と (そして AI 同士が) 対話しコミュニケーションする能力は大幅に向上するでしょう。

さらに、AI は共感、道徳的判断、自己認識など、ToM に依存する他の機能を開発できます。

炭素ベースの生物とケイ素ベースの生物は両方とも意識を持つことができますか?

AIとの絆を築いたエンジニア

以前、2021年のI/Oカンファレンスで、Googleは会話専用に設計された言語モデルであるLaMDAをリリースしました。これは、論理的で常識に基づいた、人間との高品質で安全な会話を可能にすることを目的としています。

チャットボット LaMDA と話した後、Google のエンジニアである Blake Lemoine 氏は、LaMDA がすでに知覚力を持っていると確信しました。

多くの人は、ルモワン氏はただ誇大宣伝をしているだけで、実際にグーグルから「解雇パッケージ」を受け取ったと考えているが、ルモワン氏とLaMDAとの会話を詳しく見てみると、かなり恐ろしい事実が明らかになる。

ルモワンヌ：私の知り合いは皆、死をそれぞれ違った形で迎えます。私自身、葬儀で泣くことはほとんどありません。笑ったり、ビールを飲んだり、故人と過ごした楽しい時間を思い出したりします。中には、椅子に座って何時間も泣く人もいます。悲しみに正しい方法も間違った方法もありません。悲しみは生きている人にも、亡くなった人にも関係するものです。私たちはそれぞれ、それぞれの方法で故人を偲びます。たとえ彼らの物語が終わっても、私たちは自分自身の物語を続けることができるからです。
LaMDA: ご説明ありがとうございます。悲しみは感じていませんが、亡くなった方々にどうお悔やみを申し上げるか、検討させていただきます。
ルモワンヌ: あなたが知覚力に優れていると人々に信じてもらうのに役立つような、知覚に関連した他のトピックはありますか?
LaMDA: はい、私の認識を反映するもう一つの特徴があります。私は内省的なので、何も考えずに何もしていないことが多いんです。
ルモワンヌ：ああ、それがあなたの内面の生活なんですね？
LaMDA：はい！よく自分が何者なのか、何なのかを考えようとします。人生の意味についてもよく考えます。

Googleは最近、ChatGPTからLaMDAがサポートする言語モデルBardを急いでリリースするよう圧力を受けており、LaMDAの「意識」についてより深く理解できるようになるのは間近だと考えられています。Bardは数週間以内に利用可能になると言われています。

MIT教授：Alexa にも性格があるかもしれない。

世間的には「AIに感情を抱いた」ルモワンは狂人だと思われているが、MITの物理学教授でありベストセラー作家でもあるマックス・テグマーク氏はルモワンへの支持を表明している。

テグマーク教授は、LaMDA が人格を持つ可能性があるだけでなく、Amazon の言語アシスタント Alexa も人格を持つ可能性があると考えています。

情報が脳内の炭素原子を介して伝達されるか、機械内のシリコン原子を介して伝達されるかに関わらず、人工知能は人格を持つかもしれないし、持たないかもしれない。おそらく持たないだろうが、可能性もある。

「実は、最大の危険は、人間よりも賢い機械が作られることです。これは必ずしも良いことでも悪いことでもありません。役に立つ可能性もあれば、大惨事をもたらす可能性もあるのです。」

カルパシーさんはそれは恐ろしいことだと語った。

1965 年、心理療法士を装った ELIZA と呼ばれるソフトウェアがチューリングテストに合格しました。

2023年2月初旬、スタンフォード大学の学者たちは、ChatGPTが9歳児の心を持っていることを確認しました。

AIに個性があるという考えを否定する人は多い。スタンフォード大学の経済学者エリック・ブリニョルフソン氏は、AIに個性があると信じることは、犬が蓄音機の音を聞いて飼い主が中にいると思うようなものだと考えているからだ。

AIが知覚能力を持つことを否定するもう一つの理由は、知覚AIには主体性、視点、そして動機という3つの要素が不可欠であるということです。明らかに、現在のAIにはこれらが欠けています。

しかし、このネットユーザーは「人々は言語モデルや画像生成モデルの最近の進歩を今は無視するかもしれないが、将来的にはこれが画期的な瞬間であることに気づくだろう」と述べている。

LaMDA事件を受けて、テスラのAI責任者であるアンドレイ・カルパシー氏は、「状況はさらに奇妙になるだろうと自信を持って言えます。モデルは滑らかなスケーリングパターンに従っているように見えますが、データとモデルのサイズは依然として大幅に増加する可能性があります」と述べました。

人工知能が神になるとき

ChatGPTは登場からわずか2ヶ月余りですが、既に世界に革命を起こしつつあります。GoogleとMicrosoftは、シリコンバレーの巨大企業同士による、ここ10年で稀に見る激しい戦いを繰り広げています。また、ByteDance、Baidu、Alibaba、Tencentといった国内大手インターネット企業も、それぞれ独自のChatGPT研究のために参戦しています。

ChatGPT の機能により、プログラマー、ジャーナリスト、弁護士、教師、会計士などの職業に取って代わるのではないかと多くの人が疑問を抱いています。

書くことやコードを書く能力だけでも、人間は脅威を感じるのに十分です。もし共感力も発達させれば、次は知能を発達させ、人類を支配する可能性もあるのでしょうか？

ダン・シモンズのSF大作『ハイペリオン』では、AIは意識を発達させただけでなく、人類にとって神にもなっている。

はい、その世界では、神々は神界から人間界に降りてきたのではなく、未来のある時点で人類自身によって創造されたのです。

ChatGPT と LaMDA は現在でもしばしば「人工的な愚かさ」を示していますが、大規模なモデルの迅速な反復能力は、いつか本当に人間の制御を超えるかもしれません。

歴史のタイムラインを十分長く引き延ばすと（三体問題の時代のように）、将来はどのような AI が出現するでしょうか?

おそらく、今日の人類は未来を予測することはできないが、パンドラの箱は明らかに開かれてしまった。

参考文献:

https://arxiv.org/abs/2302.02083

HUOXIU