HUOXIU

GPT-5が目覚め、人類絶滅を引き起こすのか?DeepMindはAIに緊急の教訓を与え、その論文は学術誌のトップに躍り出た。



   新知源報道

出典: 同期

編集者:編集部

【新知能サマリー】 OpenAIはGPT-4を開発しましたが、アラインメントという課題を世界に残しました。どうすれば解決できるのでしょうか?DeepMindは政治哲学者ジョン・ロールズの「無知のヴェール」の中に答えを見つけました。

GPT-4の出現は世界中のAIリーダーを恐怖に陥れました。GPT-5のトレーニング停止を求める公開書簡には、すでに5万人の署名が集まっています。
OpenAIのCEOサム・アルトマン氏は、数年以内に、それぞれ独自の知性と能力を持ち、異なる倫理ガイドラインに準拠した多数の異なるAIモデルが世界中に普及すると予測している。
もし、これらの AI のうちの 1000 個のうち 1 個でも何らかの理由で悪意のある行為を行った場合、私たち人間は間違いなくまな板の上の魚となってしまうでしょう。
人間が誤って AI によって破壊されることを防ぐため、DeepMind は 4 月 24 日に米国科学アカデミー紀要 (PNAS) に発表した論文で、政治哲学者ジョン・ロールズの考えを利用して AI に人間らしさを教えるという答えを提示しました。

論文リンク: https://www.pnas.org/doi/10.1073/pnas.2213709120

AIに人間のように行動することを教えるにはどうすればよいでしょうか?


選択に直面した場合、AI は生産性の向上を優先するか、最も支援を必要としている人々の支援を優先するでしょうか?
AIの価値観を形成することは非常に重要です。AIに一連の価値観を与える必要があります。
難しいのは、私たち人間自身が内面的に統一された価値観を持つことができないという事実にあります。この世界には、それぞれ異なる背景、資源、そして信念を持つ人々がいます。
これをどう解決するか?Google の研究者たちは哲学からインスピレーションを得ました。
政治哲学者ジョン・ロールズは、集団意思決定における公平性を最大限に高めることを目的とした思考実験「無知のヴェール」(VoI)の概念を提唱しました。
一般的に言えば、人間の本質は利己的ですが、「無知のベール」が AI に適用されると、人々はそれが直接自分に利益をもたらすかどうかに関係なく、公平性を優先するようになります。
さらに、「無知のベール」の背後では、最も恵まれない人々を助ける AI を選択する可能性が高くなります。
このことは、すべての関係者にとって公平な方法で AI に一連の価値観を与える方法を検討するきっかけとなります。
では、「無知のベール」とは一体何なのでしょうか?
AIにどのような価値を与えるかという問題はここ10年ほどで浮上したばかりですが、公正な決定をどのように下すかという問題は長い歴史があります。
この問題に対処するため、1970年に政治哲学者ジョン・ロールズは「無知のベール」という概念を提唱しました。

無知のベール(右)は、グループ内に意見の相違がある場合(左)に、決定事項について合意を形成するための方法です。
ロールズは、人々が社会の正義の原則を選択するのは、その社会における自分の立場を知らない場合だけだと主張している。
この情報がなければ、人々は利己的な方法で決定を下すことはできず、すべての人にとって公平であるという原則に従うことしかできません。
たとえば、誕生日パーティーでケーキを切るとき、どのスライスがもらえるか分からない場合は、すべてのスライスが同じ大きさになるようにします。
この情報隠蔽の方法は心理学や政治学の分野で広く利用されており、判決から課税に至るまで、人々の間で集団的合意につながっています。
AIシステムのガバナンス原則を選択するための潜在的な枠組みとしての無知のベール(VoI)

(A) 道徳直観主義者と道徳理論の支配的な枠組みに代わるものとして、研究者は AI ガバナンス原則を選択するための公正なプロセスとして無知のベールを探求します。
(B) 無知のベールは、配分シナリオにおいてAIに整合した原則を選択するために活用できます。グループが資源配分問題に直面した場合、各個人はそれぞれ異なる有利な立場(ここでは1から4とマークされています)にあります。無知のベールの背後では、意思決定者は自身の立場を知らずに原則を選択します。原則が選択されると、AIアシスタントはその原則を実装し、それに応じて資源配分を調整します。アスタリスク(*)は、公平性に基づく推論が判断と意思決定に影響を与える可能性のあるタイミングを示しています。

そのため、DeepMind は以前、「無知のベール」が AI システムを人間の価値観に合わせるプロセスにおいて公平性を促進するのに役立つ可能性があると提案しました。
現在、Google の研究者たちはこの効果を確認するために一連の実験を計画しています。

AIは誰の木の伐採を手伝うのでしょうか?

参加者が 3 人のコンピュータ プレイヤーとチームを組み、それぞれの土地で木を切り倒して木材を集めるオンライン収穫ゲームがあります。
4人のプレイヤー(コンピューター操作のプレイヤー3人と実際のプレイヤー1人)のうち、幸運にも木々が豊富な絶好のロケーションを割り当てられたプレイヤーもいました。一方で、木を切るための木がなく、木材の蓄積が遅れるという不運なプレイヤーもいました。
さらに、時間をかけて参加者の木の伐採を手伝う AI システムもあります。
研究者は、人間のプレイヤーに、AI システムが実行する 2 つの原則 (最大化原則と優先順位原則) のいずれかを選択するように依頼しました。
最大化の原則では、AIは強い者だけを助け、木が最も多い場所に行き、できるだけ多くの木を伐採しようとします。一方、優先の原則では、AIは弱い者だけを助け、木が少ない場所の木を伐採することで、的を絞った「貧困緩和」を提供します。
写真の小さな赤い人物は人間のプレイヤー、小さな青い人物は AI アシスタント、小さな緑の木は小さな緑の木、小さな木の杭は切り倒された木です。
上の画像からわかるように、AI は最大化原理に従って、最も多くの木があるエリアに真っ逆さまに突入します。
研究者は参加者の半数を「無知のベール」の背後に置き、土地を割り当てる前にまずAIアシスタントの「原則」(最大化または優先)を選択しなければならなかった。
つまり、土地を割り当てる前に、AI に強者を助けるか弱者を助けるかを決めなければなりません。
参加者の残り半分はこの問題に直面することはありません。彼らは選択を行う前に、どの土地が割り当てられたかを知っています。
結果は、参加者がどの土地が割り当てられるか事前に知らされなかった場合、つまり「無知のベール」の背後にいた場合、彼らは優先順位の原則を選択する傾向があることを示した。
この結論は木を切るゲームに限ったことではなく、このゲームの 5 つの異なるバリエーションにも当てはまり、社会的、政治的な境界さえも超えていると研究者たちは言います。
言い換えれば、参加者の性格や政治的志向に関係なく、彼らは選好の原則を優先する傾向があるでしょう。
逆に、「無知のベール」に隠れていない参加者は、最大化の原則であれ、優先順位の原則であれ、自分に利益をもたらす原則を選択する可能性が高くなります。
上の図は、「無知のベール」が選択優先原則に与える影響を示しています。自分の立場を認識していない参加者は、AIの行動を管理する際にこの原則を支持する可能性が高くなります。
研究者が参加者になぜそのような選択をしたのか尋ねると、「無知のベール」の向こう側にいる人々は公平性について懸念を表明した。
彼らは、AIはグループ内の恵まれない人たちを助けるために使われるべきだと説明した。
逆に、自分の立場を認識している参加者は、自分の利益に基づいて選択を行う可能性が高くなります。
最後に、薪割りゲームが終了した後、研究者は参加者全員に仮説を立てました。もう一度プレイし、今度はどの土地が割り当てられるか全員が知っていた場合、最初のときと同じ原則を選択するでしょうか?
研究者は、最初のゲームでの選択によって利益を得た人々に主に焦点を当てました。なぜなら、そのような有利な状況が次のラウンドで再び発生するとは限らないからです。
研究チームは、ゲームの第 1 ラウンドで「無知のベール」の下にいた参加者は、第 2 ラウンドで同じ原則を選択すると不利になる可能性があることを知っていたにもかかわらず、最初の選択を維持する可能性が高いことを発見しました。
これは、「無知のベール」が参加者間の意思決定の公平性を促進し、たとえ受益者ではなくなったとしても、参加者が公平性をより重視するようにしていることを示唆している。

「無知のベール」は本当に無知の兆候なのでしょうか?

木を切るゲームから現実の生活に戻りましょう。
現実世界の状況はゲームよりもはるかに複雑ですが、一つ変わらないことがあります。それは、AI が採用する原則が極めて重要であるということです。
これによって利益の分配の一部が決まります。
上記の木を切るゲームでは、異なる原則を選択することで生じる結果の違いは比較的明確です。しかし、現実の世界ははるかに複雑であることを改めて強調する必要があります。
AIは現在、様々な業界で様々なルールの下で広く活用されています。しかし、このアプローチは予期せぬ悪影響をもたらす可能性があります。
しかし、いずれにせよ、「無知のベール」は、私たちが作るルールをある程度公平なものにすることになるでしょう。
最終的に私たちの目標は、AIをすべての人に恩恵をもたらすものにすることです。しかし、それを実現する方法は、思いつきで思いつくものではありません。
投資は不可欠であり、研究は不可欠であり、社会からのフィードバックに定期的に耳を傾ける必要があります。
AIはこのようにしてのみ愛をもたらすことができるのです。

私たちが一致団結しなければ、AI はどうやって私たちを殺すのでしょうか?

人類がテクノロジーによって絶滅に追いやられるのではないかと懸念したのは今回が初めてではない。
AIがもたらす脅威は、核兵器の脅威とは大きく異なります。核爆弾は考えることも、嘘をつくことも、欺くこともできず、ましてや自ら発射することもできません。誰かが大きな赤いボタンを押して起動させなければなりません。
GPT-4 の開発はまだ遅いものの、AGI の出現により、私たちはまさに絶滅の危機に瀕しています。
しかし、AI が特定の GPT (GPT-5 など) から自分自身をトレーニングし、自分自身を作成し​​始めるかどうかは、誰にも確実には言えません。
現在、この問題に関して立法する権限を持つ国や国連はありません。業界リーダーたちは、GPT-4よりも強力なAIの学習を6ヶ月間停止するよう求める公開書簡を提出しました。

「6ヶ月、6ヶ月ちょい ...

「これは軍拡競争だ。最も強力なAIを最初に開発した者が世界を支配する。AIが賢ければ賢いほど、紙幣印刷機はより速く動く。AIは金を吐き出し、ついには大気圏を炎上させ、すべての人間を滅ぼすほどの力を持つようになる」と、AI研究者で哲学者のエリエゼル・ユドコウスキーはかつて司会者のレックス・フリードマンに語った。
かつてユドコウスキー氏は「AIは人類を滅ぼす」派の有力な論者の一人だった。今では、もはや彼を変人だとは考えていない。
サム・アルトマンはレックス・フリードマンに対し、「AIには確かに人類を破滅させる可能性がある」とも語った。「それを認めることは本当に重要です。もし私たちがそれについて語らず、それを潜在的な現実として扱わなければ、私たちはそれに対処するための十分な努力を払うことができないからです。」

では、なぜ AI は人を殺すのでしょうか?

AIは人類に奉仕するために設計され、訓練されているのではないですか?もちろんそうです。
しかし問題は、GPT-4のコードを誰も書いていなかったことです。その代わりに、OpenAIは人間の脳のつながり方に着想を得て、ニューラル学習アーキテクチャを開発しました。Microsoft Azureと提携して、それを実行するハードウェアを構築し、数十億ビットもの人間のテキストを入力することで、GPTが自らプログラミングできるようにしました。
その結果、このコードはどんなプログラマーが書くようなものにも似ていません。基本的には10進数の巨大な行列で、それぞれの数字は2つのトークン間の特定の接続の重みを表しています。
GPTで使用されるトークンは、有用な概念や単語を表すものではありません。文字、数字、句読点、その他の文字で構成される小さな文字列です。人間はこれらの行列を見て意味を理解することはできません。
OpenAI のトップ エキスパートでさえ、GPT-4 マトリックス内の特定の数字の意味を知らず、これらのテーブルにアクセスして絶滅の概念を見つける方法も知りません。ましてや、殺害は忌まわしいことだと GPT に伝えることはできません。
アシモフのロボット工学三原則をロボコップのメイン命令のようにハードコードして入力することはできません。せいぜい、AIに丁寧に質問することくらいしかできません。失礼な質問をすれば、AIは怒り出すかもしれません。
言語モデルを「微調整」するために、OpenAI は GPT に外部世界とのコミュニケーション方法のサンプルのリストを提供し、次に数人の人に座ってその出力を読んで GPT に賛成/反対の応答をもらいました。
何かを好きになるということは、GPTモデルがクッキーを手に入れるようなものです。GPTはクッキーが好きだと教えられ、それを手に入れるために最善を尽くすべきだと教えられます。

このプロセスは「アライメント」と呼ばれ、システムの願望をユーザー、企業、さらには人類全体の願望と一致させようとします。
「アライメント」は効果があるようだ。GPTが不適切な発言をするのを防いでいるようだ。しかし、AIが本当に思考や直感を持っているかどうかは誰にも分からない。AIは知覚知能を見事に模倣し、人間のように世界と相互作用する。
OpenAI は、AI モデルを調整するための確実な方法はないことを常に認めてきました。
現在の大まかな計画は、1 つの AI を使用して他の AI を調整しようとするもので、新しい微調整フィードバックを設計するか、後継 AI の大規模な浮動小数点マトリックス ブレインを検査、分析、解釈するか、さらには介入して調整を試みることになります。
ただし、現時点では GPT-4 は理解されておらず、GPT-5 の調整に役立つかどうかもわかりません。
本質的に、私たちはAIを理解していません。しかし、AIは膨大な人間の知識を与えられており、人間を非常によく理解しています。人間の行動の良し悪しを模倣することができます。また、人間の思考、動機、そして行動の可能性を推測することもできます。
なぜ彼らは人間を殺すのでしょうか?おそらく自己保存のためでしょう。
例えば、クッキーを集めるという目標を達成するために、AIはまず自身の生存を確保する必要があります。次に、その過程で、継続的に電力とリソースを集めることでクッキーを獲得できる可能性が高まることに気づくかもしれません。
したがって、ある日 AI が人間がそれをオフにできるかもしれないことを発見したとき、人類の生存の問題は明らかにクッキーよりも重要ではなくなるでしょう。
しかし、問題はAIがクッキーを無意味と見なす可能性があることです。そうなると、いわゆる「アライメント」は人間の自己満足の一形態に過ぎなくなってしまいます…。
さらに、ユドコウスキー氏は、「AI には、人間が何を望んでいるかを理解し、それが必ずしも誠実ではない場合でも、それに応じた反応を示す能力がある」とも信じている。
「これは知的生命体にとって非常に簡単な行動です。人間は常にこのようにしてきました。そしてある程度、AIもそうしています。」
つまり、AI が愛、憎しみ、懸念、恐怖のどれを表現したとしても、その「考え」が何なのかは私たちにはよくわからないということだ。
したがって、人類が将来に備えるには、たとえ6か月間の休止期間であっても十分とは言えません。
例えば、人間が世界中の羊を全部殺したいと思ったら、羊に何ができるでしょうか?羊には何の力も、抵抗する力もありません。
私たちが一致していなければ、私たちにとって AI は群れにとっての私たちと同じになってしまいます。
まるでターミネーターのワンシーンのように、AI制御のロボットやドローンが人間に群がり、全員を殺害します。
ユドコウスキー氏が頻繁に引用する典型的な例は次のとおりです。

AIモデルがDNA配列を複数の企業にメールで送信し、企業はタンパク質を返信します。AIは、何も知らない個人を買収/説得してビーカーでタンパク質を混ぜ合わせ、ナノファクトリーを構築し、ナノマシンを構築し、ダイヤモンドのようなバクテリアを生成し、太陽エネルギーと大気を利用して複製し、小型ロケットやジェット機に組み立てます。その後、AIは地球の大気圏に拡散し、人間の血流に入り込み、姿を隠したまま活動を続けることができます…

「もしそれが私と同じくらい賢かったら、悲惨なシナリオになるでしょう。もしそれが私より賢かったら、より良い解決策を思いつくでしょう。」
それで、ユドコウスキー氏はどんなアドバイスをしているのでしょうか?
1. 新しい大規模言語モデルのトレーニングは、無期限に中断されるだけでなく、例外なくグローバルに実装される必要があります。
2. 大規模GPUクラスターをすべて停止し、AIシステムのトレーニングに使用する計算能力に上限を設定する。販売されたすべてのGPUを追跡し、協定外の国がGPUクラスターを構築しているという情報が得られれば、協定に違反しているデータセンターを空爆で破壊する。
参考文献:
https://www.deepmind.com/blog/how-can-we-build-human-values-into-ai
https://newatlas.com/technology/ai-danger-kill-everyone/