HUOXIU

AIの推論能力をどう捉えるべきか?人間中心主義を超えて。

編集者注:人工知能は本当に「推論」できるのでしょうか?私たちは人間の思考を過度に狭量に捉え、AIの推論能力への理解を狭めてしまっているのではないでしょうか?本日ご紹介する記事は、AIの推論能力を人間中心主義的な基準で軽視すべきではないと主張しています。この記事では、以下の3つの重要な点を指摘しています。

  • 推論能力の定義はよりオープンであるべきであり、従来の人間の思考パターンに限定されるべきではありません。
  • 複数の標準化されたテスト (HellaSwag や WinoGrande など) を通じて、AI は推論タスクにおいて優れた能力を発揮しています。
  • 私たちはもっとオープンな考え方を取り入れ、AI を「エイリアンの知性」のユニークな形として捉える必要があります。

これは単なる技術的な分析ではなく、人間の知性についての深い考察でもあります。急速に進化する今日のAIの世界において、私たちは人間中心主義的な思考の束縛から解放され、この新たな「エイリアンの知性」をよりオープンで謙虚な姿勢で受け入れることができるでしょうか?

著者 | Rafe Brena、Ph.D.

編纂者:岳陽

ChatGPTを使用した著者による画像

最近、人工知能に推論能力があるかどうかについての議論がますます白熱しています。最近発表されたDeepSeek R1モデルとOpenAI o3-miniモデル[1]は、各方面から反響を呼びました[2]。「これは単なる誇大宣伝と幻想だ」と考える人もいれば、「人工知能の新たなパラダイム」と捉える人もいます。

人工知能の推論能力(あるいはその欠如)は、多くの人々の神経を逆なでしているようだ。AIが「推論」できると認めることは、推論が人間だけの能力ではないと示唆するものであり、人間の自尊心を傷つける行為だと彼らは考えているのではないかと思う。

19世紀、算数は知的な成果と考えられていました(牛が足し算をするのを見たことがありますか?)。しかし、私たちは自分たちよりもはるかに高性能な計算機を使うことに適応する必要がありました。

「我々は汎用人工知能を実現しようとしている」から「AIは博士レベルに達した」、さらには「AppleはAI革命はでたらめだと言っている」といったAIの推論能力を全面的に否定するものまで、衝撃的な主張を目にしてきました。

他の記事では、イーロン・マスクのAGIに関する主張がいかに馬鹿げているかについて論じてきました。この記事では、その対極にある、つまり人工知能は根本的に推論能力がないと主張する人々について考察します。

人工知能を最も強く否定する人(私は彼らを「懐疑論者」とは呼びません)の一人であるゲイリー・マーカス[3]は、人工知能はパターン認識には優れているかもしれないが、「現実的な推論」能力が欠けていると主張しています。

さらに、マーカス氏は AI チャットボットを「美化されたオートコンプリート」と呼んでおり、これは ChatGPT の初期にエミリー・ベンダー氏が作った有名な軽蔑語「ランダム オウム」に新しい用語を加えたものです。

「真の推論」とは何でしょうか?以下でこの質問に答えてみたいと思います。

ノーム・チョムスキーのようなさらに著名な思想家たちは、人工知能は「真に考える」ことはできず、「意味の理解」が欠如していると主張しています。(訳注:一部の研究者は、AIは「具現化されたAI」やより複雑なマルチモーダル学習を通じて徐々に「意味のある理解」に近づく可能性があると考えています。しかし、チョムスキー陣営は、AIが意識、意図、身体的経験を欠いている限り、その「理解」は人間のそれとは根本的に異なると主張しています。)また、チョムスキーは人工知能が人間の創造性や抽象的思考能力に匹敵することは決してないと考えています。

01 大規模言語モデル (LLM) は推論を実行できますか?

人工知能の推論能力を擁護する過激な意見と反対する過激な意見が渦巻く中で、どれが単なる個人的な感情や考えではなく、事実に基づいたものなのかを、私たちはどのように見分けることができるでしょうか?もちろん、答えは証拠です。

しかし、この論争における「事実」とは一体何なのでしょうか?何が「事実」を構成するかは、「推論」の定義に大きく左右されることに注意してください。特に、推論が「真に理にかなっている」ことを要求する人もいます。例えば、サルヴァトーレ・ライエリは最近の記事で次のように問いかけています。

大規模言語モデル (LLM) は本当に推論できるのでしょうか?

ここでのキーワードは「真に」です。では、「推論」と「真に推論する」の違いは何でしょうか?ここには人間中心主義的なバイアスが働いているように思います。まるで「真に推論する」とは「私たち人間と同じように推論し、宇宙で私たちだけが真の推論者である」という意味であるかのように。

むしろ、私は「推論」を、一般的に推論を必要とすると認識されている問題を解決する認知能力と定義することを好みます。これには、数学的推論、常識的推論、言語理解、そして推論が含まれます。

この定義は循環論法のように思えるかもしれません。しかし、特定の能力に関する一連の質問について合意が得られれば、次のステップはAIシステムがこれらの問題を解決できるかどうかをテストすることです。問題は、後述するように、現在のAIは特定の問題の解決には優れているかもしれませんが、人間と似ているように見える問題(異なる角度からの物体認識や、同じ質問を異なる方法で表現することなど)には全く対応できない可能性があることです。

この定義を用いるにあたり、有名な「チューリングテスト」とは明確に区別していることにご留意ください。チューリングテストの目的は、人間の審査員を欺き、まるで本物の人間と話しているかのように思わせることです。チューリングテストについてご存じない方は、私の記事「チューリングテストはなぜ時代遅れになったのか?」[4]をお読みください。

同時に、人工知能が知能を持つためには「人間のように推論する」必要があるという見解には反対です。「人間のように推論する」という表現は曖昧で擬人化的であり、実用的な価値がないと考えています。

記事の最後の部分では、現代の人工知能は実際には「人間のように推論する」ものではなく、むしろ非人間的な形態、つまり「エイリアン」の知能に近いと主張します。

さらに、「真の推論」とは、いわゆる「思考の連鎖」(CoT)の中で「いくつかのステップで考える」ことであると提案する人もいます。

AIチャットボットに関するアイデアは、Google Researchが2022年に発表した論文「Chain of Thought Prompting Elicits Reasoning in Large Language Models(思考の連鎖による大規模言語モデルにおける推論の誘発)」[5]で初めて提案されました。OpenAIはこのアイデアを実装し、非常に優れた成果を上げたため、「人工知能の新しいパラダイム」と呼ぶ人もいます。

人工知能における思考連鎖(CoT)の利用に反対しているわけではありません。例えばOpenAIはこれを非常にうまく活用しています(関連するテスト結果からもその改善は明らかです)。しかし、推論は認知能力の一種であり、多段階思考に限定されるものではないと考えています。

推論とは、(ライエリ氏が上で述べたように)単に「複雑な問題を解決する」ことだけではありません。推論は単純なものから複雑なものまで様々であり、どのような推論にも客観的な検証方法が必要だと私は考えています。

この時点で、多くの人が「人工知能は推論できない」と考える理由がおそらく理解できるでしょう。

  • 人工知能は「実際には」推論していない、あるいは「人間のように推論していない」と感じる人もいます。
  • AIは「複雑な推論と問題解決」に熟達するべきだが、より単純な推論は無視すべきだと主張する人々もいる。
  • 一連の推論ステップで構成されていない推論を否定する人もいます。

多くの場合、成功か失敗かは細部に左右されます。この場合、その細部とは「推論能力」をどのように定義するかということです。私の定義は既に上で述べました。AIの推論能力に対するこうした批判は、実際には一種の偏見であると私は考えています。なぜなら、それらはそもそも「推論」の意味を根本的に変えるからです。

それでは、推論能力を検証し、測定する方法についてお話ししましょう。

02 知能をどうやって測るか?

認知能力を測定するための私たちの基準は、「魂を持つ存在と対話している」と信じ込まされている騙されやすい人々を騙すこととは何の関係もないということを覚えておいてください。これは、道徳的な理由で「意識のある」AIチャットボットをシャットダウンすることを拒否した、一見神秘的だが実際には間違った、元Googleエンジニアのブレイク・ルモワン氏の見解を彷彿とさせます。

主観的な感情に基づいて認知能力を測定することはできません。測定には、例えば以下のような標準化された質問バンクを使用する必要があります。

  • HellaSwag[6]とWinoGrande[7]はAIの常識推論能力を調べるために使用されました。
  • GLUE[8]とSuperGLUEは、AIの自然言語理解能力を評価するために使用されます。
  • AIが指示に正しく従えるかを確認するためにInFoBench[9]が用いられる。
  • AI2推論チャレンジ(ARC)[10]には思考連鎖能力のテストも含まれています。

これらの問題バンクはそれぞれ異なる焦点を持っていますが、いずれも「推論」能力を測るものです。「推論」は単一の課題ではなく、様々な課題が「推論」として扱われる可能性があることを知っておく必要があります。

ChatGPTを使い始めた瞬間から、驚くほど従順で指示に忠実な動作を実感しました。正直なところ、この経験を通して、大規模言語モデル(LLM)の推論能力について新たな理解を得ることができました。これについては後ほど詳しく説明します。

ある日、私はセバスチャン・ブベック氏(当時はマイクロソフトに在籍、現在は OpenAI に在籍)から、大規模言語モデルの推論能力について非常に洞察に富んだ意見を聞きました。

AIが指示を理解できない場合、どうやってそれに従うのでしょうか?

それは正しい。

Bubeckとは、AIが「あなたの質問を理解しました」と答えるという意味ではありません。AIが指示に従い、その後、私たち(または他のプログラム)がそれが正しく実行されたかどうかを確認するという意味です。

指示に従う能力を測定するためのベンチマークができたので、このアイデアについてさらに詳しく議論することができます。

次に、常識的推論について見ていきましょう。常識的推論は人間特有の能力だと考えられていますよね?実は、WinoGrandeのようなベンチマークテストで常識的推論を評価することもできます。

WinoGrandeがどのように質問するかを見てみましょう。このベンチマークの質問のほとんどは代名詞の参照に関するもので、例えば次のようなものがあります。

アンは図書館がいつ閉まるか忘れていたのでメアリーに尋ねました。

ここでの「彼女」は誰のことを指しているのでしょうか、アンですか、それともメアリーですか?

人間は、アンが質問をしたので、すぐに「彼女」がアンだと認識できます。しかし、機械はこの種の質問に苦労するかもしれません。

明らかに、質問バンクを使用して AI の認知能力をテストする場合、AI が以前にこれらの質問を見たことがないようにすることが不可欠です。そうでない場合、「不正行為」と見なされます。

大規模言語モデルはこれらの質問バンクテストでどのように機能するのでしょうか?

この比較における問題点の一つは、各AI企業がそれぞれ異なる問題バンクを使用していることです。おそらく、自社のAIが最も高いスコアを獲得した問題バンクを選んでいるのでしょう。そのため、一般的な比較方法は「チャットボットアリーナ」と呼ばれるものになり、問題バンクのスコアを見るのではなく、人々が投票する形式になっています。これはチューリングテストの問題を彷彿とさせます…。

2024年12月10日時点のチャットボットアリーナランキング(Hugging Face)

HellaSwag テストでは、Gemini Pro 1.5 は 100 点満点中 92.5 点を獲得しましたが、GPT-4 Turbo はさらに優れたパフォーマンスを発揮し、96 点を獲得しました (最新バージョンではありませんが、それでも概要はわかります)。

このラウンドではOpenAIが勝利し、Googleが敗北した。

MMLU テスト (GLUE に類似) では、GPT-4 は約 87 ポイントを獲得しましたが、Gemini Ultra は 90 ポイントを獲得しました。

このゲームでは両プレイヤーとも1勝ずつし、引き分けとなりました。

比較を続けることもできますが、率直に言って、トップの法学修士課程は今のところどれもほぼ同じレベルです。なぜでしょうか?それは、トップクラスのAI専門家がこれらの大企業間を絶えず飛び回っているためです。人材の流動性が非常に高いのです。

重要なのは、今日のトップレベルの法学修士課程修了者が持つ認知能力は、運や記憶力だけでは説明できないということです。したがって、「ランダムパロット」理論は実際には何も証明していないと私は考えています。

03「エイリアン・インテリジェンス」

私たち人間が現在の人工知能(大規模言語モデルに基づくもの)に遭遇すると、しばしば混乱を覚えますが、それには理由があります。

私は最近、人間の知能とこの種の現代のAIの違いについての記事[11]を書きました。主な違いは次のとおりです。

  • 違い 1: 人間は本物の感情を持っていますが、一方で機械は感情を装っているだけです。
  • 違い 2: 人間は物事を非常に明確に理解しています。つまり、理解するかしないかのどちらかです。
  • 違い 3: 機械は決断をする際に決して躊躇しません。

これら3つの違いはどれも重要ですが、特に推論能力との関連性が高い2番目の違いに焦点を当てたいと思います。詳しく見ていきましょう。

人間は時々、突然「なるほど!」と気づき、何かを完全に理解することがあります。この理解は非常に確固としたものであり、些細な点の違いで変わることはありません。しかし、機械はそうではありません。

最近、Appleの研究者が論文[12]を発表し、大きな話題を呼んでいます(そしてそれは良い意味で)。この論文では、大規模言語モデルは推論タスクにおいて多くの限界を抱えていると主張しています。

Appleの研究者たちは、独自のテスト方法を用いて数学的推論能力を評価する特別なテストも実施しました。彼らは非常に興味深い実験を行いました。それについては後ほど詳しくお話しします。

ある実験では、研究者たちはまず、一連の質問に答える際のシステムのパフォーマンスをテストしました。次に、名前や数字の変更、無関係な内容の追加など、いわゆる「無関係な」変更を質問に加えました。その結果、再度テストしたところ、システムのパフォーマンスが大幅に低下することが分かりました。

なぜ、こうした無関係な情報を変更するとシステムのパフォーマンスが低下するのでしょうか?なぜなら、人間は同じような状況において、ほとんどの場合、どの情報が重要でどの情報がそうでないかを見分け、無関係な情報を無視できるからです。しかし、機械はこの点で苦労します。多くの場合、正しい答えを出すことはできますが、全体的なパフォーマンスは依然として大きく影響を受けます。

Appleの実験は否定できない。しかし、その結果をどう解釈するかは確かに問題だ。

結論を導き出す過程で、Appleの研究者も他の研究者と同様に偏向していることに気づきました。例えば、彼らは「現在の法学修士課程は真の論理的推論ができない」と述べています。読者の皆様は、この発言のキーワード「真実」に気付くでしょう。私たちは再び、人間の推論を唯一の「真の」推論形態として扱っているのです。

04 結論

AIの推論能力を否定する意見の多くは、「AIは人間のように推論するべきだ」という前提に基づく偏見に基づいています。もしそうでない場合、AIは推論能力を持っていない、あるいは推論能力とはみなされないことになります。

すべては、「AIは推論できる」ことをどのように定義するかによって決まります。

AI はほとんどの場合正しい答えを出すことができるにもかかわらず、パターン マッチングは「実際の」推論を実行することが完全に不可能であることを意味すると主張する人もいます。

これは、パターンマッチングによって達成されるものはすべて「推論とはみなされない」と言っているに等しい。しかし、AIが多くの(すべてではないが)推論テストで正解を出したらどうなるだろうか?パターンマッチングの有無にかかわらず、AIが推論問題において徐々に高い精度を達成していくとしたらどうなるだろうか?

人間の「プライド」がまた働いているのが分かります。人間は宇宙の支配者ではないでしょうか? だからこそ、私たちの推論こそが唯一の正当な方法であるはずです。私たちは既に計算機、ディープ・ブルー(チェス)、そしてアルファ碁(囲碁)に追い抜かれ、挫折を味わってきました。そして今、私たちの総合的な推論能力が「大規模パターンマッチング」装置によって試されているのです。これはまさに、傷口に塩を塗るような状況です。

私たちは、自分たちを宇宙の支配者とみなす人間中心的な立場に固執するべきでしょうか、それとも、人間は他の形態の知性と相互作用できる並外れて有限な存在であるという、より謙虚な(そしておそらくより現実的な)理解に向かうべきでしょうか。

読んでくれてありがとう!

このブログを楽しんで、新しいことを学んでいただければ幸いです。

著者について

レイフ・ブレナ博士

AIの専門家、ライター起業家、そして未来学者。AIが流行るずっと前からAIに関わっていました。

終わり

今週のインタラクティブコンテンツ🍻

❓AIの推論能力と人間の推論能力の最大の違いは何だと思いますか?

🔗記事内のリンク🔗

[1]https://openai.com/index/openai-o3-mini/

[2]https://readmedium.com/openais-o1-is-it-a-new-reasoning-paradigm-or-just-smoke-and-mirrors-bd0d110e581d?sk=5538db01e35836ac090f6d835536b392

[3]https://x.com/garymarcus

[4]https://readmedium.com/why-the-turing-test-became-obsolete-efe941cb7aec?sk=100ed2ba85b68f6533161675ad2e5200

[5]https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

[6]https://paperswithcode.com/dataset/hellaswag

[7]https://winogrande.allenai.org/

[8] https://gluebenchmark.com/

[9]https://arxiv.org/abs/2401.03601

[10]https://paperswithcode.com/dataset/arc

[11]https://readmedium.com/3-key-differences-between-human-and-machine-intelligence-you-need-to-know-7a34dcee2cd3?sk=d226e7f59cbdd44e6c48819fc3a4c925

[12]https://arxiv.org/pdf/2410.05229

オリジナルリンク:

https://towardsdatascience.com/why-ai-cant-reason-is-a-bias-3c582bba1aeb