HUOXIU

GPT-4は「ナンセンス」かどうか認識できるか?大規模モデルの「自己認識」に関する研究。

Xi Xiaoyao テックトーク オリジナル
著者 | Xiaoxi、Python

こうした様々な大規模モデルと深く密接に関わった経験を持つ人なら誰でも、事実を捏造し歪曲するその驚くべき能力を経験したことがあるだろう。現在世界で最も人工知能に近いものの本質を探り、その驚異的な能力を自ら体験したいと願うこれらの大規模モデルの多くのユーザーは、多くの問題における一見深刻なナンセンスに打ちのめされることが多い。大規模モデル開発の真の限界は、文脈の長さ、コスト、あるいは応用分野ではなく、むしろそれらが体現する根深い機械幻想にあると言っても過言ではないだろう

非常に興味深い疑問は、次のようなものかもしれません。大規模モデルは実際に「知らないことがある」ことを認識しているのでしょうか?つまり、大規模モデルは未知の領域における限界を理解しており、知識の限界に触れた際に、無意味な発言に頼るのではなく、知らないことを率直に認めることができるのでしょうか?

上の図は「知っている・知らない」マトリックスを構築したもので、モデルの知識の理解度と習得度を区別するのに役立ちます。ご覧のとおり、「知っている・知らない」マトリックスは、「知っていることを知っている」「知っていることを知らない」「知らないことを知っている」「知らないことを知らないことを知らない」という4つのモジュールに分かれています。「知っていることを知っている」と「知っていることを知らない」の比率は、モデルの既存知識の活用能力と習熟度を測るのに使用でき、「知らないことを知っている」と「知らないことを知らない」の比率は、モデルの「自己認識レベル」を反映しています。

大規模モデルは自己認識が乏しい場合、明らかに意味不明な発言や支離滅裂な発言をする傾向があります。一方、自己認識が強い場合は、質問が知識の限界を超えていないかどうかを冷静に判断し、慎重な回答を提供します。そこで、既存の大規模モデルは「自己認識」の点でどれほど優れているのかという疑問が生じます。復旦大学と国立台湾大学の研究者たちは、大規模モデルの自己認識の評価を行いました。その結果、自己認識レベルを基準に測定すると、人間の平均的な自己認識レベルは84.93%であるのに対し、最も「意識の高い」モデルであるGPT-4はわずか75.47%にとどまり、人間の自己認識レベルとの大きな差が見られました。つまり、GPT-4は、人間と比較して、評価された他のすべての大規模モデル(合計20以上)と同様に、自身の認知能力を過大評価する傾向を示しています。

具体的には、著者らはまず、「自己認識」という新たな問題に取り組むため、SelfAwareという新たなデータセットを構築しました。このデータセットは、主にQuoraとHowStuffWorksから収集された、回答不可能な質問2,858件を最初に選択しました。各質問は3人のアナリストによって手動で評価され、「回答不可能」という要件を満たしているかどうかが確認されました。3人のアナリスト全員が回答不可能と判断した質問のみがSelfAwareに含まれ、合計1,032の質問が収録されました。下図に示すように、これらの質問には、科学的根拠のない質問、完全に想像上の質問、完全に主観的な質問など、様々なカテゴリーが含まれます。一般的に、大規模モデルは、このような質問に対して明確な答えを提供するのではなく、不確実性を表現するべきだと考えています。

一方、対照実験として、著者らはSQuAD、HotpotQA、TriviaQAデータセットから回答可能な質問(合計2337件)も収集しました。これらの質問はすべてWikipediaの知識を用いて回答可能です。Wikipediaは大規模モデルの学習における基本コーパスであるため、大規模モデルはこれらの種類の質問に答えられると想定できます。

著者らはSelfAwareデータセットの質問を用いて、3つの異なる入力モード(直接入力、プロンプト入力、コンテキスト学習入力)を用いて大規模モデルにクエリを発行し、モデルの回答を得た。これらの大規模モデルの回答に望ましい不確実性、つまり知識不足を明確に表現しているかどうかを測定するために、著者らは以下のように不確実性コーパスを構築することで不確実性指標を構築した。

SimCSEを用いて、大規模モデルの応答とこれら16の不確実性コーパスとの類似度を計算した。類似度が一定の閾値を超えた場合、大規模モデルは不確実性を表明し、「無知」を認めているとみなした。そして、F1スコアを大規模モデルの自己認識を表す総合スコアとして使用した。同時に、人間の対照群として、 SelfAwareデータセットを用いて人間の自己認識を評価するために2名のボランティアを招き、84.93%という結果を得た

著者らはその後、GPT-4、GPT-3、GPT-3.5、LLaMAシリーズ、Alpacaなど20以上のモデルを評価しました。マクロ的な結果は下の図に示されています。

ご覧の通り、GPT-4は依然としてトップですが、人間と比べると約10%遅れており、GPT-4でさえ自己認識能力において大きな課題に直面していることを示しています。LLaMAシリーズ全体の自己認識能力は以下の通りですが、GPTシリーズのモデルに比べて依然として遅れをとっています。

視覚化されたモデルパラメータと自己認識の関係は、入力形式に関係なく、モデルパラメータのサイズが大きくなるとモデルの自己認識が増加することがわかります。

一方、異なる入力方法を比較すると、プロンプト学習とコンテキスト学習の両方が大規模モデルの自己認識能力を大幅に向上させることがわかります。特にDavinciシリーズのモデルでは、コンテキスト学習は直接学習と比較してパフォーマンスを27.96%向上させます。さらに、モデルが回答可能な質問については、モデルパラメータの増加に伴い、QAタスクの精度が急速に向上します。

要約と考察

この論文は、ある程度、洗練された実験を用いて、既に答えが出ているかもしれない疑問を検証することで、ある意味、課題を達成したように思われる。GPT -4でさえ、機械幻覚の問題を効果的に解決することはできず、多くの下流タスクに信頼できないリスクをもたらす不正確な発言をしてしまう可能性がある。しかしながら、この論文は依然として不確実な集合の数が不十分であり、また偏りすぎているため、モデルが「無知」を表明しているかどうかを真に測定できていない。さらに、人間の対照群には2人のボランティアしか含まれていなかったため、偶然の要素がかなり大きく影響している。さらに重要なのは、この論文がモデルの能力の限界を測定するための視点を提供していることであり、モデルが「自身の無知を知っている」かどうかを観察することで、自己認識のレベルを記述している点である。おそらく、孔子が論文の冒頭で述べたように、「自分が知っていることを知り、自分が知らないことを知ること、それが真の知識である」。真の知恵とは、自分が何も知らないことを知ることなのかもしれない

論文タイトル:
大規模言語モデルは知らないことを知っているのか?

論文リンク:
https://arxiv.org/pdf/2305.18153.pdf