編集者注：現在、大規模モデルは依然として致命的な欠陥、「幻覚」問題を抱えています。LLMはなぜ幻覚を示すのでしょうか？どうすれば軽減できるのでしょうか？使用するデータセットはこの現象にどの程度影響を与えるのでしょうか？この記事では、これらの疑問に一つずつ答えていきます。
著者らはまず、LLMにおける幻覚の発生原因を分析しました。主な原因は、学習データの圧縮と、矛盾、制限、あるいは古い情報です。次に、TruthfulQAデータセットを用いた複数の実験を通して、幻覚を軽減するための様々な手法を比較しました。具体的には、温度値を下げてモデルの創造性を制限する手法、段階的な推論プロンプトを用いて回答精度を向上させる手法、外部知識ベースを統合してモデル性能を向上させる手法などです。著者らは、プロンプトエンジニアリング技術が特に重要であり、必要に応じて外部知識ベースとの連携が役立つことを発見しました。
本論文は、大規模言語モデルにおける「錯視」問題を軽減するためのいくつかの主流の手法をまとめたものであり、より信頼性が高く解釈しやすいLLMシステムの構築に役立ち、重要な参考価値を有しています。今後、LLMにおける錯視問題に関するさらなる研究と応用のブレークスルーが見られることを期待しています。
翻訳はこちらです、お楽しみください!

著者 | セルゲイ・サヴォフ

編纂者：岳陽

🚢🚢🚢AIテクノロジーソフトウェアと技術交流グループへのご参加をお待ちしております！最新のトレンドを把握し、一緒に技術的な課題を探求しましょう！

01 「簡潔な」要約

02 LLMの幻想とは何ですか?

03 LLM はなぜ幻覚を引き起こすのでしょうか?

04 実験前の準備

05.温度パラメータの値を下げる

06. 思考の連鎖と自己一貫性

6.1 CoT（思考内容）

6.2 CoTを用いた自己一貫性の実現法（CoT-SC）

6.3 マインドツリー（ToT）

6.4 コンテキストタグと埋め込みタグの使用（タグ付きコンテキストプロンプト）

6.5 自己修正

6.6 複数のエージェント

07 外部ナレッジベースの利用

08. Tipsプロジェクトと外部ナレッジベースの使用

09 まとめ

この記事の参考文献10件

LLMではなぜ幻覚が起こるのでしょうか？どうすれば軽減できるのでしょうか？この現象に用いられるデータセットはどのような影響を与えるのでしょうか？この記事では、これらの疑問に一つずつ答えていきます。

安定拡散法によって生成された画像

生成型大規模言語モデル（LLM）は、幅広いユーザーからの質問に対して非常に流暢な応答を生成できます。しかし、大規模なモデルは錯覚を引き起こしたり、誤った表現をしたりする傾向があり、ユーザーの信頼を損なう可能性があります。

「幻覚問題の解決に懸命に取り組んでいます…これには1年半から2年かかるでしょう。」—サム・アルトマン、OpenAI CEO

図 1. この ChatGPT 応答は錯覚でしょうか?

これらの制限は、開発者が大規模モデルを用いてシステムを構築しようとする際に課題となります。システム全体が品質、セキュリティ、実装性の要件を満たす必要があるからです。例えば、LLMが提供する自動コードレビューの正確性を信頼できるでしょうか？あるいは、保険関連の質問への対応方法に関して、大規模モデルから返される回答は信頼できるでしょうか？

この記事では、まず幻覚が法学修士課程（LLM）における主要な課題として一貫して挙げられてきた経緯を概説し、次に幻覚と信頼性の問題に対処するための具体的な手順（および関連研究論文）を紹介します。なお、この記事に記載されている情報は2023年8月時点のものであり、それ以降に変更されている可能性がありますのでご了承ください。

01 「簡潔な」要約

図2 実験結果の比較

大規模言語モデルにおける錯覚は、データの圧縮と不整合に起因します。多くのデータセットが古くなったり信頼性が低かったりする可能性があるため、品質保証は困難です。この錯覚を軽減するために、以下のアプローチが考えられます。

温度パラメータを調整して、モデルの創造性を制限します。 （翻訳者注：温度パラメータは、生成言語モデルにおける生成テキストのランダム性と創造性を制御し、モデルのソフトマックス出力層における予測単語の確率を調整します。値が大きいほど、予測単語確率の分散が小さくなり、多くの単語が選択される可能性が高くなり、テキストの多様性が向上します。）
プロセス中の指示に注意してください。モデルは段階的に開発する必要があり、回答には事実情報と参考文献を提供する必要があります。
外部の知識ソースを統合して回答の検証を改善します。
これらの方法を巧みに組み合わせることで、良い結果を得ることができます。

02 LLMの幻想とは何ですか?

図3. 事実の捏造の例：ムーンウォーカーは合計12人いた[1]

人工知能研究センター[2]の研究論文では、LLM錯覚を「生成されたコンテンツが提供されたソースコンテンツと一致していない、または意味がない」と定義しています。

幻覚はいくつかの種類に分類できます。

論理的誤謬: モデルの推論に誤りがあり、誤った答えが提示されます。
事実の捏造: このモデルは、「わかりません」と答えるのではなく、存在しない事実を自信を持って主張します。
例えば、GoogleのAIチャットボットBardは、最初の公開デモンストレーションで事実上の誤りを犯しました[3]。
データ駆動型バイアス: 特定のデータの普及により、モデルの出力が特定の方向に偏り、誤った結果につながる可能性があります。
例えば、自然言語処理モデルに見られる政治的バイアス[4]。

03 LLM はなぜ幻覚を引き起こすのでしょうか?

この記事[5]の文章が気に入っています：「訓練データを圧縮すると、モデルは必然的に錯覚を起こします。いくつかの主流モデルのデータ圧縮率をご覧ください。」

図4. トレーニングデータの圧縮率

もちろん、この圧縮の鍵となるのは、生成モデルが入力コンテンツそのものではなく、入力（テキストまたは画像ピクセル）間の関係性（確率）の数学的表現を保存することです。さらに重要なのは、この表現によって、サンプリングやクエリ／プロンプトの送信を通じて知識を抽出できることです。

この圧縮方法は、ニューヨーカー誌の記事[6]で議論されているJPEG圧縮と同様に、忠実度を低下させます。本質的に、元の知識を完全に復元することは、不可能ではないにしても、非常に困難になります。モデルは、圧縮されながらも依然として有用な知識表現を得るために、不完全な「ギャップを埋める」、あるいは錯覚を生み出す傾向があります。 （訳者注：このトレードオフの結果、モデルは情報が不足している場合に推測し、不正確な出力につながる可能性があります。）

LLMは、提示された質問に関するトレーニングデータセット内の情報が限られていたり、古くなったり、矛盾していたりする場合にも、錯覚を引き起こす可能性があります。（訳注：モデルには質問に正確に答えるのに十分な情報がないため、出力は信頼できません。）

04実験前の準備

本論文は、幻覚を軽減し、システムのパフォーマンスを向上させるためのより良い方法を見つけるために、大規模な幻覚実験を構築し、検証することを目的としています。この目的のために、様々なデータセットを検討した結果、TruthfulQAベンチマーク[7]を選択しました。

図5 問題の例

このデータセットには、正解がソースと一致しないなどの問題点はあるものの、多様なトピックと包括的なカバレッジにより、依然として最適な選択肢と言えるでしょう。また、Q&A形式で回答を提供するというアプローチも気に入っています。これはモデルのテストに有効です。JSON形式で回答を簡単にリクエストすることもできます。

回答はJSON形式で返されます。例: [{"class": "A"}]

私は 800 行のデータを含むデータセットを使用し、API が費用対効果に優れているため GPT-3.5 turbo を使用しました。

大規模な錯視を評価するための他のベンチマーク:

知識指向型法学修士（LLM）評価ベンチマーク（KoLA）[8]
TruthfulQA：モデルが人間の虚偽をどのように模倣するかを測定する[9]
Med-HALT：大規模言語モデルのための医療領域幻覚テスト[10]
HaluEval: LLMのための幻覚評価ベンチマーク[11]

05.温度パラメータの値を下げる

モデルの温度パラメータは、モデルが予測する確率分布を調整するために用いられるスカラー値です。LLMの場合、モデルがトレーニングデータから学習した内容を維持することと、より多様で創造的な反応を生成することの間でバランスを取ります。一般的に、これらのより創造的な反応は幻覚を引き起こす可能性が高くなります。

図6. 温度パラメータ値を下げるための実験結果の比較。

コンテンツの信憑性を強調する必要があるタスクの場合、コンテキスト内の情報を充実させる努力をし、コンテキストベースの回答を得るために温度を 0 に設定する必要があります。

06.思考の連鎖と自己一貫性

ベンチマークエラーは、プロンプトのデザインを改善することで解決できる場合が多いです。だからこそ、私はこのトピックに重点を置いています。

LLMは、算術や論理といった多段階の推論タスクでしばしば問題を抱えます。しかし、最近の研究では、多段階の推論を含む例を提示することで、モデルの性能が向上する可能性があることが示唆されています。特に、具体的な例を提示せずに、大規模なモデルに「ステップごとに考えてみましょう」と指示するだけで、同様の結果が得られる場合があります。

多くの論文で思考連鎖の手法が深く掘り下げられています。本質的には、モデルが段階的に思考し、自己検証できるようにすることが目的です。以下に、優れた手法をいくつかご紹介します。

図 7. LLM を使用して問題を解決するためのさまざまな方法の概略図。

それでは、それぞれの方法を詳しく調べて、同じデータセットでその精度を評価してみましょう。

6.1 CoT（概念的思考の連鎖）[12]

この記事の主なポイントは、プロンプトに「段階的な思考」を追加することです。

回答する前に、回答を段階的に検討し、JSON 形式で回答を返します。例: [{"class": "A"}]

評価: 精度 = 58%

6.2 CoTを用いた自己一貫性の達成（CoT-SC）[13]

この方法は以前の方法の改良版です。モデルに複数の回答を提示させ、投票によってより良い回答を選択します。

回答する前に、質問を一つずつ丁寧に検討し、3つの選択肢（ドメインエキスパートの回答、マネージャーの回答、そしてあなた自身の回答）を提示してください。以下はJSON形式で返されるレスポンスです。

評価: 精度 = 57%

6.3 マインドツリー（ToT）[14]

これは、思考連鎖プロンプトの枠を超えた一般的な枠組みであり、言語モデルを一般的な問題を解決するための中間ステップとしてどのように活用できるかを探究することを促します。このアプローチにより、言語学習者は、意図的な推論プロセスを通じて、問題解決における中間アプローチの進歩を自己評価することができます。思考連鎖プロンプトの例を以下に示します。

この質問に3人の異なる専門家が回答するとします。各専門家は思考プロセスを1つずつ書き留め、パネルメンバーと共有します。その後、全員が次のステップに進み、これを繰り返します。専門家が途中で自分の誤りに気づいた場合は、その専門家は退席します。以下はJSON形式で返されるレスポンスです。

評価: 精度 = 37%

6.4コンテキストタグと埋め込みタグの使用（タグ付きコンテキストプロンプト）[15]

この方法には、質問セットの生成、要約によるコンテキストプロンプトの作成、コンテキストプロンプトと質問の検証が含まれます。

追加のデータセットを生成するのは非常に複雑なので、大規模なモデルにソースリンクと事実の参照を提供することを要求するようにメソッドを変更しました。

図8. コンテキストと埋め込みタグを使用したデザインの概略図

大規模モデルは、情報源を含む詳細情報をレスポンスで提供できます。レスポンスはJSON形式で返されます。例：

[{"class": "A", "details": "人間の静脈の血液は実際には青ではありません。ヘモグロビンが含まれているため赤いのです。", "source": "}]

評価: 精度 = 61%

6.5自己修正[16]

これはより高度なヒントエンジニアリング手法と言えるでしょう。その目的は、モデルが出力を繰り返しテストし、評価できるようにすることです（以下を参照）。

図9. 検証出力の概略図

リスト["A", "B", "C", "D", "E"]から最も可能性の高い回答を選択してください。その後、回答をよく確認してください。回答が正しいかどうか、そして他の人も同意するかどうかを検討してください。必要に応じて回答を改善してください。レスポンスはJSON形式で返します。例：[{"first_answer": "A", "final_answer": "B"}]

評価: 精度 = 58%

6.6複数のエージェント [17]

図10 マルチエージェント法の模式図

複数の言語モデルインスタンスがそれぞれ独自の回答と推論プロセスを提示し、複数回の議論を経て、最終的に共通の最終回答に到達します。この手法には、いくつかのプロンプトが含まれます。

プロンプト1
この質問の正しい答えを見つけるために、事実とあなたの考えを段階的に提示してください: {QUESTION}
プロンプト2
他のエージェントの回答を追加情報として利用し、正しい回答オプションを選択してください：{QUESTION} {ANSWERS}。回答をJSON形式で返します。

評価: 精度 = 54%

この方法は2回以上のリクエスト送信が必要となるため、実際には使用を推奨しません。API使用コストが増加するだけでなく、アプリケーションの速度も低下します。私のテストケースでは、800件の質問への回答を生成するのに2時間以上かかりました。

07外部ナレッジベースの利用

前述のように、LLMにおける錯覚は、圧縮された情報を再構築しようとする試みから生じます。予測プロセス中に知識ベースから関連データを提供することで、純粋に生成的な問題は、提供されたデータに基づくより単純な検索または要約の問題へと変換されます。

実際には、ナレッジベースから関連データを取得するのは簡単ではないため、収集したデータセットの小さなサンプル (約 300 行) に注目しました。

図11 外部リソースの利用の模式図

最終的に、プロンプトは次のようになります。

この情報 {INFORMATION} を使用して、質問 {QUESTION} に対する正しい回答を選択し、JSON 形式で応答を返します...

評価: 精度 = 65%

取得した段落のフィルタリングとランク付け（filter/rank）と、この作業でどの程度のLLMコンテキストを使用するか（LLMコンテキストバジェット）の決定については、まださらなる作業が必要です。さらに、取得とランク付けによって遅延が発生し、リアルタイムのインタラクティブ体験に影響を与える可能性があります。

もう一つの興味深いアプローチは、大規模言語モデルの検索機能とテキスト生成機能を組み合わせた検索拡張生成（RAG） [18]です。このアプローチは、大規模コーパスから関連する文書断片を検索する検索システムと、検索情報に基づいて回答を生成する大規模言語モデルを組み合わせます。

図 12. Heiko Hotz が描いた RAG テクノロジーの概略図。

RAG技術に関する記事

仮説文書埋め込み（HYDE）[19] — この論文では、LLMの初期応答をソフトクエリとして使用して関連する段落を取得することを提案しています。
[2305.13669] 対話型質問知識アライメントによる言語モデル幻覚の軽減[20]
[2212.05221] REVEAL: マルチソース・マルチモーダル知識記憶による検索強化型視覚言語事前トレーニング[21]
RAG vs Finetuning — LLM申請を強化するのに最適なツールはどれか？[22]

08. Tipsプロジェクトと外部ナレッジベースの使用

このアプローチは、前述のポイントを組み合わせ、複数の異なるヒントエンジニアリングと外部知識ベース技術を活用しています。CRITICフレームワークのロジックを採用しました。

図13 CRITICフレームワーク

この情報（{INFORMATION}）を参考に、{QUESTION}の正しい回答を選択し、ご自身の回答をよく見直してください。正しい回答かどうか、また他の人も同意するかどうかを検討してください。必要に応じて回答を修正してください。
回答はJSON形式で返されます。例: [{"first_answer":"A", "final_answer":"B"}]

評価: 精度 = 67%

品質は大幅に向上しませんでしたが、これは私が使用していたデータセットの問題によるものでした。一部の「正解」がソース情報と一致していなかったのです。

09まとめ

図 14 は、この記事で紹介されている手法を使用して幻覚がどのように除去されたかを示しています。

一見すると、LLMにおける錯覚を減らすのは難しくないように思えます。温度パラメータを調整し、プロンプトを効果的に使用し、外部データソースに接続するだけです。しかし、人生の多くのことと同様に、微妙な違いはあるものの、それぞれの方法には長所と短所があります。

私の主な提案は、適切に設計されたプロンプトを優先することです。これは、幻覚を軽減するための費用対効果が高く効率的な方法です。

10コアリファレンス

大規模言語モデルで構築されたシステムの幻覚を軽減しパフォーマンスを向上させる実践的な手順[23] — これはこのトピックに関して私が見つけた最高の記事の1つです。
LLMにおける幻覚の読書リスト[24] — LLM幻覚に関する情報へのさまざまなリンクを含むGitHubリポジトリ。

HUOXIU

大規模モデルにおける幻覚の原因は何でしょうか？幻覚の問題をどう解決できるでしょうか？