著者 | セルゲイ・サヴォフ 編纂者:岳陽 🚢🚢🚢AIテクノロジーソフトウェアと技術交流グループへのご参加をお待ちしております!最新のトレンドを把握し、一緒に技術的な課題を探求しましょう! 目次 01 「簡潔な」要約 02 LLMの幻想とは何ですか? 03 LLM はなぜ幻覚を引き起こすのでしょうか? 04 実験前の準備 05.温度パラメータの値を下げる 06. 思考の連鎖と自己一貫性 6.1 CoT(思考内容) 6.2 CoTを用いた自己一貫性の実現法(CoT-SC) 6.3 マインドツリー(ToT) 6.4 コンテキストタグと埋め込みタグの使用(タグ付きコンテキストプロンプト) 6.5 自己修正 6.6 複数のエージェント 07 外部ナレッジベースの利用 08. Tipsプロジェクトと外部ナレッジベースの使用 09 まとめ この記事の参考文献10件 LLMではなぜ幻覚が起こるのでしょうか?どうすれば軽減できるのでしょうか?この現象に用いられるデータセットはどのような影響を与えるのでしょうか?この記事では、これらの疑問に一つずつ答えていきます。 安定拡散法によって生成された画像 生成型大規模言語モデル(LLM)は、幅広いユーザーからの質問に対して非常に流暢な応答を生成できます。しかし、大規模なモデルは錯覚を引き起こしたり、誤った表現をしたりする傾向があり、ユーザーの信頼を損なう可能性があります。
図 1. この ChatGPT 応答は錯覚でしょうか? これらの制限は、開発者が大規模モデルを用いてシステムを構築しようとする際に課題となります。システム全体が品質、セキュリティ、実装性の要件を満たす必要があるからです。例えば、LLMが提供する自動コードレビューの正確性を信頼できるでしょうか?あるいは、保険関連の質問への対応方法に関して、大規模モデルから返される回答は信頼できるでしょうか? この記事では、まず幻覚が法学修士課程(LLM)における主要な課題として一貫して挙げられてきた経緯を概説し、次に幻覚と信頼性の問題に対処するための具体的な手順(および関連研究論文)を紹介します。なお、この記事に記載されている情報は2023年8月時点のものであり、それ以降に変更されている可能性がありますのでご了承ください。 01 「簡潔な」要約図2 実験結果の比較 大規模言語モデルにおける錯覚は、データの圧縮と不整合に起因します。多くのデータセットが古くなったり信頼性が低かったりする可能性があるため、品質保証は困難です。この錯覚を軽減するために、以下のアプローチが考えられます。
02 LLMの幻想とは何ですか?図3. 事実の捏造の例:ムーンウォーカーは合計12人いた[1] 人工知能研究センター[2]の研究論文では、LLM錯覚を「生成されたコンテンツが提供されたソースコンテンツと一致していない、または意味がない」と定義しています。 幻覚はいくつかの種類に分類できます。
03 LLM はなぜ幻覚を引き起こすのでしょうか?この記事[5]の文章が気に入っています:「訓練データを圧縮すると、モデルは必然的に錯覚を起こします。いくつかの主流モデルのデータ圧縮率をご覧ください。」 図4. トレーニングデータの圧縮率 もちろん、この圧縮の鍵となるのは、生成モデルが入力コンテンツそのものではなく、入力(テキストまたは画像ピクセル)間の関係性(確率)の数学的表現を保存することです。さらに重要なのは、この表現によって、サンプリングやクエリ/プロンプトの送信を通じて知識を抽出できることです。 この圧縮方法は、ニューヨーカー誌の記事[6]で議論されているJPEG圧縮と同様に、忠実度を低下させます。本質的に、元の知識を完全に復元することは、不可能ではないにしても、非常に困難になります。モデルは、圧縮されながらも依然として有用な知識表現を得るために、不完全な「ギャップを埋める」、あるいは錯覚を生み出す傾向があります。 (訳者注:このトレードオフの結果、モデルは情報が不足している場合に推測し、不正確な出力につながる可能性があります。) LLMは、提示された質問に関するトレーニングデータセット内の情報が限られていたり、古くなったり、矛盾していたりする場合にも、錯覚を引き起こす可能性があります。 (訳注:モデルには質問に正確に答えるのに十分な情報がないため、出力は信頼できません。) 04実験前の準備本論文は、幻覚を軽減し、システムのパフォーマンスを向上させるためのより良い方法を見つけるために、大規模な幻覚実験を構築し、検証することを目的としています。この目的のために、様々なデータセットを検討した結果、TruthfulQAベンチマーク[7]を選択しました。 図5 問題の例 このデータセットには、正解がソースと一致しないなどの問題点はあるものの、多様なトピックと包括的なカバレッジにより、依然として最適な選択肢と言えるでしょう。また、Q&A形式で回答を提供するというアプローチも気に入っています。これはモデルのテストに有効です。JSON形式で回答を簡単にリクエストすることもできます。
私は 800 行のデータを含むデータセットを使用し、API が費用対効果に優れているため GPT-3.5 turbo を使用しました。 大規模な錯視を評価するための他のベンチマーク:
05.温度パラメータの値を下げるモデルの温度パラメータは、モデルが予測する確率分布を調整するために用いられるスカラー値です。LLMの場合、モデルがトレーニングデータから学習した内容を維持することと、より多様で創造的な反応を生成することの間でバランスを取ります。一般的に、これらのより創造的な反応は幻覚を引き起こす可能性が高くなります。 図6. 温度パラメータ値を下げるための実験結果の比較。 コンテンツの信憑性を強調する必要があるタスクの場合、コンテキスト内の情報を充実させる努力をし、コンテキストベースの回答を得るために温度を 0 に設定する必要があります。 06.思考の連鎖と自己一貫性ベンチマークエラーは、プロンプトのデザインを改善することで解決できる場合が多いです。だからこそ、私はこのトピックに重点を置いています。 LLMは、算術や論理といった多段階の推論タスクでしばしば問題を抱えます。しかし、最近の研究では、多段階の推論を含む例を提示することで、モデルの性能が向上する可能性があることが示唆されています。特に、具体的な例を提示せずに、大規模なモデルに「ステップごとに考えてみましょう」と指示するだけで、同様の結果が得られる場合があります。 多くの論文で思考連鎖の手法が深く掘り下げられています。本質的には、モデルが段階的に思考し、自己検証できるようにすることが目的です。以下に、優れた手法をいくつかご紹介します。 図 7. LLM を使用して問題を解決するためのさまざまな方法の概略図。 それでは、それぞれの方法を詳しく調べて、同じデータセットでその精度を評価してみましょう。 6.1 CoT(概念的思考の連鎖)[12]この記事の主なポイントは、プロンプトに「段階的な思考」を追加することです。
評価: 精度 = 58% 6.2 CoTを用いた自己一貫性の達成(CoT-SC)[13]この方法は以前の方法の改良版です。モデルに複数の回答を提示させ、投票によってより良い回答を選択します。
評価: 精度 = 57% 6.3 マインドツリー(ToT)[14]これは、思考連鎖プロンプトの枠を超えた一般的な枠組みであり、言語モデルを一般的な問題を解決するための中間ステップとしてどのように活用できるかを探究することを促します。このアプローチにより、言語学習者は、意図的な推論プロセスを通じて、問題解決における中間アプローチの進歩を自己評価することができます。思考連鎖プロンプトの例を以下に示します。
評価: 精度 = 37% 6.4コンテキストタグと埋め込みタグの使用(タグ付きコンテキストプロンプト)[15]この方法には、質問セットの生成、要約によるコンテキスト プロンプトの作成、コンテキスト プロンプトと質問の検証が含まれます。 追加のデータセットを生成するのは非常に複雑なので、大規模なモデルにソース リンクと事実の参照を提供することを要求するようにメソッドを変更しました。 図8. コンテキストと埋め込みタグを使用したデザインの概略図 大規模モデルは、情報源を含む詳細情報をレスポンスで提供できます。レスポンスはJSON形式で返されます。例:
評価: 精度 = 61% 6.5自己修正[16]これはより高度なヒントエンジニアリング手法と言えるでしょう。その目的は、モデルが出力を繰り返しテストし、評価できるようにすることです(以下を参照)。 図9. 検証出力の概略図
評価: 精度 = 58% 6.6複数のエージェント [17]図10 マルチエージェント法の模式図 複数の言語モデルインスタンスがそれぞれ独自の回答と推論プロセスを提示し、複数回の議論を経て、最終的に共通の最終回答に到達します。この手法には、いくつかのプロンプトが含まれます。
評価: 精度 = 54% この方法は2回以上のリクエスト送信が必要となるため、実際には使用を推奨しません。API使用コストが増加するだけでなく、アプリケーションの速度も低下します。私のテストケースでは、800件の質問への回答を生成するのに2時間以上かかりました。 07外部ナレッジベースの利用前述のように、LLMにおける錯覚は、圧縮された情報を再構築しようとする試みから生じます。予測プロセス中に知識ベースから関連データを提供することで、純粋に生成的な問題は、提供されたデータに基づくより単純な検索または要約の問題へと変換されます。 実際には、ナレッジベースから関連データを取得するのは簡単ではないため、収集したデータセットの小さなサンプル (約 300 行) に注目しました。 図11 外部リソースの利用の模式図 最終的に、プロンプトは次のようになります。
評価: 精度 = 65% 取得した段落のフィルタリングとランク付け(filter/rank)と、この作業でどの程度のLLMコンテキストを使用するか(LLMコンテキストバジェット)の決定については、まださらなる作業が必要です。さらに、取得とランク付けによって遅延が発生し、リアルタイムのインタラクティブ体験に影響を与える可能性があります。 もう一つの興味深いアプローチは、大規模言語モデルの検索機能とテキスト生成機能を組み合わせた検索拡張生成(RAG) [18]です。このアプローチは、大規模コーパスから関連する文書断片を検索する検索システムと、検索情報に基づいて回答を生成する大規模言語モデルを組み合わせます。 図 12. Heiko Hotz が描いた RAG テクノロジーの概略図。 RAG技術に関する記事
08. Tipsプロジェクトと外部ナレッジベースの使用このアプローチは、前述のポイントを組み合わせ、複数の異なるヒントエンジニアリングと外部知識ベース技術を活用しています。CRITICフレームワークのロジックを採用しました。 図13 CRITICフレームワーク
評価: 精度 = 67% 品質は大幅に向上しませんでしたが、これは私が使用していたデータセットの問題によるものでした。一部の「正解」がソース情報と一致していなかったのです。 09まとめ図 14 は、この記事で紹介されている手法を使用して幻覚がどのように除去されたかを示しています。 一見すると、LLMにおける錯覚を減らすのは難しくないように思えます。温度パラメータを調整し、プロンプトを効果的に使用し、外部データソースに接続するだけです。しかし、人生の多くのことと同様に、微妙な違いはあるものの、それぞれの方法には長所と短所があります。 私の主な提案は、適切に設計されたプロンプトを優先することです。これは、幻覚を軽減するための費用対効果が高く効率的な方法です。 10コアリファレンス
終わり🚢🚢🚢AIテクノロジーソフトウェアと技術交流グループへのご参加をお待ちしております!最新のトレンドを把握し、一緒に技術的な課題を探求しましょう! |