TaD：タスクアウェアデコーディング（TaD）は、JD.comが清華大学と共同で提案した技術であり、大規模言語モデルにおける錯視問題の解決を目的としています。その成果はIJCAI2024に掲載されました。

RAG : 検索拡張生成 (RAG) は、LLM 錯視問題に対処するための業界で最も効果的な体系的なソリューションです。

1. 背景紹介

近年、ChatGPTに代表される生成型大規模言語モデル（LLM）は、AIブームの新たな波を巻き起こし、社会のあらゆる側面に急速に浸透しています。前例のない規模のモデル、学習データ、そして人間のフィードバックを取り入れた新しい学習パラダイムにより、LLMは人間の意図をある程度理解・識別する能力を備え、生き生きとした人間のような対話インタラクションを可能にします。その応答の精度、論理性、流暢さは人間のレベルに近づいています。さらに、LLMは「インテリジェントな創発」という注目すべき現象を示し、強力な論理的推論とインテリジェントなプランニング能力を生み出しています。これらの能力は、インテリジェントアシスタント、創造支援、科学研究のインスピレーションといった分野に徐々に応用されています。JD.comは、AI検索、インテリジェントカスタマーサービス、インテリジェントショッピングガイド、クリエイティブクレーム、レコメンデーション／広告、リスク管理など、多くのコアビジネスにおけるLLMの応用について、綿密な調査を行ってきました。この取り組みにより、ビジネス効率の向上とユーザーエクスペリエンスの向上が実現しました。

人間のような優れた対話能力を持つにもかかわらず、大規模言語モデル（LLM）に内在する不正確さが、大規模導入における制約やボトルネックになりつつあります。簡単に言えば、LLMが不正確、誤解を招く、あるいは無意味な情報を生成することは「錯覚」、あるいは単に「ナンセンス」と呼ばれます。もちろん、OpenAIのCEOであるサム・アルトマン氏をはじめとする一部の学者は、LLMが生成する「錯覚」を「並外れた創造性」と見なしています。しかし、ほとんどのシナリオでは、モデルが正しい回答を提供する能力が不可欠であるため、錯覚は欠陥と見なされることがよくあります。これは特に、医療診断、法律相談、工業製造、アフターサービスなど、高い出力精度が求められるシナリオにおいて当てはまり、錯覚の問題はしばしば悲惨な結果をもたらします。

この記事では主に、LLM 幻覚の問題に対する解決策を検討します。

2. 関連研究

よく知られているように、大規模言語モデルの本質は依然として言語モデル (LM) であり、これは文の確率を計算することによって自然言語の確率分布をモデル化できます。具体的には、LM は統計に基づいて大量のコーパスを分析し、次の特定の文字/単語の順序の確率を予測します。LLM の主な機能は、入力テキストに基づいて首尾一貫した文脈適切な応答を生成すること、つまり、人間の言語と文章のパターン構造と非常に一貫性のあるテキストを生成することです。LLM は事実情報を真に理解したり伝えたりするのが得意ではないことに注意してください。したがって、その錯覚を完全に排除することはできません。アリゾナ州立大学の教授である Subbarao Kambhampati は、LLM はすべての錯覚を生成するが、たまにその錯覚がたまたま現実と一致するだけだと考えています。シンガポール国立大学コンピューティング学部の Ziwei Xu と Sanjay Jain らも、LLM の錯覚を完全に排除することはできないと考えています [1]。

幻覚の問題を完全に排除することはできませんが、最適化や軽減は可能であり、業界では多くの関連研究が行われています。ある研究[2]では、LLMにおける幻覚の3つの主な発生源であるデータ、トレーニング、推論をまとめ、それぞれの軽減戦略を示しました。

2.1 データによってもたらされる錯覚

「病は口から入る」と言われるように、学習データはLLM（低レベルモデリング）の生命線であり、データの欠陥は錯覚を引き起こす大きな原因となります。データの欠陥には、エラー、欠損データ、偏り、有効期限切れなどに加え、ドメインデータの不足によりモデルが捕捉した事実知識の活用度が低いといった問題も含まれます。学習データに関連する錯覚に対処するための技術的な解決策をいくつかご紹介します。

データクリーニング

データ関連の錯覚に対処する最も直接的な方法は、より多くの高品質な事実データを収集し、データクリーニングを行うことです。トレーニングデータの量が多く、質が高いほど、最終的なトレーニングで得られるLLMが錯覚を示す可能性は低くなります[3]。しかし、トレーニングデータには常に一定のカバレッジと時間的境界があり、それが必然的に知識の境界を形成します。トレーニングデータの観点からのみ錯覚問題を解決することは、費用対効果の高い解決策ではありません。

「知識の境界」の問題に対処するには、主に 2 つのアプローチがあります。1 つは知識編集で、知識のギャップを埋めるためにモデルパラメータを直接編集します。もう 1 つは検索拡張生成 (RAG) で、モデルパラメータを変更せずに、サードパーティの独立した知識ベースを導入します。

ナレッジエディター

知識編集には2つの方法がある: 1) モデルパラメータを編集することでモデルのパフォーマンスを細かく調整できるが、知識間の一般化能力を実現するのは難しく、無理なモデル編集はモデルの有害または不適切な出力につながる可能性がある [4]; 2) 外部介入(モデルパラメータを編集しない)は大規模モデルの一般能力にほとんど影響を与えないが、このモジュールをトレーニングするために別のモジュールと追加のリソースを導入する必要がある。

LLMの本来の機能に影響を与えずに効果的な知識更新を実現する方法は、LLM研究における重要な課題です[2]。知識編集技術はユーザーに潜在的なリスクをもたらす可能性があるため、学界と産業界の両方で、RAGのような明示的知識を含む手法の使用が推奨されています。

検索強化生成（RAG）

RAGは、サードパーティのデータベースから関連情報を取得することにより、LLMの生成プロセスを強化する情報検索プロセスを導入し、精度と堅牢性を向上させ、錯覚を減らします。 RAGは外部のリアルタイム動的データにアクセスするため、理論的には知識境界の制限がなく、LLMの頻繁なトレーニングを必要としないため、 LLMの業界実装のベストプラクティスソリューションとなっています。下の図1は、RAG [11]の標準的な実装スキームを示しています。ユーザーのクエリは、最初に情報検索モジュールによって処理され、関連ドキュメントが取得されます。次に、RAGメソッドはプロンプト、ユーザークエリ、および取得されたドキュメントをLLMに入力し、最後にLLMが最終的な回答を生成します。

図1. RAGアーキテクチャ図

RAGは、情報検索を活用し、第三者の事実知識を組み込むことで、LLMのみに頼って答えを導き出すことで生じる錯覚を大幅に軽減します。しかしながら、LLMによって生成される最終的な出力は、依然として錯覚を生み出す可能性がかなり高いです。したがって、 LLM自体に内在する錯覚を軽減することは、RAGフレームワーク全体にとって非常に重要です。

2.2 モデルトレーニングによってもたらされる錯覚

LLMの学習プロセス全体において錯覚が生じる可能性がある。第一に、LLMは通常、トランスフォーマー構造を持つ単方向言語モデルである。自己回帰によって対象をモデル化するため、当然のことながら、不十分な単方向表現、注意欠陥[6]、露出バイアス[7]などの問題が発生する。第二に、テキストアライメント段階では、教師あり微調整（SFT）であれ、人間によるフィードバックを伴う強化学習（RLHF）であれ、ラベル付きデータがLLMの知識境界を超えたり、LLMの内部知識と矛盾したりするなどの問題が発生する可能性がある。こうした一連のアライメント問題は、LLM自体の錯覚リスクを増幅させる可能性がある[8]。

学習中に導入される錯覚は、モデル構造、注意メカニズム、学習目標の最適化、選好モデルの改良といった一連の手法によって軽減できます。しかし、これらの手法は普遍性に欠け、既存のLLMモデルへの移植が困難であり、実用性も限られています。

2.3 推論プロセスによってもたらされる錯覚

推論プロセス中に導入される幻覚は、デコード戦略におけるサンプリングのランダム性に起因し、幻覚リスクの増加と正の相関関係にある。特に、サンプリング温度の上昇は、低頻度トークンがサンプリングされる確率の増加につながり、幻覚リスクをさらに悪化させる[9]。一方、文脈的注意の不足やソフトマックスボトルネックに起因する不完全なデコードといった注意欠陥も幻覚リスクをもたらす。

レイヤーコントラストデコード（DoLa）

推論プロセスにおけるデコード戦略の欠点に対処するための代表的かつ比較的効果的な解決策として、対照層によるデコード（DoLa）[9]が挙げられます。モデル解釈可能性に関する研究では、Transformerベースの言語モデルにおいて、下位層のTransformerは「低レベル」の情報（品詞、文法）をエンコードし、上位層にはより多くの情報（事実的知識）が含まれていることが明らかになっています[10]。DoLaは主に、上位層の知識の「進歩」を下位層の知識と比較して強調することで、言語モデルの錯覚を軽減します。具体的には、DoLaは上位層と下位層のロジットの差を計算することで、次の単語を出力する確率を求めます。この対照的なデコード手法は、LLMにおける事実的知識を増幅させ、錯覚を軽減することができます。

図2. DoLaの概略図

上の図2は、DoLaのシンプルで直感的な例です。「シアトル」はすべての層で高い確率を維持していますが、これはおそらく文法的に妥当な答えだからでしょう。上位層が層対照デコーディングを通じてより多くの事実知識を注入すると、正解である「オリンピア」の確率が増加します。これは、層対照デコーディング（DoLa）が外部知識の取得や追加の微調整を行うことなく、LLMにおいて真の答えを明らかにし、事実知識をより適切にデコードできることを示しています。さらに、DoLaは動的な層選択戦略を備えており、最上位層と中間層の出力差が可能な限り大きくなるようにします。

DoLaの核となる考え方は、低レベルの言語／文法知識を軽視し、事実知識を最大化することであることは明らかですが、これは生成されたコンテンツに文法上の問題を引き起こす可能性があります。実験では、特に長い文脈推論シナリオにおいて、DoLaは繰り返し文を生成する傾向があることも明らかになりました。さらに、DoLaは教師ありファインチューニングに適しておらず、LLMのファインチューニング最適化を制限しています。

3. 技術革新

上記の分析に基づくと、RAGはLLM幻覚に対する素晴らしい治療法であることは間違いありません。RAGはLLMの強力なアドオンとして機能し、事実上の問題への対処においてLLMの効果をさらに高めます。しかし、RAGの最終的な出力はLLMによって生成されるため、LLM自体の幻覚を軽減することも非常に重要です。現在、LLM自体の幻覚に対処するための業界の技術的ソリューションは、高コスト、実用化の難しさ、潜在的なリスクの容易さなどの問題を抱えています。

これを踏まえ、JD Retailは清華大学と共同で関連研究を行い、タスクアウェアデコーディング（TaD）技術[12]を提案した（その成果はIJCAI2024に掲載された）。この技術は、プラグアンドプレイ方式であらゆるLLMに適用でき、教師ありファインチューニング前後の出力を比較することで、LLM自体の錯覚を軽減する。この手法は汎用性が高く、様々なLLM構造、ファインチューニング手法、下流タスク、データセットに対して効果的であり、適用可能なシナリオが幅広い。

タスク認識デコード（TaD）テクノロジー

LLMの知識獲得メカニズムに関するいくつかの研究では、LLMの出力が必ずしもモデルが保有する知識を正確に反映するとは限らないことが示されています。モデルが誤った出力を出したとしても、正しい知識を保持している可能性があります[13]。本研究では主に、LLMが事前学習中に学習した公開知識を保持しながら、微調整中に学習した下流のタスク固有のドメイン知識をより有効に活用する方法を探求し、それによって特定のタスクにおけるパフォーマンスを向上させ、LLM錯覚を軽減します。

TaDの基本原理を図3に示します。微調整前後のLLMの出力単語はどちらも「engage」ですが、詳しく見ると、対応する予測確率分布に大きな変化が見られます。これは、微調整中にLLMが自身の持つ知識を下流タスクの特定のドメイン知識に可能な限り適合させようとしたことを反映しています。具体的には、微調整後、ユーザーの入力要件（「professional」）により適合する単語「catalyze」の予測確率が大幅に上昇する一方で、事前学習中に獲得した知識を反映しながらも下流タスクのユーザーのニーズにはあまり適合しない、より一般的な単語「engage」の予測確率は低下しています。TaDは、微調整前後のLLMの出力確率分布の違いを巧みに利用して知識ベクトルを構築し、より関連性の高い出力単語「catalyze」を取得します。これにより、LLMの出力品質が向上し、下流タスクの好みとの整合性が高まり、錯覚が改善されます。

図3. TaDの概略図

知識ベクトル

微調整段階で LLM が学習したドメイン固有の知識を直感的に理解するために、図 4 に示すように、知識ベクトルの概念を導入します。微調整前は、LLM 出力の条件付き確率分布は_pθであり、微調整後は_pϕです。知識ベクトルは、微調整前後の LLM 出力単語の条件付き確率分布の変化を反映し、LLM が一般知識から下流のドメイン固有の知識に適応する能力も表しています。TaD テクノロジに基づいて構築された知識ベクトルは、LLM の微調整プロセス中に学習されたドメイン固有の知識を強化し、LLM イリュージョンをさらに改善することができます。

図4. 知識ベクトル

特に、微調整データが不足している場合、LLMの出力条件付き確率分布は最終的な学習目標を大きく下回ります。この場合、TaD技術によって強化された知識ベクトルは、下流のタスクへの知識の適応を強化し、学習データが不足しているシナリオにおいて、より顕著なパフォーマンス向上をもたらします。

実験結果

1) 様々なLLMにおいて、LoRA、AdapterP、その他の手法を用いて様々なタスクの微調整を行いました。実験結果を以下の表1と表2に示します。TaD手法は全てのケースにおいて大幅な性能向上を達成しました。

表1. 多肢選択問題とCBQA課題の結果

表2. より難しい推論課題の結果

2) 表 3 に示すように、他のコントラストデコード技術と比較して、TaD テクノロジはほとんどのシナリオで優れたパフォーマンスを発揮します。他の技術では LLM パフォーマンスが低下する可能性がありますが、TaD ではこのリスクがないことを強調することが重要です。

表3. 異なるコントラストデコード技術の結果

3) トレーニングサンプルの割合を変えた実験で、非常に興味深い結果が得られました。表4に示すように、トレーニングサンプルが少ないほど、TaD技術のメリットが大きくなりました。つまり、限られたトレーニングデータであっても、TaD技術はLLMを正しい方向に導くことができます。これは、TaD技術が、限られたトレーニングデータという条件下でも、LLMの性能限界をある程度克服できることを示しています。

表4. 異なるデータ比率での結果

ご覧のとおり、TaDはプラグアンドプレイで、様々なLLM、様々な微調整手法、そして様々な下流タスクに適用可能です。限られたトレーニングデータというボトルネックを打破し、LLM自体の錯覚を改善するための実用的で使いやすい手法です。

4. ケーススタディ

ChatGPTに代表されるLLMの登場以来、その応用研究は盛んに行われてきました。しかし、その幻覚的な性質が実用化を制限する最大の欠点となっています。まとめると、検索強化生成（RAG）と低幻覚性LLMの組み合わせは、現在、LLM生成の幻覚を軽減するための最良の併用療法です。JD.comの一般知識質問応答システムの構築では、TaD技術を用いて低幻覚性LLMを実装しました。システムレベルでは、RAGに基づく独自の事実知識を注入しました。LLM生成の幻覚を最小限に抑える具体的なスキームは図5に示されています。

図5. TaD+RAGの知識ベース質疑応答システム

現在、ナレッジQ&AシステムはJD.comの6,000以上のビジネスシナリオに統合されており、ユーザーに正確で効率的かつ便利なナレッジベースのQ&Aを提供することで、運用と保守の人件費を大幅に節約しています。

5. 反省と展望

LLMが言語モデルと同様に発展し続ければ、その生成錯覚は完全には解消されないでしょう。現在、言語モデルの範疇を超え、自然言語関連のタスクを効率的に実行できる新しいモデル構造は業界に存在しません。したがって、LLMの生成錯覚を軽減することは、今後の探求課題として残されています。以下は、システム、知識、そしてLLMに関する私たちの視点からの簡潔な考察であり、今後の議論のきっかけとなることを願っています。

システムレベル - RAG + エージェント + その他からなる複雑なシステム

RAG技術は、いくつかの一般的な自然言語処理タスク、特に単純な問題や小規模な文書セットにおいて優れた役割を果たします。しかし、複雑な問題や大規模な文書セットにはRAG技術だけでは対応しきれません。最近の研究では、RAG+エージェントが将来のトレンドであると示唆されており[14]、エージェントが複雑なタスクの理解と計画を支援するようになります。将来のシステムはエージェントとRAGに限定されず、様々な内部および外部ツールの呼び出し、長期・短期記憶モジュール、自己学習モジュールなどが必要になると考えられます。

知識レベル - LLMと深く統合された注入方法

あらゆる深層学習モデルは知識境界の問題に直面しており、LLMも例外ではありません。RAG（Retrievable Acyclic Graph）は外部知識を取得し、それをプロンプトの形でLLMに入力することで、最終的な理解と生成を促し、知識境界問題をある程度軽減します。しかし、この知識注入手法はLLM生成プロセスとは比較的切り離されています。たとえ正しい知識が取得できたとしても、LLMは自身の知識境界の制約により、依然として誤った答えを生成する可能性があります。したがって、外部知識とLLM推論の深い統合をどのように実現するかを探求することは、今後の重要な研究課題となる可能性があります。

LLMレベル - 低幻想LLM

LLMに内在する幻想こそが問題の根源であり、ボトルネックとなっています。LLMの適用範囲が広がるにつれ、TaDのような手法を用いてLLMに内在する幻想を軽減する研究は、間違いなく業界における主要な研究テーマとなるでしょう。

6. 結論

LLM錯覚を軽減することは、間違いなく複雑な体系的な問題です。様々な技術的ソリューションを統合し、複数のレベルで連携することで、LLM錯覚を軽減することができます。既存のソリューションでは錯覚の根本的な解決を保証することはできませんが、継続的な探求によって、業界は最終的にLLM錯覚を抑制するより効果的なソリューションを見つけると確信しています。そして、その時、LLM関連のアプリケーションが再び爆発的に成長することを期待しています。

JD Retailは常にAI技術の探求の最前線に立っています。AI分野への継続的な投資と徹底的な開発により、JDはより先進的で実用的な技術成果を生み出し、業界、ひいては社会全体に深く永続的な影響を与えると確信しています。

参考文献

[1] 幻覚は避けられない：大規模言語モデルの本質的な限界

[2] 大規模言語モデルにおける幻覚に関する調査：原理、分類、課題、未解決の問題

[3] LLM幻覚の原因解明と克服

[4] 大規模言語モデルの編集：問題、方法、機会

[5] ACL 2023チュートリアル：検索ベース言語モデルとアプリケーション

[6] ニューラルシーケンスモデルにおける自己注意の理論的限界

[7] リカレントニューラルネットワークによるシーケンスレベルのトレーニング

[8] モデル記述評価による言語モデルの挙動の発見

[9] ドーラ：対照的な層によるデコードは大規模言語モデルの事実性を向上させる

[10] バートは古典的なNLPパイプラインを再発見した

[11] 大規模言語モデルのための検索強化生成：調査

[12] TaD: 下流タスクにLLMをより良く適応させるためのプラグアンドプレイのタスク認識デコード手法

[13] 推論時介入：言語モデルから真実の答えを引き出す

[14] RAGを超えて：高度なコンテキスト拡張LLMアプリケーションの構築

HUOXIU

TaD+RAG - 大規模な「幻覚」を軽減する新しい併用療法