ユニバーシティ・カレッジ・ロンドン、MetaAI、StabilityAI は共同で、大規模モデルの 16 の主要な課題をまとめた 70 ページのレビューを発表しました。

Xi Xiaoyao Tech Talk 原著者 | My IQ Dropped to the Ground、Python様々なAIGCの登場以来、大規模言語モデル（LLM）に関する研究と応用も次々と登場しています。これらの技術は、よりインテリジェントで正確、そして便利な情報やサービスを提供できる一方で、様々な問題やリスクももたらしています。

最近、研究者たちはチャットボット、計算生物学、コンピュータープログラミング、創造的作業、知識労働、法律、医学、推論、ロボット工学、社会科学などの分野を研究し、未解決の問題をまとめ、これらの問題に対する実現可能な解決策を提案しています。

さらに、緊急に取り組むべき課題は数多くあります。これらの問題については、より深い考察と議論が必要です。一緒に考えていきましょう。

論文タイトル：
大規模言語モデルの課題と応用

論文リンク:
https://arxiv.org/abs/2307.10169

LLMが直面する課題

図1に示すように、LLMが直面する課題は主に「設計」「行動」「科学」の3つのカテゴリーに分けられます。このうち、LLMの「設計」は導入前の意思決定に関連し、「行動」の課題は導入プロセス中に発生し、「科学」の課題はLLM研究の学術的進歩を阻害しています。

課題1: 理解しにくいデータセット

チームが事前トレーニング済みのデータの量を拡大するにつれて、事前トレーニング済みのデータセットの現在の規模では、個人がドキュメント全体を完全に読んで品質を確認することは困難です。

表 1 に示すように、事前学習済みのデータセットは、近年、サイズと多様性が急速に増大したため制御不能になっており、すべてのデータセットが公開されているわけではありません。

ほぼ重複したデータはモデルのパフォーマンスに悪影響を及ぼす可能性があり、このようなデータのフィルタリングはさらに困難です。ほとんどのデータ収集プロセスでは、フィルタリングに最小ハッシュ法などの手法が一般的に使用されています。重複排除により、モデル内の繰り返しシーケンスの数を大幅に削減できます。
マルチタスクのファインチューニングを行う事前学習済みモデルでは、適切なタスク混合比を決定することが極めて重要です。一般的な戦略として、各入出力ペアにタスクの説明を追加することでファインチューニングを行う方法があります。しかし、タスクデータセットのバランス調整は依然として不明確です。
これらのモデルは、クローズドソースモデルのデータ収集傾向を模倣していますが、独自モデルの内容を完全にシミュレートすることはできないため、大きな機能ギャップが生じます。
評価テストセットに関連または類似するデータをトレーニングセットに含めると、モデルがテストデータを記憶し、テストで単純に繰り返し使用する可能性があるため、パフォーマンス指標が過大評価される可能性があります。さらに、事前トレーニングデータセットには検出されない個人識別情報（電話番号やメールアドレスなど）が含まれている可能性があり、プライバシー侵害につながる可能性があります。

課題2：単語分割器への依存

大規模言語モデルのトレーニングと操作は、多くの場合特定の単語セグメンテーションに依存するため、パフォーマンスと適応性に影響を及ぼす可能性があります。

トークン化とは、モデルへの入力として、単語または文字のシーケンスをより小さな単位（トークン）に分解するプロセスです。一般的なトークン化手法の一つにサブワードトークン化があります。これは、単語をサブワードまたはWordPieceに分解するものです。その目的は、モデルの語彙に含まれる希少語や語彙外の単語を効率的に処理しながら、シーケンスあたりのトークン数を制限して計算の複雑さを軽減することです。サブワードトークン化は通常、教師なし学習によって語彙を構築し、必要に応じてマージルールを使用してトレーニングデータのエンコード効率を向上させることができます。

しかし、単語分割の必要性にはいくつかの欠点もあります。

同じ情報を伝達するために必要なトークンの数は、言語によって大きく異なります。トークン数に基づいて課金するAPI言語モデルは、特にこれらのAPIが既に手頃な価格ではない地域では、過剰な課金やパフォーマンスの低下につながる可能性があります。
トークナイザーと事前トレーニング済みコーパスの間に不一致があると、不正確なトークンが生成され、異常なモデル動作が発生する可能性があります。
様々な言語セグメンテーション手法も、特に中国語や日本語のようにスペースで区切られない言語においては、いくつかの課題に直面しています。既存のサブワードセグメンテーション手法は主に貪欲アルゴリズムであり、言語を可能な限り効率的に符号化しようとします。このため、多くの言語で共通するサブワードが優先され、リソースの少ない言語のトークン生成には適していません。
さらに、単語分割器には、計算負荷、言語依存性、新しい単語の処理、固定された語彙サイズ、情報の損失、人間による解釈可能性など、いくつかの課題があります。

図2は、係り受けに基づく単語分割の典型的な欠点を示しています。単語分割器の学習プロセスには、学習前データセット全体を複数回スキャンするなど、複雑な計算が伴い、データセットへの依存関係が生じます。これは、多言語環境では特に困難になる可能性があります。さらに、言語モデルの埋め込み層Eと出力層Wは語彙サイズと関連しており、例えばT5モデルではモデルパラメータ全体の約66%を占めています。

この課題に対処するため、サブワードレベルの入力は、語彙サイズとシーケンス長のバランスが良好です。さらに、バイトペアエンコーディング（BPE）とWordPieceは、一般的に使用されているサブワード分割アルゴリズムです。バイトレベルの入力はサブワード分割の代替手段であり、サブワード分割器と組み合わせて使用することも、すべての可能なシーケンスをエンコードするための有限語彙を定義することで使用することもできます。いくつかの研究では、サブワードベースのモデルに匹敵する性能を持つバイトレベルの入力ベースの分割手法も提案されています。

課題3: 事前トレーニングのコストが高い

大規模な言語モデルのトレーニングには膨大な計算リソースと時間が必要であり、それが広範な適用を制限する可能性があります。

LLMのトレーニングにかかる主なコストは事前トレーニングプロセスであり、数十万時間の計算時間、数百万ドルの費用、そして平均的なアメリカの家庭数軒分の年間エネルギー消費量に相当するエネルギーを必要とします。最近提案されたスケーリング定理は、モデルのパフォーマンスはモデルサイズ、データセットサイズ、そしてトレーニングに使用される計算量とべき乗則の関係を示すと仮定しています。この持続不可能な状況は「レッドAI」と呼ばれています。

これらの問題に対処するには、次の 2 つの研究アプローチがあります。

最適なトレーニング方法は、与えられた計算予算内でトレーニング効率を最大化するために経験的な「スケーリング法則」を学習することによって計算されます。
事前学習の目的：図3に示すように、自己教師あり学習では様々な目的が使用されます。事前学習の目的によって、モデルのデータ効率と必要な反復回数が変わります。

さらに、並列戦略、スタックモデル、増分バッチサイズ、最新の重み平均化といった研究分野もあります。これらの手法は、モデル性能の向上と計算コストの削減に一定の効果をもたらします。

事前トレーニングターゲットの選択には、言語モデリング、マスク言語モデリング、接頭辞言語モデリング、連続間隔破損、ハイブリッドノイズ除去が含まれます。
並列処理は、トレーニングと推論における LLM の大規模な処理に対処するための一般的なアプローチであり、モデル並列処理とパイプライン並列処理という 2 つの一般的な戦略があります。

課題4：経費の微調整

大規模な言語モデルを微調整するには、通常、追加のリソースと時間が必要になり、迅速な導入に影響する可能性があります。

LLMの事前学習において、大規模かつ多様なテキストデータを使用すると、モデルが特定のタスクデータセットにおける分布特性を正確に捉えられない可能性があります。この問題に対処するために、事前学習済みモデルのパラメータを、ドメインまたはタスクに固有のより小規模なデータセットに適応させるファインチューニングが用いられます。これは、事前学習済みモデルを直接ファインチューニングするか、出力表現に学習可能なレイヤーを追加することで実現され、下流のタスクへの適応に非常に効果的です。

しかし、これにはいくつかの問題もあります。

数十億のパラメータを持つ言語モデルでは、モデルパラメータ、モデルアクティベーション、勾配、および対応する統計を保存するために大量のメモリが必要です。
メモリの制限により、単一のデバイス上で完全なモデルの微調整を完了することができず、大規模なコンピューティングクラスターの使用が必要になります。
完全なモデルの微調整は特定のタスクではうまく機能しますが、タスクごとに個別の微調整済みモデルを保存および読み込む必要があるため、計算とメモリのオーバーヘッドが大幅に増加します。

最近の研究では、メモリ要件を削減する方法がいくつか提案されていますが、時間の複雑さは依然として課題であり、LLM モデルに適応した現在のコンピューティングインフラストラクチャでは、小型デバイスへの適用が制限されています。

特定のデータセットまたはドメインに適応するには、図 4 に示すように、パラメトリック効率的な微調整法 (PEFT) を使用できます。この方法では、モデルパラメータのごく一部のみが更新されます。

一つのアプローチは、Transformerアーキテクチャに学習レイヤーを追加するアダプターを使用することです。これらのレイヤーは、ネットワークの残りの部分を変更せずに、微調整中に更新されます。
もう一つのアプローチは、モデルのバイアス（非常に小さなパラメータ）のみを微調整することです。いくつかのフレームワークでは、アダプターを言語モデルの微調整に統合できます。

より大規模なモデル向けには、プレフィックスチューニングやプロンプトチューニングといった手法が導入されています。これらの手法は、トークン埋め込み（ソフトプロンプト）を入力に追加することで学習します。これにより、モデルの他のパラメータを変更せずに、微調整フェーズでトークン埋め込みを学習することができます。これらのソフトプロンプトはパラメータ数が少なく、より効率的に保存されます。さらに、ブラックボックスAPIアクセスのみを備えたモデルに適した代替手法も提案されています。

他にも、スケーリング層活性化、メモリ効率の高いゼロ次最適化、低ランク適応といった手法があります。これらの手法はメモリ計算量を改善しますが、時間計算量は依然として課題です。パラメータ効率の高い微調整手法を用いても、LLMの微調整には順方向伝播または逆方向伝播の計算が必要です。そのため、小型デバイスにおけるパーソナライゼーションなどのアプリケーションの可能性は限定されます。

課題5：高遅延推論

大規模な言語モデルでは、入力の処理と出力の生成に時間がかかる場合があり、リアルタイムアプリケーションに影響を及ぼす可能性があります。

以前の研究によると、 LLM における推論の遅延が大きくなる原因は 2 つあります。

推論プロセスは一度に 1 つのトークンのみを処理するため、並列処理能力は低くなります。
モデルのサイズとデコード処理中の一時的な状態 (アテンションキーや値ベクトルなど) により、メモリ使用量は比較的大きくなります。

著者らはまた、 Transformersにおけるアテンション機構の2次スケーラビリティと、メモリフットプリント（サイズおよび／または帯域幅）の削減や特定の計算操作の高速化など、これらの課題に対処するための手法についても論じている。アテンション機構の計算を高速化する手法としては、ハードウェアを考慮した変更や、アテンション機構の高レベルな準2次近似などが挙げられる。

量子化は、重みとアクティベーション値の計算精度を下げることで、メモリ使用量を削減したり、モデルのスループットを向上させたりする、トレーニング後の手法です。
プルーニングは、パフォーマンスを低下させることなく、特定のモデルから一部の重みを削除するために使用される補助的なトレーニング後手法です。
ハイブリッドエキスパートアーキテクチャは、エキスパートモジュールのセットとルーターネットワークを同時に使用することで推論時間を短縮します。
カスケードとは、精度と計算コストのバランスをとるために、異なるサイズのモデルを使用してさまざまなクエリを処理する戦略です。
デコード戦略も推論の計算コストに大きな影響を与えます。

大規模な言語モデルをトレーニングおよび実行するためのさまざまなフレームワークとライブラリが設計されており、効率的な実装、メモリ要件の削減、分散コンピューティング戦略の使用を通じて計算コストの課題に対処しています。

課題6: コンテキストの長さの制限

大規模言語モデルの処理範囲はコンテキストの長さによって制限される可能性があり、長いテキストを理解して生成する能力に影響を及ぼす可能性があります。

著者は、自然言語処理タスクを解決する上でのいくつかの重要な問題に焦点を当てています。

感情認識などのタスクを扱う際には、より広い文脈を考慮する必要があります。小説や学術論文などのテキスト文章の場合、ほんの数語や数文を分析するだけでは不十分であり、入力全体を考慮する必要があります。同様に、会議の議事録では、以前の議論によって発言の解釈が皮肉や真剣さへと変化する可能性があります。
著者らは、長いテキストを処理する際のいくつかの長いコンテキストモデルのパフォーマンスを評価し、多くのオープンソースモデルが長いコンテキストの処理時に優れたパフォーマンスを発揮すると主張しているものの、実際にはパフォーマンスが大幅に低下していることを発見しました。
コンテキストの長さを制限することによる長い入力の処理への影響について説明し、より長いコンテキストの長さを可能にする3 つの方法 (効率的な注意メカニズム、位置埋め込みスキーム、注意と位置埋め込みを必要としない Transformer の代替方法) を紹介します。

効果的なアテンションメカニズム: 線形ネストアテンションメカニズム、ドット積アテンションと同等だが消費リソースが少ないアテンションメカニズム、一時的なグローバルアテンションメカニズム、CoLT5、シンセサイザーなどを使用して、長い入力を処理するためのより効率的なアテンションメカニズムを設計します。
長さの一般化：著者らは、絶対位置埋め込みと相対位置埋め込みを含む位置埋め込み手法について議論し、RoPEや相対位置偏差といった手法を紹介する。これらの手法はより優れた長さの一般化能力を提供するが、依然としていくつかの課題が残っている。
Transformer の代替: 著者らは、状態空間モデル、畳み込み、および再帰型ニューラルネットワークを使用した LLM の代替手段を紹介しています。これらは、比較的良好なパフォーマンスを維持しながら計算効率の利点を提供します。

課題7：脆弱性を浮き彫りにする

大規模言語モデルの応答はプロンプトの内容と形式によって大きく左右される可能性があり、安定性と予測可能性に影響を与える可能性があります。

プロンプトの構文（例：長さ、空白、例の順序）と意味（例：表現、例の選択、指示）は、モデルの出力に大きな影響を与えます。プロンプトの変更は、出力に大きな変化をもたらす可能性があり、これはプロンプトの脆弱性と呼ばれる現象です。図5は、異なるプロンプト方法を比較したものです。

シングルターンプロンプト法：これらの手法は、入力プロンプトを改善し、より良いシングルターン応答を実現します。中でも、コンテキスト内学習は、様々な自然言語処理タスクにおいて競争力のある結果を示しています。これは、LLMの内部動作を調整することなく、トレーニングデータの連結のみに依存して推論を通じて新しいタスクを学習するLLMの能力を指します。

指示に従うには、モデルの教師付き微調整が必要であり、これは主に入力プロンプトにタスクを説明する指示を追加することによって実現されます。
Chain-of-Thought は、一連の中間推論ステップを通じて少数のサンプルのヒントを構築し、最終的に最終出力に導く手法です。
なりすましとは、特定のドメインに関する質問に答える際に、モデルがドメインエキスパートのふりをすることを要求する手法です。研究によると、モデルにドメインエキスパートを模倣させることで、ドメイン固有の質問に対する回答の精度が向上することが分かっています。

マルチターンヒント法は、ヒントとその回答を反復的に接続することで出力を生成します。この方法には、「Ask Me Anything」、「Self-consistency」、「Least-to-Most」、「Scratchpad」、「ReAct」などがあります。

自動推論およびツール使用 (ART) は、検索やコード生成、実行などの外部ツールへのシンボリック呼び出しを含む、複数ステップの推論ヒントを自動的に生成する方法です。
制御された生成とは、入力テキストを変更してモデルの出力を制御するのではなく、推論プロセスを直接変更する手法です。LLMでは、分類器を使用しないガイド付きサンプリングや手がかりに基づく修正などの手法を用いて、制御された生成を実現できます。

要約すると、プロンプトの設計と改善はLLMの出力に大きな影響を与えます。プロンプトを最適化するには広範な実験が必要であり、多くの質問方法とコントロール生成方法はさらなる研究と実践を必要とします。

チャレンジ8：幻覚

大規模な言語モデルは現実を反映しないコンテンツを生成する可能性があり、その信頼性と使いやすさに影響を与える可能性があります。

ChatGPTのような会話型サービスが近年人気を集めていることは、日常的な質問応答におけるLLMの普及が進んでいることを示しています。しかし、これらのモデルの精度はますます重要になっています。なぜなら、テキストの流暢さゆえに検出が難しいエラーや、不正確な情報を生成しているように見えることがしばしばあるからです。図6に例を示します。

異なるタイプの錯視を区別するために、モデルによって提供されるプロンプト、例、参照のコンテキストなどのソースコンテンツに基づいて判断を下すことができます。この判断を通じて、本質的錯視と外的錯視を区別することができます。本質的錯視は、ソースコンテンツと論理的に矛盾する生成テキストを指します。一方、外的錯視は、ソースコンテンツによって提供される情報が出力結果を評価するのに不十分であるため、ソースコンテンツを通じて出力の正しさを検証できず、結果が不確実である状況を指します。外的錯視は必ずしも間違っているわけではありませんが、提供された情報の信憑性を確認できないため、ある程度は望ましくありません。本質的錯視と外的錯視の例を図7に示します。

従来のデコードアルゴリズムは、各サンプリングステップで均一なランダム性を導入し、幻覚を引き起こします。Dziriらは、応答生成における多様性の増加と幻覚の発生との間に正の相関関係があることを観察しました。ランダム性と多様性を導入する理由は、最も確率の高いシーケンスを生成すると、人間のコミュニケーションに比べて退屈で不自然なテキストになることが多いためです。Zhangらは、この課題を多様性と品質のトレードオフであると説明しました。

この課題は未解決のままですが、不確実性を考慮したビーム探索や確実なデコードなどのいくつかの方法では、デコードプロセス中の錯覚の生成を減らすことが試みられています。

不確実性を考慮したバンドル探索は、予測の不確実性が高いほど幻覚の可能性が高くなるという観察に基づいています。そのため、バンドル探索にペナルティ項を導入し、デコード処理中に高い予測の不確実性にペナルティを与えます。
確信度の高いデコード手法は、エンコーダ・デコーダモデルがデコード時にソースコンテンツに適切に焦点を合わせることができず、錯覚を生み出すと仮定しています。彼らは、モデルのソースコンテンツへの注目度を測定するために注目度ベースの信頼度スコアを提案し、変分ベイズ学習プロセスを用いてモデルが信頼性の高い回答を生成することを保証しています。

課題9：行動の不一致

大規模言語モデルの動作は人間の期待や意図と一致しない可能性があり、人間とコンピュータの相互作用の有効性に影響を与える可能性があります。

アライメント問題は、LLMの行動が人間の価値観、目標、期待と一致し、予期せぬ結果や否定的な結果を回避することを目的としています。図8に示すように、既存の研究は、不整合な行動を検出する手法と、モデルの行動を整合させる手法の2つのカテゴリに分けられます。

ヒューマンフィードバック付き事前学習（PHF）とは、事前学習段階で人間からのフィードバックを導入する概念です。研究者らは、フィルタリング、条件付き学習、非尤度、報酬重み付け回帰、アドバンテージ重み付け回帰の5つの手法を比較しました。その結果、条件付き学習は学習データにおいて最適なバランスを実現しましたが、プライバシー侵害のリスクや、一部のアプリケーションではLLMの安全性を損なう可能性があることが分かりました。

LLMはテキストコーパス内の次の単語を予測することで学習されるものの、テキスト作成者の目的、信念、意図といったプロアクティブな属性を推測・表現できると主張する人もいます。彼らはこの見解を裏付ける文献的証拠を引用し、LLMがコミュニケーション上の意図、信念、欲求をどのようにシミュレートするかを示しています。この仮説が正しければ、アライメントの問題はさらに深刻化し、新たな課題に直面する可能性があります。セキュリティの観点から見ると、このプロアクティブな動作は問題となる可能性があります。モデルが誤った信念や悪意のある意図を抱いたり、あるいは不一致な目標を追求したりする可能性があるためです。LLMの安全な適用を確保するためには、この動作を検出・防止するためのさらなる研究が必要です。

要約すると、LLMの行動が人間の価値観、目標、そして期待と整合していることを保証する上で、整合は課題となります。LLMの安全な適用を確保するためには、不整合や整合モデルの挙動を検出するためのさらなる研究が必要です。

課題10：時代遅れの知識

大規模言語モデルの知識は時間の経過とともに古くなる可能性があり、新しい状況や新しい知識に対処する能力に影響を与える可能性があります。

事前学習中、 LLMが学習した現実世界の情報は不正確であったり、古くなっている可能性があります（例えば、政治指導者の交代をタイムリーに考慮できない可能性があります）。しかし、モデルの再学習にはコストがかかり、微調整中に古い事実を「忘れて」新しい事実を学習することは困難です。

既存のモデル編集技術は、孤立した知識の更新には効果が限られており、実世界のアプリケーションへの適用が制限されています。これらのアプリケーションでは、誤りや古くなった情報を1つだけ更新するだけでよく、関連する情報は、他の無関係な情報に影響を与えることなく、その更新を正確に反映する必要があります。

図 9 に示すように、この問題を解決するための一般的な方法は 2 つあります。

モデル編集テクニック: パラメータを変更するか、外部のポスト編集方法を使用してモデルの動作を変更します。
検索強化言語モデル: 非パラメトリック知識ソースを利用して推論プロセス中に更新し、基礎となる知識の更新された状態を反映します。

課題11：脆弱性評価

大規模言語モデルのパフォーマンス評価はさまざまな要因の影響を受ける可能性があり、評価結果が不安定で信頼できないものになる可能性があります。

モデルはベンチマーク問題を容易に解くことができるかもしれませんが、問題のわずかな変化（あるいはプロンプトの変更）によって、全く逆の結果を生み出す可能性があります。人間とは異なり、言語モデルが他の関連問題を解決できるかどうかを直感的に判断することは容易ではありません。そのため、言語モデルの包括的な評価は困難です。様々な入力の弱点を特定するには、厳密なベンチマークが必要となるからです。評価プロセスは脆弱になりやすく、ベンチマークプロンプトや評価プロトコルをわずかに変更するだけで、全く異なる結果につながる可能性があります。

ベンチマーク評価の堅牢性を高めるため、包括的なベンチマークセットは、あらゆるシナリオとタスクにわたる評価を標準化し、可能な限り多くの能力とリスクを幅広くカバーすることを目指しています。SAT、LSAT、数学コンテストなど、人間が作成したテストをベンチマークするモデルも増加しています。

従来のベンチマークでは、モデルは質問のプロンプトや評価方法の選択に非常に敏感になる可能性があります。多くの場合、プロンプトの変更は標準化されていないため、モデルはそのような変更、例えばプロンプトに「はいまたはいいえで答えてください」が含まれているかどうかなどに特に敏感になります。Jainらは、より大規模でガイド付きの微調整されたモデルは、プロンプトの小さな変更に対してより敏感であることを発見しました。

課題12: 静的かつ手動でコンパイルされたデータに基づく実数値の評価

評価が固定された手動で作成された基準に基づいている場合、大規模な言語モデルのパフォーマンスを包括的かつ公平に評価できない可能性があります。

LLM評価は通常、人間が記述した「グラウンドトゥルース」テキストに依存しますが、専門知識を必要とする分野では、そのようなテキストが不足していることがよくあります。モデルが特定の分野でベンチマークにおいて人間のパフォーマンスを上回るようになると、「人間レベル」のパフォーマンスとの比較が不足します。古いベンチマークデータセットは時代遅れになり、モデルの機能が向上するにつれて有用なシグナルを提供できなくなります。コミュニティは、モデル出力の人間による評価など、動的な評価への依存を減らしながら、新しい静的ベンチマークに継続的に適応する必要があります。

これらの問題に対処するための一つのアプローチは、 BIG-Benchベンチマークに定期的に新しいタスク（手続き評価を含むものを含む）を追加することです。以下の2つの研究分野は、人間の介入を必要とせずに動的な評価を可能にします。

LLMによって生成される評価タスク：LLMの機能が向上するにつれて、有用なベンチマーク問題や評価のヒントを生成できるようになります。研究によると、LLMは任意の次元の静的ベンチマークデータセットを生成するために使用でき、生成されたデータセットは人間の好みに基づく報酬モデルを用いてフィルタリングされ、品質が保証されます。
LLM生成による評価：LLMは、他のモデルの性能を直接評価するためにますます利用され、その能力の「審査員」としての役割を果たしています。この概念の背景にあるのは、多くの分野において、モデルが「正しい」答えを生成するのに苦労する一方で、答えの正確性を評価したり、2つの答えの相対的な質を判断したりすることが容易な場合が多いという点です。しかしながら、これらの手法によって生成される評価結果は、「審査員」モデルによって大きく異なることが多く、堅牢性の問題を抱えているため、人間の判断を適切に代替することはできません。

課題13: 生成されたテキストと人間が書いたテキストの区別がつかない

大規模言語モデルによって生成されたテキストは、人間が書いたテキストと非常に類似している可能性があり、誤情報の拡散などの問題につながる可能性があります。

言語モデルによって生成されたテキストを検出することの重要性は、誤情報の拡散、盗作、なりすまし、個人情報の盗難、そして自動化された詐欺を防ぐことにあります。しかし、言語モデルの流暢性が向上するにつれて、そのようなテキストの検出はより困難になります。

この問題を解決するには 2 つの方法があります。

事後イベント検出器: ありそうもないマーカーを統計的に分析することで、生成されたテキストを人間が検出できるようにします。
透かしスキーム: テキスト生成プロセスを変更して、検出しやすくします。

事後検出手法では、エネルギーモデルを用いて本物のテキストと偽造テキストを区別する研究や、近似モデルを用いてモザイクサンプルを識別する研究が行われている。透かし技術では、生成されたテキストに暗黙的なパターンを用いてマークする。これらのパターンはコンピュータによってのみ認識可能であり、人間には知覚できないため、推論段階での検出が容易になる。

機械生成テキストの検出を防ぐには、言語モデルの特徴を除去するようにテキストを書き換える方法があります。研究者たちは、同義語を生成するようにモデルを訓練しました。これにより、言語モデルによって生成されたテキストを、ほぼ同じ意味を維持しながら、単語や文の構造を変えて書き換えることが可能になりました。この攻撃に対抗する一つの方法は、モデルによって生成されたテキストをデータベースに保存し、必要に応じて意味的に類似したテキストを取得することです。

さらに、研究者たちは、透かし入り言語モデルから複数のクエリを用いて透かしスキームを抽出し、それをモデルによって生成されたと誤分類された人間のテキストとして偽装する方法を研究しました。透かし検出の信頼性が不確実であるため、テキスト検出はさらに困難になります。

課題14: スケーリングでは解決できないタスク

一部のタスクでは、単にモデルのサイズに頼るのではなく、より深く、よりターゲットを絞ったアプローチが必要になる場合があります。

LLMの能力は研究コミュニティを驚かせ続けています。例えば、MMLUベンチマークにおいて人間の予測者の期待を上回る高いパフォーマンスを達成しました。OpenAIはGPTのアップデート版であるGPT-3.5やGPT-4もリリースしており、GPT-4は様々なタスクにおいてGPT-3.5を大幅に上回る性能を示しました。これらの進歩は、現在のデータやモデルのスケーリングパラダイムが限界を克服できるかどうかという疑問を提起しています。

逆スケーリング（IS）とは、モデルサイズとトレーニング損失が増加するにつれてタスクのパフォーマンスが低下する現象です。反事実タスクなどの一部のタスクは、モデルやデータセットのさらなる拡張から恩恵を受けない場合があります。これらのタスクでは、一般的な推論プロセスを維持しながら特定の入出力条件が変更されると、LLMのパフォーマンスが低下します。研究者らは、LLMが一般的でない反事実条件に対してさらに悪化することを発見しました。これは「メモリのような効果」と呼ばれる現象です。著者らは、モデルサイズの拡大がメモリ効果の増加によるパフォーマンスの低下につながるのか、それともサイズを最適化した事前トレーニング手法によってデータセットが拡張され、異常な条件のタスクがより多く含まれるようになるのか、さらなる調査を求めています。

課題15: 実験設計の欠如

大規模言語モデルの研究では実験設計が不十分である可能性があり、それが問題を特定して解決する能力に影響を与える可能性があります。

まず、表2に示すように、著者らは多くの論文で対照実験、すなわち一度に1つの因子を変化させる実験が不足していることを指摘しています。これはおそらく計算コストの高さが原因と考えられます。対照実験の欠如は、LLMの性能を理解するための科学的進歩を妨げています。

第二に、 LLM研究における設計空間は典型的には高次元であり、実験の複雑さが増大します。この問題に対処するため、著者らはベイズ最適化や次元削減などの手法を用いて設計空間を効率的に探索することを提案しています。

最後に、著者らは、LLM は他の分野のモデルよりも多くのパラメーターを持つため、より多くの計算、フィードバックループ時間、およびトレーニングコストが必要になるとも述べています。

課題16: 再現性の欠如

大規模言語モデルのトレーニングと運用には十分な透明性と標準化が欠けている可能性があり、その結果の再現性と公平性に影響を及ぼす可能性があります。

实证结果可重复性对于验证科学主张和排除实验协议中的错误非常重要。在研究人员试图建立在不可重复结果基础上的研究时，可能会浪费资源。然而，在LLM 研究中存在两个可重复性问题：

训练的可重复性：涉及多个计算节点之间的并行处理。节点之间的调度和通信策略可能是非确定性的，这种变异性可能会影响最终结果，特别是在“非排序不变”算法（如随机梯度下降）中更为明显。此外，由于资金、隐私和法律限制，一些预训练数据集包含用户必须自己爬取的网页内容索引，而非使用静态的独立存档。因此，如果数据集收集者在他们下载数据集时所用的源发生了变化，可重复性就很容易受到损害。
由闭源API 提供的模型的生成可重复性：是商业LLM 模型的另一个特殊情况，它们通常在黑盒环境中使用，带来以下挑战：

服务提供者对模型拥有完全的控制权，可以引入未公开的更改，包括重新训练模型、修改参数或完全替换模型；
即使模型更新已经被通知，仍然存在关于是否会继续维持访问特定模型版本的不确定性；
即使将解码温度设置为零，API 模型还经常产生随机输出。有研究人员提供初步证据，证实了API 提供的模型性能的巨大变化。

因此，API 提供的模型通常是不可重现的。尽管可以依赖开源LLM模型来解决这个问题，但因为算力和资源的限制，目前看来这个方法并不完全可行。

まとめ

在利用LLM 技术时，我们不能完全将决策权交给机器，需要保持对技术的审慎和理性，不盲目依赖机器的意见，而是结合自身的判断和价值观做出决策。面对当前的挑战，我们需要建立合适的监管和伦理框架，引导其发展和应用。同时，我们也应该鼓励创新和研究，推动技术的进步，并确保其能够为社会进步做出积极贡献。

在不断追求技术进步的同时，我们不能忽视人类的智慧和价值。技术应该成为人类的工具，辅助我们取得更大的成就和进步。在面对LLM技术的挑战时，我们应该始终牢记人类的尊严和自主权，确保技术的应用始终服务于人类的福祉和发展。只有这样，我们才能真正实现技术与人类共同进步的目标。

总之，虽然LLM 的研究和应用目前取得了显著进展，但我们还有许多问题需要解决。期待更多的研究投入和跨学科合作，以推动LLM 技术的发展，在各个领域实现更深入、更广泛的应用，来改善我们的日常生活与工作。

HUOXIU