|
Xi Xiaoyao Tech Talk 原著者 | My IQ Dropped to the Ground、Python様々なAIGCの登場以来、大規模言語モデル(LLM)に関する研究と応用も次々と登場しています。これらの技術は、よりインテリジェントで正確、そして便利な情報やサービスを提供できる一方で、様々な問題やリスクももたらしています。 最近、研究者たちはチャットボット、計算生物学、コンピュータープログラミング、創造的作業、知識労働、法律、医学、推論、ロボット工学、社会科学などの分野を研究し、未解決の問題をまとめ、これらの問題に対する実現可能な解決策を提案しています。 さらに、緊急に取り組むべき課題は数多くあります。これらの問題については、より深い考察と議論が必要です。一緒に考えていきましょう。 論文タイトル: 論文リンク: LLMが直面する課題図1に示すように、LLMが直面する課題は主に「設計」「行動」「科学」の3つのカテゴリーに分けられます。このうち、LLMの「設計」は導入前の意思決定に関連し、「行動」の課題は導入プロセス中に発生し、「科学」の課題はLLM研究の学術的進歩を阻害しています。 課題1: 理解しにくいデータセットチームが事前トレーニング済みのデータの量を拡大するにつれて、事前トレーニング済みのデータセットの現在の規模では、個人がドキュメント全体を完全に読んで品質を確認することは困難です。 表 1 に示すように、事前学習済みのデータセットは、近年、サイズと多様性が急速に増大したため制御不能になっており、すべてのデータセットが公開されているわけではありません。
課題2:単語分割器への依存大規模言語モデルのトレーニングと操作は、多くの場合特定の単語セグメンテーションに依存するため、パフォーマンスと適応性に影響を及ぼす可能性があります。 トークン化とは、モデルへの入力として、単語または文字のシーケンスをより小さな単位(トークン)に分解するプロセスです。一般的なトークン化手法の一つにサブワードトークン化があります。これは、単語をサブワードまたはWordPieceに分解するものです。その目的は、モデルの語彙に含まれる希少語や語彙外の単語を効率的に処理しながら、シーケンスあたりのトークン数を制限して計算の複雑さを軽減することです。サブワードトークン化は通常、教師なし学習によって語彙を構築し、必要に応じてマージルールを使用してトレーニングデータのエンコード効率を向上させることができます。 しかし、単語分割の必要性にはいくつかの欠点もあります。
図2は、係り受けに基づく単語分割の典型的な欠点を示しています。単語分割器の学習プロセスには、学習前データセット全体を複数回スキャンするなど、複雑な計算が伴い、データセットへの依存関係が生じます。これは、多言語環境では特に困難になる可能性があります。さらに、言語モデルの埋め込み層Eと出力層Wは語彙サイズと関連しており、例えばT5モデルではモデルパラメータ全体の約66%を占めています。 この課題に対処するため、サブワードレベルの入力は、語彙サイズとシーケンス長のバランスが良好です。さらに、バイトペアエンコーディング(BPE)とWordPieceは、一般的に使用されているサブワード分割アルゴリズムです。バイトレベルの入力はサブワード分割の代替手段であり、サブワード分割器と組み合わせて使用することも、すべての可能なシーケンスをエンコードするための有限語彙を定義することで使用することもできます。いくつかの研究では、サブワードベースのモデルに匹敵する性能を持つバイトレベルの入力ベースの分割手法も提案されています。 課題3: 事前トレーニングのコストが高い大規模な言語モデルのトレーニングには膨大な計算リソースと時間が必要であり、それが広範な適用を制限する可能性があります。 LLMのトレーニングにかかる主なコストは事前トレーニングプロセスであり、数十万時間の計算時間、数百万ドルの費用、そして平均的なアメリカの家庭数軒分の年間エネルギー消費量に相当するエネルギーを必要とします。最近提案されたスケーリング定理は、モデルのパフォーマンスはモデルサイズ、データセットサイズ、そしてトレーニングに使用される計算量とべき乗則の関係を示すと仮定しています。この持続不可能な状況は「レッドAI」と呼ばれています。 これらの問題に対処するには、次の 2 つの研究アプローチがあります。
さらに、並列戦略、スタックモデル、増分バッチサイズ、最新の重み平均化といった研究分野もあります。これらの手法は、モデル性能の向上と計算コストの削減に一定の効果をもたらします。
課題4:経費の微調整大規模な言語モデルを微調整するには、通常、追加のリソースと時間が必要になり、迅速な導入に影響する可能性があります。 LLMの事前学習において、大規模かつ多様なテキストデータを使用すると、モデルが特定のタスクデータセットにおける分布特性を正確に捉えられない可能性があります。この問題に対処するために、事前学習済みモデルのパラメータを、ドメインまたはタスクに固有のより小規模なデータセットに適応させるファインチューニングが用いられます。これは、事前学習済みモデルを直接ファインチューニングするか、出力表現に学習可能なレイヤーを追加することで実現され、下流のタスクへの適応に非常に効果的です。 しかし、これにはいくつかの問題もあります。
最近の研究では、メモリ要件を削減する方法がいくつか提案されていますが、時間の複雑さは依然として課題であり、LLM モデルに適応した現在のコンピューティング インフラストラクチャでは、小型デバイスへの適用が制限されています。 特定のデータセットまたはドメインに適応するには、図 4 に示すように、パラメトリック効率的な微調整法 (PEFT) を使用できます。この方法では、モデル パラメータのごく一部のみが更新されます。
より大規模なモデル向けには、プレフィックスチューニングやプロンプトチューニングといった手法が導入されています。これらの手法は、トークン埋め込み(ソフトプロンプト)を入力に追加することで学習します。これにより、モデルの他のパラメータを変更せずに、微調整フェーズでトークン埋め込みを学習することができます。これらのソフトプロンプトはパラメータ数が少なく、より効率的に保存されます。さらに、ブラックボックスAPIアクセスのみを備えたモデルに適した代替手法も提案されています。 他にも、スケーリング層活性化、メモリ効率の高いゼロ次最適化、低ランク適応といった手法があります。これらの手法はメモリ計算量を改善しますが、時間計算量は依然として課題です。パラメータ効率の高い微調整手法を用いても、LLMの微調整には順方向伝播または逆方向伝播の計算が必要です。そのため、小型デバイスにおけるパーソナライゼーションなどのアプリケーションの可能性は限定されます。 課題5:高遅延推論大規模な言語モデルでは、入力の処理と出力の生成に時間がかかる場合があり、リアルタイム アプリケーションに影響を及ぼす可能性があります。 以前の研究によると、 LLM における推論の遅延が大きくなる原因は 2 つあります。
著者らはまた、 Transformersにおけるアテンション機構の2次スケーラビリティと、メモリフットプリント(サイズおよび/または帯域幅)の削減や特定の計算操作の高速化など、これらの課題に対処するための手法についても論じている。アテンション機構の計算を高速化する手法としては、ハードウェアを考慮した変更や、アテンション機構の高レベルな準2次近似などが挙げられる。
大規模な言語モデルをトレーニングおよび実行するためのさまざまなフレームワークとライブラリが設計されており、効率的な実装、メモリ要件の削減、分散コンピューティング戦略の使用を通じて計算コストの課題に対処しています。 課題6: コンテキストの長さの制限大規模言語モデルの処理範囲はコンテキストの長さによって制限される可能性があり、長いテキストを理解して生成する能力に影響を及ぼす可能性があります。 著者は、自然言語処理タスクを解決する上でのいくつかの重要な問題に焦点を当てています。
課題7:脆弱性を浮き彫りにする大規模言語モデルの応答はプロンプトの内容と形式によって大きく左右される可能性があり、安定性と予測可能性に影響を与える可能性があります。 プロンプトの構文(例:長さ、空白、例の順序)と意味(例:表現、例の選択、指示)は、モデルの出力に大きな影響を与えます。プロンプトの変更は、出力に大きな変化をもたらす可能性があり、これはプロンプトの脆弱性と呼ばれる現象です。図5は、異なるプロンプト方法を比較したものです。 シングルターンプロンプト法:これらの手法は、入力プロンプトを改善し、より良いシングルターン応答を実現します。中でも、コンテキスト内学習は、様々な自然言語処理タスクにおいて競争力のある結果を示しています。これは、LLMの内部動作を調整することなく、トレーニングデータの連結のみに依存して推論を通じて新しいタスクを学習するLLMの能力を指します。
マルチターンヒント法は、ヒントとその回答を反復的に接続することで出力を生成します。この方法には、「Ask Me Anything」、「Self-consistency」、「Least-to-Most」、「Scratchpad」、「ReAct」などがあります。
要約すると、プロンプトの設計と改善はLLMの出力に大きな影響を与えます。プロンプトを最適化するには広範な実験が必要であり、多くの質問方法とコントロール生成方法はさらなる研究と実践を必要とします。 チャレンジ8:幻覚大規模な言語モデルは現実を反映しないコンテンツを生成する可能性があり、その信頼性と使いやすさに影響を与える可能性があります。 ChatGPTのような会話型サービスが近年人気を集めていることは、日常的な質問応答におけるLLMの普及が進んでいることを示しています。しかし、これらのモデルの精度はますます重要になっています。なぜなら、テキストの流暢さゆえに検出が難しいエラーや、不正確な情報を生成しているように見えることがしばしばあるからです。図6に例を示します。 異なるタイプの錯視を区別するために、モデルによって提供されるプロンプト、例、参照のコンテキストなどのソースコンテンツに基づいて判断を下すことができます。この判断を通じて、本質的錯視と外的錯視を区別することができます。本質的錯視は、ソースコンテンツと論理的に矛盾する生成テキストを指します。一方、外的錯視は、ソースコンテンツによって提供される情報が出力結果を評価するのに不十分であるため、ソースコンテンツを通じて出力の正しさを検証できず、結果が不確実である状況を指します。外的錯視は必ずしも間違っているわけではありませんが、提供された情報の信憑性を確認できないため、ある程度は望ましくありません。本質的錯視と外的錯視の例を図7に示します。 従来のデコードアルゴリズムは、各サンプリングステップで均一なランダム性を導入し、幻覚を引き起こします。Dziriらは、応答生成における多様性の増加と幻覚の発生との間に正の相関関係があることを観察しました。ランダム性と多様性を導入する理由は、最も確率の高いシーケンスを生成すると、人間のコミュニケーションに比べて退屈で不自然なテキストになることが多いためです。Zhangらは、この課題を多様性と品質のトレードオフであると説明しました。 この課題は未解決のままですが、不確実性を考慮したビーム探索や確実なデコードなどのいくつかの方法では、デコードプロセス中の錯覚の生成を減らすことが試みられています。
課題9:行動の不一致大規模言語モデルの動作は人間の期待や意図と一致しない可能性があり、人間とコンピュータの相互作用の有効性に影響を与える可能性があります。 アライメント問題は、LLMの行動が人間の価値観、目標、期待と一致し、予期せぬ結果や否定的な結果を回避することを目的としています。図8に示すように、既存の研究は、不整合な行動を検出する手法と、モデルの行動を整合させる手法の2つのカテゴリに分けられます。 ヒューマンフィードバック付き事前学習(PHF)とは、事前学習段階で人間からのフィードバックを導入する概念です。研究者らは、フィルタリング、条件付き学習、非尤度、報酬重み付け回帰、アドバンテージ重み付け回帰の5つの手法を比較しました。その結果、条件付き学習は学習データにおいて最適なバランスを実現しましたが、プライバシー侵害のリスクや、一部のアプリケーションではLLMの安全性を損なう可能性があることが分かりました。 LLMはテキストコーパス内の次の単語を予測することで学習されるものの、テキスト作成者の目的、信念、意図といったプロアクティブな属性を推測・表現できると主張する人もいます。彼らはこの見解を裏付ける文献的証拠を引用し、LLMがコミュニケーション上の意図、信念、欲求をどのようにシミュレートするかを示しています。この仮説が正しければ、アライメントの問題はさらに深刻化し、新たな課題に直面する可能性があります。セキュリティの観点から見ると、このプロアクティブな動作は問題となる可能性があります。モデルが誤った信念や悪意のある意図を抱いたり、あるいは不一致な目標を追求したりする可能性があるためです。LLMの安全な適用を確保するためには、この動作を検出・防止するためのさらなる研究が必要です。 要約すると、LLMの行動が人間の価値観、目標、そして期待と整合していることを保証する上で、整合は課題となります。LLMの安全な適用を確保するためには、不整合や整合モデルの挙動を検出するためのさらなる研究が必要です。 課題10:時代遅れの知識大規模言語モデルの知識は時間の経過とともに古くなる可能性があり、新しい状況や新しい知識に対処する能力に影響を与える可能性があります。 事前学習中、 LLMが学習した現実世界の情報は不正確であったり、古くなっている可能性があります(例えば、政治指導者の交代をタイムリーに考慮できない可能性があります)。しかし、モデルの再学習にはコストがかかり、微調整中に古い事実を「忘れて」新しい事実を学習することは困難です。 既存のモデル編集技術は、孤立した知識の更新には効果が限られており、実世界のアプリケーションへの適用が制限されています。これらのアプリケーションでは、誤りや古くなった情報を1つだけ更新するだけでよく、関連する情報は、他の無関係な情報に影響を与えることなく、その更新を正確に反映する必要があります。 図 9 に示すように、この問題を解決するための一般的な方法は 2 つあります。
課題11:脆弱性評価大規模言語モデルのパフォーマンス評価はさまざまな要因の影響を受ける可能性があり、評価結果が不安定で信頼できないものになる可能性があります。 モデルはベンチマーク問題を容易に解くことができるかもしれませんが、問題のわずかな変化(あるいはプロンプトの変更)によって、全く逆の結果を生み出す可能性があります。人間とは異なり、言語モデルが他の関連問題を解決できるかどうかを直感的に判断することは容易ではありません。そのため、言語モデルの包括的な評価は困難です。様々な入力の弱点を特定するには、厳密なベンチマークが必要となるからです。評価プロセスは脆弱になりやすく、ベンチマークプロンプトや評価プロトコルをわずかに変更するだけで、全く異なる結果につながる可能性があります。 ベンチマーク評価の堅牢性を高めるため、包括的なベンチマークセットは、あらゆるシナリオとタスクにわたる評価を標準化し、可能な限り多くの能力とリスクを幅広くカバーすることを目指しています。SAT、LSAT、数学コンテストなど、人間が作成したテストをベンチマークするモデルも増加しています。 従来のベンチマークでは、モデルは質問のプロンプトや評価方法の選択に非常に敏感になる可能性があります。多くの場合、プロンプトの変更は標準化されていないため、モデルはそのような変更、例えばプロンプトに「はいまたはいいえで答えてください」が含まれているかどうかなどに特に敏感になります。Jainらは、より大規模でガイド付きの微調整されたモデルは、プロンプトの小さな変更に対してより敏感であることを発見しました。 課題12: 静的かつ手動でコンパイルされたデータに基づく実数値の評価評価が固定された手動で作成された基準に基づいている場合、大規模な言語モデルのパフォーマンスを包括的かつ公平に評価できない可能性があります。 LLM評価は通常、人間が記述した「グラウンドトゥルース」テキストに依存しますが、専門知識を必要とする分野では、そのようなテキストが不足していることがよくあります。モデルが特定の分野でベンチマークにおいて人間のパフォーマンスを上回るようになると、「人間レベル」のパフォーマンスとの比較が不足します。古いベンチマークデータセットは時代遅れになり、モデルの機能が向上するにつれて有用なシグナルを提供できなくなります。コミュニティは、モデル出力の人間による評価など、動的な評価への依存を減らしながら、新しい静的ベンチマークに継続的に適応する必要があります。 これらの問題に対処するための一つのアプローチは、 BIG-Benchベンチマークに定期的に新しいタスク(手続き評価を含むものを含む)を追加することです。以下の2つの研究分野は、人間の介入を必要とせずに動的な評価を可能にします。
課題13: 生成されたテキストと人間が書いたテキストの区別がつかない大規模言語モデルによって生成されたテキストは、人間が書いたテキストと非常に類似している可能性があり、誤情報の拡散などの問題につながる可能性があります。 言語モデルによって生成されたテキストを検出することの重要性は、誤情報の拡散、盗作、なりすまし、個人情報の盗難、そして自動化された詐欺を防ぐことにあります。しかし、言語モデルの流暢性が向上するにつれて、そのようなテキストの検出はより困難になります。 この問題を解決するには 2 つの方法があります。
事後検出手法では、エネルギーモデルを用いて本物のテキストと偽造テキストを区別する研究や、近似モデルを用いてモザイクサンプルを識別する研究が行われている。透かし技術では、生成されたテキストに暗黙的なパターンを用いてマークする。これらのパターンはコンピュータによってのみ認識可能であり、人間には知覚できないため、推論段階での検出が容易になる。 機械生成テキストの検出を防ぐには、言語モデルの特徴を除去するようにテキストを書き換える方法があります。研究者たちは、同義語を生成するようにモデルを訓練しました。これにより、言語モデルによって生成されたテキストを、ほぼ同じ意味を維持しながら、単語や文の構造を変えて書き換えることが可能になりました。この攻撃に対抗する一つの方法は、モデルによって生成されたテキストをデータベースに保存し、必要に応じて意味的に類似したテキストを取得することです。 さらに、研究者たちは、透かし入り言語モデルから複数のクエリを用いて透かしスキームを抽出し、それをモデルによって生成されたと誤分類された人間のテキストとして偽装する方法を研究しました。透かし検出の信頼性が不確実であるため、テキスト検出はさらに困難になります。 課題14: スケーリングでは解決できないタスク一部のタスクでは、単にモデルのサイズに頼るのではなく、より深く、よりターゲットを絞ったアプローチが必要になる場合があります。 LLMの能力は研究コミュニティを驚かせ続けています。例えば、MMLUベンチマークにおいて人間の予測者の期待を上回る高いパフォーマンスを達成しました。OpenAIはGPTのアップデート版であるGPT-3.5やGPT-4もリリースしており、GPT-4は様々なタスクにおいてGPT-3.5を大幅に上回る性能を示しました。これらの進歩は、現在のデータやモデルのスケーリングパラダイムが限界を克服できるかどうかという疑問を提起しています。 逆スケーリング(IS)とは、モデルサイズとトレーニング損失が増加するにつれてタスクのパフォーマンスが低下する現象です。反事実タスクなどの一部のタスクは、モデルやデータセットのさらなる拡張から恩恵を受けない場合があります。これらのタスクでは、一般的な推論プロセスを維持しながら特定の入出力条件が変更されると、LLMのパフォーマンスが低下します。研究者らは、LLMが一般的でない反事実条件に対してさらに悪化することを発見しました。これは「メモリのような効果」と呼ばれる現象です。著者らは、モデルサイズの拡大がメモリ効果の増加によるパフォーマンスの低下につながるのか、それともサイズを最適化した事前トレーニング手法によってデータセットが拡張され、異常な条件のタスクがより多く含まれるようになるのか、さらなる調査を求めています。 課題15: 実験設計の欠如大規模言語モデルの研究では実験設計が不十分である可能性があり、それが問題を特定して解決する能力に影響を与える可能性があります。 まず、表2に示すように、著者らは多くの論文で対照実験、すなわち一度に1つの因子を変化させる実験が不足していることを指摘しています。これはおそらく計算コストの高さが原因と考えられます。対照実験の欠如は、LLMの性能を理解するための科学的進歩を妨げています。 第二に、 LLM研究における設計空間は典型的には高次元であり、実験の複雑さが増大します。この問題に対処するため、著者らはベイズ最適化や次元削減などの手法を用いて設計空間を効率的に探索することを提案しています。 最後に、著者らは、LLM は他の分野のモデルよりも多くのパラメーターを持つため、より多くの計算、フィードバック ループ時間、およびトレーニング コストが必要になるとも述べています。 課題16: 再現性の欠如大規模言語モデルのトレーニングと運用には十分な透明性と標準化が欠けている可能性があり、その結果の再現性と公平性に影響を及ぼす可能性があります。 实证结果可重复性对于验证科学主张和排除实验协议中的错误非常重要。在研究人员试图建立在不可重复结果基础上的研究时,可能会浪费资源。然而,在LLM 研究中存在两个可重复性问题:
因此,API 提供的模型通常是不可重现的。尽管可以依赖开源LLM模型来解决这个问题,但因为算力和资源的限制,目前看来这个方法并不完全可行。 まとめ在利用LLM 技术时,我们不能完全将决策权交给机器,需要保持对技术的审慎和理性,不盲目依赖机器的意见,而是结合自身的判断和价值观做出决策。面对当前的挑战,我们需要建立合适的监管和伦理框架,引导其发展和应用。同时,我们也应该鼓励创新和研究,推动技术的进步,并确保其能够为社会进步做出积极贡献。 在不断追求技术进步的同时,我们不能忽视人类的智慧和价值。技术应该成为人类的工具,辅助我们取得更大的成就和进步。在面对LLM技术的挑战时,我们应该始终牢记人类的尊严和自主权,确保技术的应用始终服务于人类的福祉和发展。只有这样,我们才能真正实现技术与人类共同进步的目标。 总之,虽然LLM 的研究和应用目前取得了显著进展,但我们还有许多问题需要解决。期待更多的研究投入和跨学科合作,以推动LLM 技术的发展,在各个领域实现更深入、更广泛的应用,来改善我们的日常生活与工作。 |
ユニバーシティ・カレッジ・ロンドン、MetaAI、StabilityAI は共同で、大規模モデルの 16 の主要な課題をまとめた 70 ページのレビューを発表しました。
関連するおすすめ記事
-
AI の新たな火花 | 売却を余儀なくされ、CEO が辞任、幹部が退社 – またひとつの AI ユニコーンが困難に直面。
-
朝のニュース | 2023年11月21日(火)
-
シュレーディンガーのジレンマ: アウディ A8 はなぜレベル 3 の自動運転を放棄したのか?
-
エバーグランデなどのオンライン住宅販売:自力救済と自画自賛の試み
-
プロフィール | Wei Zhubin: 58.comのディープラーニング推論プラットフォームにおけるIstioベースのクラウドネイティブゲートウェイの実践
-
大規模なAIモデルが「試験」に殺到しているが、中国語試験では国産AIが依然として優勢で、漢文能力は受験者の95%を超えている。