編集者注: 大規模言語モデル (LLM) 評価の分野の研究が深まるにつれ、LLM を効果的に評価するために極めて重要な評価プロセスの問題をより明確に理解できるようになりました。
本稿では、機械学習モデル評価における一般的な課題を考察し、LLM（低レベルモデリング）が本分野にもたらす重要な課題を深く掘り下げます。評価手法については、直接評価指標、補助的なモデルベース評価、そしてモデルベース評価に分類します。また、複雑な評価指標を注意深く検討し、細部にまで注意を払うことの重要性を強調します。
翻訳はこちらです。お楽しみください!

著者 | NLPurr

編纂者：岳陽

01 はじめに

機械学習モデル評価プロセスにおける2つのよくある問題

2.1 データ漏洩
2.2 テストサンプルの範囲
2.3 テスト評価サンプルは偽相関です。
2.4 データセットの分割とフレージング
2.5 ランダムシード
2.6 適合率と再現率のトレードオフ
2.7 説明されていない決定

03 大規模モデル評価の構成要素

3.1 評価データセット
3.2 モデル出力
3.3 サンプルデータまたはモデル出力に対して何らかの形式の変換を実行します。
3.3.1 ループ変換
3.3.2 連鎖変換
3.3.3 アトミック出力
3.3.4 制約付き出力
3.4 グラウンドトゥルース
3.5 評価媒体
3.5.1 直接評価指標
3.5.2 間接的または分解されたモデルベースの評価
3.5.3 モデルベース評価
3.6 パフォーマンスレポート

04 要約

現在、モデリング、スケーリング、一般化の技術は、それらを評価・テストする手法よりも速いペースで発展しています。このため、モデルの過小評価と、その能力の過大評価や誇張が生じています。AIモデルの能力は驚異的ですが、これらの能力がどのようなものか、あるいはAIモデルがこれらの分野でどの程度優れたパフォーマンスを発揮するかを正確に判断するツールがなければ、AIモデルはあらゆるシナリオにおいて優れたパフォーマンスを発揮できると信じ続けることになるかもしれません。

01はじめに

モデル評価に関する人気のある論文が発表されるたびに、私たちはいつも同じ疑問に悩まされます。それは、それが優れた評価方法であるかどうかをどのように判断するかということです。

残念ながら、答えを得るのは容易ではありません。実際、たとえ答えにたどり着いたとしても、信頼できない可能性が高いと言えるでしょう。単純な分類モデルでさえ、評価とベンチマークは非常に複雑になっています。率直に言って、小規模な生成モデルや長文生成に関連する評価問題の解決策はまだ見つかっていません。そして突如、大規模で多目的な言語モデル、いわゆる「基礎モデル」が大量に出現する事態に直面することになります。

今では誰もが、綿密に処理された学術データセットにアクセスでき、統計をまとめたり、関連データ、結果、その他のコンテンツを提示したりするために利用されています。しかし、インターネット全体からデータをクロールする際に、これらのデータセットの情報が既にトレーニングセットに漏れている可能性が非常に高いです。さらに、機械学習の専門家である私たちは、基本的な統計トレーニングを受けていない可能性があり、それが技術的な手法に不完全な部分をもたらす可能性があります。

機械学習モデル評価プロセスにおける2つのよくある問題

大規模モデルの評価プロセスには、常にいくつかの共通の問題が伴います。この記事を執筆するにあたり、以下の問題は過去の多くの機械学習モデルにも存在していたため、誰もがこれらの問題の存在を前提としているものと想定しています。

2.1 データ漏洩

テストデータセットの情報がトレーニングデータセットに漏れてしまうことがあります。これは特に大規模言語モデル（LLM）においてよく見られる現象です。データセットの具体的な詳細はしばしば詳細に記述されておらず、場合によっては機密情報となることもあるためです。

2.2 テストサンプルカバレッジ

テストサンプルのカバレッジも考慮すべき問題です。評価データセットは、特定のタスクにおけるすべての評価手法を完全に網羅できないことがよくあります。これは、精度の問題、変動性の問題、サンプルサイズの問題、あるいは堅牢性の問題につながる可能性があります。

翻訳者注:
精度の問題とは、評価プロセス中に取得されたモデルの精度が不十分であったり、期待される結果と異なる状況を指します。
変動性の問題とは、複数の評価において、異なるデータセットまたは評価条件下で同じモデルによって生成される結果に一貫性がないことです。
効率的なサンプルサイズの問題は、評価に使用されるサンプルサイズがモデルの動作を完全に表すのに十分ではない可能性があるさまざまな状況を指します。
堅牢性の問題とは、さまざまなデータ分布、ノイズ、または入力の変動に直面した場合のモデルのパフォーマンスの不安定性を指します。

2.3 テスト評価サンプルは偽相関です。

本質的に無関係な、あるいは重複したテストサンプルが存在します。多くのタスク評価セットには「近道」となる解決策が含まれていることが分かっています。そのため、これらのテストサンプルは特定のタスクを適切に評価できると想定されるかもしれませんが、実際にはそうではない場合が多いのです。

2.4 データセットの分割とフレージング

評価データセットの分割は非常に困難です。多くの評価データセットには同じ質問に対する異なる回答が含まれており、意図しないデータ漏洩につながる可能性があります。例えば、人間中心のタスクでは、ユーザーを分離することなく、サンプルのみに基づいて評価データセットが分割されることがよくあります。

2.5 ランダムシード

ニューラルネットワークの出力は通常、乱数シードにわずかに依存します。1回の推論実行に基づくレポートは不正確な結果につながり、問題の本質を完全に反映できない可能性があります。

2.6 適合率と再現率のトレードオフ

多くの人が正確性を重視しますが、偽陽性と偽陰性の影響はタスクによって異なることは周知の事実です。例えば、機械学習モデルを情報検索に用いる場合、偽陽性や偽陰性は許容できるかもしれません。しかし、同じモデルを受動的な健康モニタリングに用いると、偽陰性は許容できなくなります。

2.7 説明されていない決定

機械学習の分野では、データを保持するか破棄するかについて多くの判断が求められます。例えば、音声分野では、ある閾値よりも短いデータサンプルは、有効な音声とみなされない可能性があるため、論文やその他の資料で結果を提示する際に破棄されることがよくあります。これらの閾値を理解し解釈することは、論文の査読や議論において重要であるだけでなく、他の人が実験結果を再現できるようにするためにも不可欠です。

03大規模モデル評価の構成要素

機械学習モデル評価プロセスにおける一般的な課題を理解したところで、LLM評価の構成要素について説明しましょう。大規模言語モデル（LLM）評価は、評価データセット、モデル出力、サンプル/出力変換（サンプルデータまたはモデル出力の変換）、グラウンドトゥルース、評価媒体、パフォーマンスレポートの6つの部分に分けられます。

3.1 評価データセット

評価データセット（または評価セット、evalセット）は、モデルを評価するために用いられるテストサンプルです。評価データセットの構築と使用には複数の方法があり、それぞれの方法には独自の問題があります。

評価に同様のデータセットを使用すると、他の問題が発生します。

プロンプトの曖昧性：プロセスにはプロンプトが関与するため、プロンプト自体の潜在的な曖昧性を考慮する必要があります。評価データセットは「指示言語」や「プロンプトによる追加」を一切使用せずに使用されていますが、テストデータサンプルは少なくとも一貫性があります。（訳注：指示言語：生成モデルを使用する場合、何らかの指示言語を入力することで、モデルが特定の種類の回答を生成したり、特定のタスクを完了したりするように誘導することができます。これらの指示には、質問の具体的な要件、対話の背景情報、期待される回答形式などがあります。プロンプトによる追加：これは、モデルへのテキスト入力に追加のプロンプトを追加することで、特定の回答を生成したり、特定のタスクを実行したりするように誘導することを指します。これは、特定のキーワード、フレーズ、または質問を入力に直接追加することで、モデルの特定の注意と創造性を刺激することによって行われます。）
追跡不可能性:データ漏洩の問題に戻ると、この問題は常に存在していましたが、現在では、どのデータがモデルに入力されるかを正確に知る人はいないため、複数のチェックを伴う最も誠実な評価であっても、評価サンプルデータがトレーニングデータセット内にあることを保証することはできません。

評価データセットは次の形式を取ることができます。

1. 事前キュアされたデータセット：これらの事前キュアされた評価データセットは、さまざまな標準化されたテストから取得されており、そのほとんどはモデルではなく人間向けに設計されています。さらに、これらのデータセットには記憶ベースの質問が含まれている可能性があり、大規模言語モデル（LLM）の理解能力の評価であると誤って解釈される可能性があります。（記憶ベースの質問に関して、翻訳者は次のように述べています。言語モデルの場合、正確に記憶して正しい答えを提供できる場合、実際には質問の文脈と意味を深く理解していなくても、質問を理解していると誤って認識される可能性があります。したがって、大規模言語モデル（LLM）を評価する際には、このような記憶に偏った質問が誤った評価結果につながる可能性があることに注意することが重要です。）

この患者はどんな病気ですか？医療検査からの大規模オープンドメイン質問応答データセット[1]

2. インターネットからクロールされた評価データセット：これらの評価データセットは、インターネット上で特定のタグを検索し、それらのタグをサンプルのラベルとして使用することで作成されます。また、アノテーション専門家が手動でラベル付けすることも可能です。これらの評価データセットに含まれるサンプルは、ベースモデルのトレーニングセットに既に存在している可能性があるため、これらのデータセットのみを評価に利用することは一般的に推奨されません。

TriviaQA：読解力評価のための大規模遠隔教師付きチャレンジデータセット[2]

3. 手動でキュレーションされた評価セット：これらのテストセットは、データ漏洩を防ぐためによく使用されます。人間は評価のために多くの独自の評価データセットを作成できますが、このようなデータセットには、サイズが小さい、作成・更新が難しいなどの欠点もあります。

「コード上で訓練された大規模言語モデルの評価」[3]で提案されたHumanEvalデータセット

4. ファジング評価セット：これは、変動性に対するモデルの挙動をテストするために設計された、既存の評価データセットのバリエーションまたは拡張です。前述の変動性は、意図的な敵対的変化である場合もあれば、学習データの範囲を超えたラベルを導入して堅牢性をテストする場合や、単に意味のある同等のサンプルを作成する場合にも使用されます。

例えば、PromptBenchで提案されているように、敵対的なプロンプトと入力のセットは、元の評価サンプルの補足または代替として使用することができます。[4]

5. 評価者の直感、経験、知識に基づいて評価ケースをランダムに選択する：会話形式でモデルを評価します。これらのサンプルは正確である可能性が高いものの、バイアスの影響を受ける可能性があります。通常、評価者は評価する問題の解決策を知っている必要があるため、いわゆる「人間の想像力の崩壊」につながる可能性があります。これは、評価者が固定されたテストパスに限定され、多様性に欠ける状態です。

「OpenAssistant会話 - 大規模言語モデルのアライメントの民主化」[5]のシングルターンまたはマルチターンの対話評価モデル

3.2 モデル出力

私たちが提案するソリューションのほぼすべてに、識別出力を使用して生成モデルを評価するという深刻な問題があります。

モデルの出力は、(a) 正しい回答を得るために必要なプロンプトと (b) 求められる回答に大きく依存します。例えば、モデルに0または1のラベルを付与するよう指示した場合と、テキストラベル（例：スパムまたは非スパム）を付与するよう指示した場合では、結果が異なる場合があります。また、モデルに回答を直接出力・抽出するよう指示した場合も、複数の選択肢がある場合とは異なる結果になる可能性があります。

回帰ベースのモデル出力はスケーラビリティに欠ける場合があります（つまり、回帰モデルの出力は、異なるコンテキストや評価尺度間で容易に調整または直接比較できない可能性があり、モデルを異なる背景に適用する際には慎重な比較と検討が必要です）。そのため、回帰モデル出力の標準偏差と平均は変更できます。例えば、製品を0から10で評価するモデルがあり、10が最高評価を表すとします。比較や分析を容易にするために、この評価を0から1の範囲に変換したい場合があります。しかし、評価を単に10で割るだけでは、異なる尺度間で一貫性を保つには不十分です。

3.3 サンプルデータまたはモデル出力に対して何らかの形式の変換を実行します。

モデルの入力または出力の変換は、大きく分けて 4 つのタイプに分類できます。

3.3.1 ループ変換

ループ変換は、通常、この考え方に従います。モデルの出力と、現在の回答に対する何らかの評価（同じモデル、別のモデル、または人間による評価）を組み合わせ、それをモデルにフィードバックすることで、目的の結果が得られるまで繰り返します。このアプローチの一例は、自己批判モデルと呼ばれます（モデルの出力と評価を反復的に組み合わせることで、結果を継続的に最適化します）。

Reflexion: 言語強化学習を備えた言語エージェントは、3つの異なるモデルを利用したReflexionのモジュールフレームワークを開発しました。テキストとアクションを生成するアクターモデル、アクターによって生成された出力を評価する評価モデル、アクターが自分自身を改善できるように口述強化プロンプトを生成する自己反省モデルです。[6]

3.3.2 連鎖変換

連鎖型変換では、モデル入力 → 出力 → モデル入力という一連のパス全体にわたって、測定可能な評価指標が欠如しているのが一般的です。これらの連鎖（...->モデル入力 → 出力 → モデル入力->... という連鎖）は通常、事前に定義されており、辿るべきパスが一定数存在します。

3.3.3 アトミック出力

このアプローチでは、モデルの出力を原子要素に分解し、手動で評価したり、ルールベースシステムや人工知能を用いて評価したりします。モデルの出力は、個別に評価可能な原子要素に分解され、重み付けされて結合され、評価結果が得られます。

3.3.4 制約付き出力

このアプローチでは、対数確率（GPT3.5/GPT4 APIでは利用できません）やその他の内部制約を用いることで、モデルのレスポンスに事前に決定されたトークンまたは許可されたトークンのみが含まれるようにします。これにより、モデルによって生成される出力の範囲が特定の制約に適合するように制限されます。

3.4 グラウンドトゥルース

この側面については多くの説明は必要ありませんが、特に評価シナリオにおいてGround Truthを検討する際には、いくつか注意すべき点があります。（訳注：Ground Truthとは、一般的に正解または参照基準とみなされるデータセット、アノテーション、またはラベルを指します。アルゴリズムのトレーニングと評価のベンチマークとして機能し、モデルの精度とパフォーマンスを検証するために使用されます。ただし、Ground Truthは主観的、不確実、または議論の余地がある可能性があるため、評価と適用には慎重な取り扱いが必要であることに注意することが重要です。）

まず、グラウンドトゥルースは偏り、不確実性、あるいは大きく乖離する可能性があります。人間が行うタスク（エッセイの好みなど）を扱う場合、不一致はアノテーション曲線として考慮されるのではなく、平均化されることがよくあります。（注：アノテーション曲線とは、タスクに手動でアノテーションを付与する際に、特定のサンプルに対して異なるアノテーターが付与した異なるアノテーションを視覚的に表現したものです。これは、同じタスクにおける特定の入力に対して、異なるアノテーターが付与したアノテーション間の差異の度合いを表します。）したがって、真の分布比較を得るには、モデルの出力を複数回比較する必要があります。

大規模なモデルを評価するプロセスでは、一部の評価にグラウンドトゥルースが含まれている場合と含まれていない場合があることを認識することが重要です。

グラウンドトゥルースの 3 つの潜在的な落とし穴を覚えておいてください。

● グラウンドトゥルースは循環的または連鎖的な変換に含まれています。

● プロンプトをガイドまたは調整するコンテキストまたは少数ショットの学習例の一部にグラウンドトゥルースが含まれています。

● グラウンドトゥルースは評価指標間の相関関係を構築するために使用される場合がありますが、実際にモデルのパフォーマンスを評価する際の比較には直接使用されません。

3.5 評価媒体

私の見解では、評価メディアは 3 つの異なるカテゴリに分けることができます。

3.5.1 直接評価指標

「教科書だけで十分」の評価はHumanEvalとMBPP[7]を用いて実施された。

まず、「直接評価指標」というカテゴリーがあります。これは、人工知能分野で長年広く使用されてきた伝統的な指標です。精度やF1スコアなどの指標はこのカテゴリーに属します。通常、このアプローチでは、モデルから単一の出力を取得し、それを参照値と比較します。参照値は、制約や必要な情報の抽出によって実現できます。（訳者注：このアプローチでは、モデルは対話応答、カテゴリラベル、その他のコンテンツなどの出力を生成します。次に、この出力を基準値と比較することで、モデルのパフォーマンスまたは精度を評価します。比較は制約を通じて行うことができます。たとえば、多肢選択式の質問への回答を評価する場合、制約は選択された文字の一致や完全な選択肢の一致などです。モデルの出力を基準回答と一致させることで、モデルが正しい結果を生成したかどうかを判断できます。もう1つの比較方法は、必要な情報を抽出することによって行います。たとえば、対話生成タスクでは、モデルによって生成された文や応答から特定の情報を抽出し、それを基準情報と比較する場合があります。抽出された情報を比較することで、モデルの出力が期待どおりかどうかを判断できます。）

「直接評価指標」の評価は、アドホックな人間による評価、前処理済みの特殊データセット、または直接的なアノテーションを通じて行うことができます。例えば、直接評価指標の一つとして、モデルの精度をグラウンドトゥルースと直接比較することが挙げられます。多肢選択式解答を評価する場合、選択肢の文字、選択肢の完全性、または選択肢の分布を一致させることで比較を行うことができます。これらの評価方法が結果にどのような影響を与えるかについて詳しくは、こちらの記事「Open LLMリーダーボードで何が起こっているのか？」[8]をご覧ください。

3.5.2 間接的または分解されたモデルベースの評価

同じモデルに基づく採点基準。《TinyStories：言語モデルはどれだけ小さくても一貫した英語を話せるか？》[9]

「人間の評価者を支援するための自己批判モデル」[10]

G-EVAL: Better Human Alignmentを備えたGPT-4を使用したNLG評価では、評価にフォーム入力を使用し、その後人間の好みとの相関を計算します。[11]

「LLM-EVAL:大規模言語モデルによるオープンドメイン会話の統合多次元自動評価」[12]におけるコンポーネントベースのモデル駆動型評価スコア

2つ目のアプローチは「間接的または分解ヒューリスティックス」と呼ばれます。このアプローチでは、メインモデルによって生成された回答を評価するために、より小さなモデルが使用されます。これらの小さなモデルは、微調整されたモデル、または生の分解モデルのいずれかです。基本的な考え方は、より大きなモデルが評価において優れたパフォーマンスを発揮するタスクにおいて、より優れたパフォーマンスを発揮するより小さなモデルを選択することです。これらの小さなモデルの出力は弱スコアとして扱われ、それらを組み合わせて生成された出力の最終的なラベルまたは評価を提供します。この間接的な評価方法により、特にエッセイの好感度を判断するようなタスクにおいて、モデルのパフォーマンスをより繊細に評価できます。これらのモデルはある程度の変動性をもたらしますが、通常は回帰タスク用にトレーニングされ、特定の目的に合わせて微調整されていることに注意することが重要です。（変動性について：モデルまたはデータの評価において、変動性とは異なるサンプルまたはインスタンス間の差異の度合いを指します。変動性が高いということは、サンプル間に有意な差異があることを意味し、変動性が低いということは、サンプルが比較的一貫しているか類似していることを示します。）

実際には、この評価方法と次の評価方法の境界線は、特に結果への影響の程度や、誤差や不確実性の可能性に関して、いくぶん曖昧です。そのため、より良い評価基準に関するご提案をお待ちしております。

3.5.3 モデルベース評価

Sparks AGIでは、応答を参照のグラウンドトゥルースと比較することで評価が行われます。これにはグラウンドトゥルースも含まれており、おそらくモデル駆動型評価の中で最も問題の少ない形式の一つであることに留意してください。[13]

論文「Bring Your Own Data! Self-Supervised Evaluation for Large Language Models」では、ファジー入力サンプルのモデル出力不変性に基づいて自己教師評価を行っています。[14]

「教科書だけで十分」の評価はGPT4[15]を使用して実施されました。

言語モデルからAIの側面について質問してください。（主に）彼らが知っていることを知る。[16]

3つ目の評価方法は「モデルベース評価」と呼ばれます。この方法では、モデル自体が最終的な評価スコアまたは結果を提供します。しかし、これにより追加の変数も導入されます。モデルがグラウンドトゥルース情報にアクセスできる場合でも、評価指標自体がスコアリングプロセス中にランダムまたは不確実な要因を導入する可能性があります。よくある評価の質問は、「生成された出力（O）はグラウンドトゥルース回答（G）と類似しているか？」です。この質問への答えは、モデルの出力のランダム性だけでなく、評価指標自体の変動性にも依存します。

現在の大規模モデルの評価方法では、評価プロセス中にグラウンドトゥルースが含まれる場合と除外される場合とがあることを知っておくことは重要です。

これにより、次の 2 つのモデルベースの評価方法が生まれました。

[グラウンドトゥルースデータを含める]には、モデルが出力をグラウンドトゥルースデータと比較し、肯定的または否定的な回答を返す必要があります。これは、モデルに2つの文を与え、それらを「含意」と「言い換え」、あるいはその両方としてラベル付けするように要求しているとも考えられます。（訳者注：含意とは、ある文が別の文から推論できるかどうかを判断することを指します。このタスクでは、2つの文が与えられた場合、モデルは最初の文が2番目の文から導き出された真の情報であるかどうかを判断する必要があります。例えば、文A：「犬が公園でボールを追いかけている」と文B：「犬が屋外で運動している」の場合、含意の判断では、文Aは公園で運動している犬について言及しているのに対し、文Bは…であるため、文Aは文Bに含意されていると判断されます。）テキストには屋外で遊ぶ犬について言及されており、2つの間には類似点があります。書き換えとは、元の文と同じまたは類似の意味を持つ別の形式で文を言い換えることを指します。このタスクでは、モデルは与えられた文と意味が近い書き換え文を生成する必要があります。例えば、「私はアイスクリームを食べるのが好きです」という文は「私はアイスクリームを食べるのが大好きです」と書き換えられる可能性があります。表現は異なりますが、意味は似ています。モデルベースの評価タスクには、含意判定と書き換え生成の両方が含まれる場合があります。モデルは、2つの文間の含意関係を同時に判定し、与えられた文と意味が近い書き換え文を生成する必要があります。この種のタスクは、含意判定と書き換えの要素を組み合わせ、モデルの意味理解と言語生成能力を総合的に評価することを目的としています。

グラウンドトゥルースデータを除外するには、モデルが自身の出力を直接「判断」する必要があります。この場合、通常、小さなモデルの出力は大きなモデルに入力され、そのモデルは回答の正確性を評価します。評価は、簡潔なフィードバック、リッカート尺度による回答、またはその中間の任意の方法で行うことができます。すべての論文が、大きなモデルを用いて小さなモデルを評価することを支持しているわけではないことに注意することが重要です。このアプローチは、前者よりも疑問視されています。

このような状況に対する通常の説明は、「人間がこの種の作業を行う一般的な方法でもある」というものです。したがって、GPT-4がより人間的な評価を行い、従来のバイナリラベル評価方法の使用を避けることを期待しています。例えば、『教科書だけでいい』[7]の著者たちは、これが正しい評価方法だと考えています。（訳者注：例えば「正しい」「間違っている」「はい」「いいえ」など。ただし、このようなバイナリラベルは、より詳細な情報を提供したり、複雑な状況を区別したりできないため、評価の包括性と正確性を制限する可能性があります。評価、グレード、度合い、テキストコメントなど、より柔軟な評価方法を使用できます。）

3.6 パフォーマンスレポート

大規模モデル評価の分野でパフォーマンス指標を提示する際には、慎重さが求められます。これらの数値は、データセットの分割やその他の微妙な差異など、多くの要因の影響を受ける可能性があります。理想的には、異なるプロンプトとサンプルを使用し、各サンプルに対して複数のテストを実行する必要があります。しかし、このアプローチは非常に多くのリソースを消費し、既存の評価フレームワークに大幅な変更を加える必要があります。したがって、ある程度の懐疑心を持ち、評価データを慎重に扱う必要があります。

大規模言語モデル（GPTなど）が登場する以前、機械学習分野では、テストサンプルごとに異なるランダム化モデルを用いて複数のテストを実行することが多かった。しかし、GPTモデルの推論プロセスでは乱数シードを制御できないため、少なくとも3回のテストを実行することが推奨されている。現在では、性能評価指標の平均と標準偏差は、評価結果を正しく解釈するために非常に重要になっている。p値はやや複雑になる可能性があるが、数点の相違点と単一の推論結果のみに基づいてモデルの大幅な改善を主張するのは、さらに問題が多い。

考慮すべきもう一つの側面は、パフォーマンス評価レポートの詳細レベルです。多くの学術データセットは本質的に様々な問題を抱えており、各テストサンプルの具体的な評価目的を考慮せずに、これらの大規模なマルチタスクデータセットを平均化すると、この問題はさらに悪化します。現在、ほとんどの評価レポートは、サンプルレベルでの詳細な分析は言うまでもなく、タスクベースの評価でさえ十分な詳細を欠いています。

Mosaic 30B（2023年6月22日リリース）では、この問題をさらに探求するために、ベンチマークをテーマ別グループに統合するという概念が提案されました。（ベンチマークをテーマ別グループに統合することに関して、翻訳者は以下の注記を追加しています。「このアプローチは、特定のトピックまたはドメインにおけるモデルのパフォーマンスをより深く理解し、より的を絞ったフィードバックと改善提案を提供するのに役立ちます。例えば、言語モデルの場合、テキスト生成、質問応答、読解などのタスクのベンチマークをテーマ別グループに統合することで、これらの関連タスクにおけるモデルの全体的なパフォーマンスを評価できます。」）

最後に、「プロンプトの微調整」という概念について議論する必要があります。多くの研究論文では、タスク固有のプロンプトを用いてテストセットの結果を示しています。このアプローチは理論的には妥当に思えますが、一般ユーザーが直面する現実世界の問題を解く際のモデルパフォーマンスを信頼性を持って測定することはできません。プロンプトをパイプラインの補助的な要素として使用することが目的であれば、タスクとモデルに適したプロンプトを使用することは許容されます。しかし、ユーザー向けのエンドツーエンドモデルの場合、特に汎用モデルでは、毎回プロンプトを使用することがすべてのユーザーにとって現実的または実現可能ではない可能性があることを認識することが重要です。

04要約

言語モデル（LLM）評価の分野において、私たちはモデル評価の信頼性に関わる複雑さへの対処に常に苦慮してきました。実際、モデル評価とベンチマークは常に困難を伴い、大規模で多目的なモデルの出現はこの複雑さをさらに悪化させています。データ漏洩、カバレッジの制限、評価サンプルがタスクに無関係な状況、データ分割の難しさなどは、いずれもモデル評価における課題の一因となっています。さらに、適合率と再現率のトレードオフ、そしてグラウンドトゥルースの欠如も事態をさらに複雑化させています。本稿では、機械学習モデル評価における一般的な問題を考察し、LLMがこの分野にもたらす重要な課題を深く掘り下げます。評価手法を直接評価指標、補助的なモデルベース評価、そしてモデルベース評価に分類し、それぞれのアプローチ間の微妙な違いを明らかにすることを目指します。複雑なパフォーマンス指標を批判的に検討し、細部の重要性に注意を払う必要があります。また、プロンプトファインチューニングに関連する問題についても考察し、現実世界のユーザーインタラクションシナリオを考慮する必要性を改めて認識させます。大規模モデル評価の分野を深く掘り下げていくと、LLM を効果的に評価するには、これらの複雑さを包括的に理解することが非常に重要であることがわかります。

終わり

参考文献

1.https://arxiv.org/pdf/2009.13081v1.pdf

2.https://arxiv.org/pdf/1705.03551.pdf

3.https://arxiv.org/abs/2107.03374

4.https://arxiv.org/pdf/2306.04528.pdf

5.https://arxiv.org/pdf/2304.07327.pdf

6.https://arxiv.org/pdf/2303.11366.pdf

7.https://arxiv.org/pdf/2306.11644.pdf

8. https://huggingface.co/blog/evaluating-mmlu-leaderboard

9.https://arxiv.org/pdf/2305.07759.pdf

10.https://arxiv.org/pdf/2206.05802.pdf

11.https://arxiv.org/pdf/2303.16634.pdf

12.https://arxiv.org/pdf/2305.13711.pdf

13.https://arxiv.org/pdf/2303.12712.pdf

14.https://arxiv.org/pdf/2306.13651.pdf

15.https://arxiv.org/pdf/2306.11644.pdf

16.https://arxiv.org/pdf/2207.05221.pdf

この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。

オリジナルリンク:

https://nlpurr.github.io/posts/case-of-llm-evals.html

HUOXIU

大規模言語モデル評価の包括的ガイド：評価プロセス、方法、および一般的な問題

01はじめに

機械学習モデル評価プロセスにおける2つのよくある問題

2.1 データ漏洩

2.2 テストサンプルカバレッジ

2.3 テスト評価サンプルは偽相関です。

2.4 データセットの分割とフレージング

2.5 ランダムシード

2.6 適合率と再現率のトレードオフ

2.7 説明されていない決定

03大規模モデル評価の構成要素

3.1 評価データセット

3.2 モデル出力

3.3 サンプルデータまたはモデル出力に対して何らかの形式の変換を実行します。

3.3.1 ループ変換

3.3.2 連鎖変換

3.3.3 アトミック出力

3.3.4 制約付き出力

3.4 グラウンドトゥルース

3.5 評価媒体

3.5.1 直接評価指標

3.5.2 間接的または分解されたモデルベースの評価

3.5.3 モデルベース評価

3.6 パフォーマンスレポート

04要約

参考文献

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

01はじめに

機械学習モデル評価プロセスにおける2つのよくある問題

2.1 データ漏洩

2.2 テストサンプルカバレッジ

2.3 テスト評価サンプルは偽相関です。

2.4 データセットの分割とフレージング

2.5 ランダムシード

2.6 適合率と再現率のトレードオフ

2.7 説明されていない決定

03大規模モデル評価の構成要素

3.1 評価データセット

3.2 モデル出力

3.3 サンプル データまたはモデル出力に対して何らかの形式の変換を実行します。

3.3.1 ループ変換

3.3.2 連鎖変換

3.3.3 アトミック出力

3.3.4 制約付き出力

3.4 グラウンドトゥルース

3.5 評価媒体

3.5.1 直接評価指標

3.5.2 間接的または分解されたモデルベースの評価

3.5.3 モデルベース評価

3.6 パフォーマンスレポート

04要約

参考文献

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

3.3 サンプルデータまたはモデル出力に対して何らかの形式の変換を実行します。