著者 | マヤ・パブロヴィッチ 編纂者:岳陽 本稿は、LLMを用いたデータアノテーションに関する研究を、簡潔かつ分かりやすく技術的にまとめることを目的としています。LLM¹を用いたテキストデータへのアノテーションに関する現状の展望と、この技術を実際に活用する際の考慮事項について考察します。 記事の概要:
出典: Pexels 01 データ注釈に LLM を使用する理由高品質なラベル付きデータは、様々な機械学習モデルの学習と評価に不可欠です。現在、データラベル付けの最も一般的な方法は、クラウドソーシング(Amazon Mechanical Turkなど)を利用するか、専門知識が必要な場合はドメインエキスパートを雇用することです。 これらの手法は非常に高価で時間もかかるため、多くの企業がデータアノテーションにLLMを活用する可能性を検討しています。予算が限られている企業では、自社の要件に合わせてカスタマイズされた専用モデルを構築することで、データアノテーションのニーズを満たすことができます。医療などの機密性の高い分野では、LLMアノテーションをゼロから作成するのではなく、ドメインエキスパートにレビューと改良を依頼することで、アノテーションプロセスを加速できます。 さらに、カーネギーメロン大学と Google の研究者は、注釈付けのプロセス中に人間の注釈者を心理的危害 (ヘイトスピーチなど) から保護し、データ内の視点の多様性を確保することも、業界がデータ注釈付けに LLM の使用を推進する動機の 1 つであることを発見しました。 02 現在の業界主流の見解LLMが優れたデータアノテーションツールとなる可能性については、様々な意見があります。その可能性について楽観的な研究もあれば、懐疑的な研究もあります。表1は、関連する12の研究方法と結論をまとめたものです。これらの研究結果の出典は、本稿末尾の参考文献に記載されています。 表1 — z: ゼロショット、f: 少数ショット、z&f: ゼロ&少数ショット、en+: 主に英語のコーパス | 画像は原著者提供 2.1 モデル²表1のモデルファミリー列の要素数を見ると、ほとんどの研究が1つのモデルファミリーのみをテストしていることがわかります。使用された具体的なモデルを見ると、研究7を除くほぼすべての研究でGPTが使用されていることがわかります。研究[7]は、オープンソースのLLMの探索に焦点を当てた唯一の研究です(表2を参照)。 表2 | 画像は原著者提供 2.2 データセット表1の「データセット数」列は、本研究でデータアノテーションに使用したデータセットの数を示しています。研究機関によって課題が異なるため、使用するデータセットも異なります。ほとんどの研究は複数のデータセットで性能を検証しました。研究[3]は、20種類の異なるデータセットでLLMの分類性能を検証した点で際立っています。データセットの詳細は、以下の表3をご覧ください。最も関連性の高い研究を見つけるのに役立つはずです。 表3 | 画像は原著者提供 ラベル付けされたデータがまだない場合:対象タスクに類似した既存のラベル付けされたデータセットを検索して確認し、 LLM を使用してラベル付けします。LLMで生成されたラベルと手動でラベル付けされたラベルを比較し、エラーや潜在的な問題を詳細に分析します。これにより、対象タスクにおける LLM のパフォーマンスを理解し、時間やその他のコストに見合う価値があるかどうかを確認できます。 2.3 パースペクティビズムアプローチパースペクティビズムのアプローチは、簡単に言えば、データセットを理解したり問題を解決したりするための唯一の「正しい」方法は存在しないという認識に基づいています。問題を異なる視点から見ることで、異なる洞察や解決策につながる可能性があります。従来の方法では、ほとんどのデータセットは多数決アプローチ(複数の人(専門家やクラウドソーシングの作業者など)が同じデータサンプルにラベルを付ける方法)を用いてラベル付けされます。各人の判断が異なる可能性があるため、データサンプルの「真実」を決定するメカニズムが必要です。従来のデータラベル付けでは、このメカニズムは通常「多数決」です。つまり、最も頻繁に選択されたラベルが「真実」と見なされます。 多数決 vs. パースペクティビストアプローチ | 画像は原著者提供 表1は、研究におけるデータアノテーション手法を、多数決法とパースペクティビスト・マインドセット法のどちらを採用したかに基づいて分類したものです。ほとんどの研究で、データアノテーションに多数決法が採用されていることがわかります。 2.4 LLM は本当にデータ注釈ツールとして使用できますか?最後の列は各研究の結果を要約したもので、チェックマーク☑️は、その研究がLLMがデータアノテーションにおいて役割を果たせると考えている傾向にあることを示しています。LLMの可能性について非常に楽観的な研究もあり、人間のアノテーターを完全に代替できる可能性を示唆する一方で、LLMは人間のデータアノテーションを完全に代替するよりも補助的なツールとしての方が適していると考える研究もあります。これらの肯定的な研究においても、LLMのパフォーマンスが不十分なタスクシナリオが存在します。 さらに、3つの研究(うち2つはパースペクティビズム的アプローチを採用)は、LLMはデータアノテーションには適さないと結論付けています。もう1つの研究(表には記載されていません)は異なるアプローチを採用し、単一の報酬関数を用いてLLMを整合させる現在の手法では、異なる人間のサブグループ間の選好の多様性、特に少数派グループの視点を反映していないことを示しました。 03 LLMを注釈ツールとして使用する際の考慮事項3.1 プロンプト: ゼロショット vs. 少数ショットLLMから直接意味のあるモデル応答を得ることは非常に困難です。では、 LLMを用いてデータセットにプロンプトを最も効果的にアノテーションするにはどうすればよいでしょうか?表1は、上記の研究がゼロショット・プロンプティング、または少数ショット・プロンプティング(注:ゼロショット・プロンプティングは言語モデルに関連する例を一切提供しません。自然言語の質問または指示を直接モデルに送信することで、モデルが回答を生成したり、タスクを独自に実行したりできるようにします。期待される出力がどのようになるかを示す「例」は提供されません。少数ショット・プロンプティングはプロンプトに少量の「例」を含め、ユーザーが期待する出力形式とスタイルを大規模モデルに伝えます)、あるいはその両方の組み合わせを検討したことを示しています。ゼロショット・プロンプティングでは、LLMは例なしで質問に答える必要があります。一方、少数ショット・プロンプティングでは、LLMがユーザーの期待する応答形式を理解できるように、プロンプトに複数の例を含めます。 ゼロショットプロンプトと少数ショットプロンプト | ソース: https://github.com/amitsangani/Llama-2/blob/main/Building_Using_Llama.ipynb どちらの手法がより効果的かについては、研究結果が様々です。対象課題を解決する際に、少数ショットのプロンプティングを用いる研究もあれば、ゼロショットのプロンプティングを用いる研究もあります。したがって、それぞれの課題シナリオと使用するモデルに最も適した手法を検討する必要があるかもしれません。 プロンプトの書き方を学びたい方は、Sander SchulhoffとShyamal H Anadkatが作成したLearnPrompting[1]が参考になります。これは、プロンプトの基本とより高度なテクニックを学ぶのに役立ちます。 3.2 LLMの手がかり語に対する感度LLMはプロンプトの微妙な変化に非常に敏感です。プロンプト内の単語を1つ変更するだけで、モデルの応答に影響を与える可能性があります。この問題に対処するには、研究[3]のアプローチを参照することができます。まず、タスクエキスパートが最初のプロンプトを提供します。次に、GPTを使用して4つの類似したプロンプトを生成し、これら5つのプロンプトに対するモデルの応答のコンテンツ評価指標を平均化します。あるいは、手動で入力するプロンプトの代わりに、シグネチャ[2](パラメータ化されたプロンプトテンプレートとして理解できる自動プロンプト生成方法)を使用し、DSPy [3]にプロンプトを最適化させるという方法もあります。これは、Leonie Monigattiのブログ記事[4]で示されています。 3.3 データ注釈のモデルを選択するにはどうすればよいでしょうか?データセットのラベル付けにはどのモデルを選択すべきでしょうか?いくつかの要素を考慮する必要があります。重要な考慮事項について簡単に説明しましょう。
3.4 モデルのバイアスの問題研究[3]によると、大規模で指示調整された³モデルは、データラベリングにおいて他のモデルよりも優れた性能を示した。しかし、この研究ではモデル出力にバイアスがあるかどうかは評価されていない。別の研究では、バイアスはモデルのサイズと文脈の曖昧さによって増大することが示された。また、いくつかの研究では、LLMは左派的傾向があり、高齢者や宗教的少数派といった少数派集団の意見を正確に表現する能力が限られていると警告されている。全体として、現在のLLMは少数派集団に関連する問題を扱う際に、かなりの文化的バイアスとステレオタイプを示している。これらは、対象タスクに応じて、プロジェクトの様々な段階で考慮する必要がある問題である。 「LLMの回答は、デフォルトでは、米国、一部のヨーロッパ、南米諸国などの特定のグループの見解に近い」—研究からの抜粋[2] 3.5 モデルパラメータ: 温度表1の研究のほとんどは温度パラメータについて言及しており、これは主にLLM出力の「創造性」を調整するために用いられます。研究[5]と[6]は、高温と低温の両方の温度パラメータ値で実験を行い、低温パラメータ値を使用することで、精度に影響を与えることなくLLM応答の一貫性が向上することを明らかにしました(訳者注:同じ手がかり語入力に対して、異なる時間にモデルによって生成される応答の差が少なく、一貫性が増すことを意味します)。そのため、彼らはデータラベリングタスクでは低温パラメータ値の使用を推奨しています。 3.6 データ注釈タスクに LLM を使用する場合、言語の制限が存在します。表1に示すように、ほとんどの研究は英語データセットにおけるLLMのアノテーション性能を評価しています。研究[7]では、フランス語、オランダ語、英語のデータセットにおける性能を調査し、英語以外の言語におけるアノテーション性能が大幅に低下することがわかりました。現在、LLMは英語データセットにおいて優れた性能を発揮していますが、この利点を英語以外の言語にも拡張しようとする手法も存在します。例えば、Aleksa Gordićが開発したYugoGPT[6](セルビア語、クロアチア語、ボスニア語、モンテネグロ語に対応)や、Cohere for AIのAya[7](101の異なる言語に対応)などが挙げられます。 3.7 人間の注釈を分析すると、人間の判断の背後にある推論ロジックと行動の動機を理解するのに役立ちます。LLMにデータのラベル付けを依頼するだけでなく、選択したラベルの説明も依頼することができます。研究[10]によると、GPTが提供する説明は人間の説明に匹敵するか、あるいはより明確です。しかし、カーネギーメロン大学とGoogleの研究者は、LLMはまだ人間の意思決定プロセスをシミュレートすることができず[8]、ラベル選択プロセスで人間のような行動を示していない[9]と指摘しました。彼らは、指示によって微調整されたモデルは人間のような行動を示すことがさらに難しいことを発見したため、ラベル付けプロセスで人間を置き換えるためにLLMを使用すべきではないと考えています。現段階では、著者らは大規模言語モデル(LLM)によって生成された自然言語の説明を慎重に使用することを提案しています。 「LLMをアノテーターの代替として使用すると、3つの価値がもたらされます。参加者の利益の代表性(翻訳者注:自然言語解釈がすべてLLMによって生成される場合、専門家や作業員など、アノテーション作業に関わる人々の真の利益や懸念が完全には代表されない可能性があります)。そして、開発プロセスにおける人間の参加、発言力、リーダーシップ、意思決定力です。」— Agnew (2023)からの抜粋 04 要約 | TL;DRデータアノテーションにLLMを使用する利点と欠点 | 著者による画像
この記事では、LLMと手動アノテーションの詳細な比較は行いません。LLMを用いたデータアノテーションに関する他のリソースや個人的な経験をお持ちの方は、コメント欄でぜひ共有してください。 参考文献
脚注脚注 ¹これは関連文献すべてを網羅したレビューではなく、このトピックの調査中に私が見つけた論文のみを取り上げています。また、私の主な焦点は分類タスクです。 ² LLM の開発が急速に進んでいることを考えると、この論文で紹介されている研究でテストされたものよりも、データ注釈付けに利用できるより強力なモデルが確かに数多く存在します。 指示調整モデルのトレーニングの焦点は、与えられた指示/プロンプトに基づいて、正確で一貫性のあるモデル応答を理解し、生成することです。 読んでくれてありがとう! マヤ・パブロヴィッチ Google DeepMind PhD Scholar、データサイエンスとディープラーニングの概念を簡素化 || ロンドン (英国) || 終わり 参考文献 [1] https://learn-prompting.webflow.io/testimonials [2] https://towardsdatascience.com/intro-to-dspy-goodbye-promptin... [3] https://towardsdatascience.com/intro-to-dspy-goodbye-promptin... [4] https://medium.com/@iamleonie [5] https://towardsdatascience.com/democratizing-llms-4-bit-quant... [6] https://gordicaleksa.medium.com/ [7] https://cohere.com/research/aya [8] https://medium.com/@majapavlo/references-for-llms-as-annotato... [9] https://medium.com/@majapavlo/references-for-llms-as-annotato... この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。 オリジナルリンク: https://towardsdatascience.com/can-large-language-models-llms... |