編集者注:生成型人工知能技術は急速に発展しており、この分野ではますます多くの専門用語や概念が扱われています。この分野の初心者にとって、これらの用語を理解することは容易ではありません。より多くの人々がAIの世界に早く足を踏み入れ、その研究に専念できるよう、これらの用語を整理し、解説する必要があります。 本稿ではまず、生成AI用語をモデルの種類、一般的なLLM用語、LLMライフサイクルのステージなど、11の主要カテゴリに分類します。次に、各カテゴリについて詳細な説明と例を示します。 本稿は、生成型人工知能(GAI)の現在の分野における主流の用語と概念を体系的かつ包括的にまとめ、理論、アーキテクチャ、評価、最適化といった多面的な側面を網羅しています。この分野を理解し、習得したい読者にとって、非常に参考となるでしょう。
著者 | アビナフ・キモティ 編纂者:岳陽 生成型人工知能(GAI)に初めて触れる方は、専門用語に圧倒されるかもしれません。この分野でよく使われる用語について、私も何度も質問を受けてきました。 初心者の心理的負担を軽減するために、多くの人がこれらの用語のリストを作成しています。私も11のグループに分類したリストを作成しました。これらの用語は特に専門的なものではなく、機械学習の基礎知識があれば誰でも簡単に理解できるはずです。 11 の用語グループは次のとおりです。 - モデルの種類
- 一般的なLLM用語
- LLMライフサイクルステージ
- LLM評価方法と指標(LLM評価)
- LLMアーキテクチャ関連用語
- 検索強化生成(RAG)
- LLMエージェント
- LMMアーキテクチャ関連用語
- 開発、トレーニング、展開時のコストと効率性の考慮事項。
- LLM セキュリティ関連の問題と解決策
- デプロイメントと推論関連の用語
急速に進化する生成型人工知能(GAI)分野と同様に、この分類法も常に進化しています。このリストはブログで公開しており、より包括的で継続的に更新される「ライブ」リストも維持しています。以下のリンクからアクセスできます。 01 モデルの種類 1.1 基礎モデル- 数百万または数十億のパラメータを持つ大規模な人工知能モデルは、テラバイト単位の一般的なラベルなしデータでトレーニングされます。
- 汎用モデルとして設計されており、さまざまな人工知能アプリケーションの基盤を提供します。
- たとえば、GPT 3.5、GPT4、安定拡散、Llama、BERT、Gemini
1.2 大規模言語モデル(LLM) - 「Transformer Architecture」でトレーニングされた基本モデルは、テキスト生成、分類、要約などのさまざまな自然言語処理 (NLP) タスクを実行できます。
- LLM は、一貫性のあるテキストを生成する能力により、世界のゲームチェンジャーであると考えられています。
- すべてのLLMはトークンの次の単語を予測するモデルです。単語セットを入力として与えられた場合にのみ、次の単語を生成します。
- 「大規模」という用語は、モデル内のトレーニング パラメータの数 (数十億のパラメータ) を指します。
- たとえば、GPT 3.5、Llama2、Mistral、Falcon
1.3 小規模言語モデル(SLM) - SLM は LLM に似ていますが、トレーニング パラメータが少なくなっています (そのため、「小さい」という用語が使用されています)。
- これらはより高速で、必要なメモリと計算リソースも少なくて済みますが、LLMほど柔軟性と拡張性が高くありません。そのため、非常に特定のタスクに使用されます。
- 例: TinyLlama、Pythia
1.4 大規模マルチモーダルモデル(LMM) - マルチモーダルとは、モデルがテキストを処理および生成できるだけでなく、画像、ビデオ、音声、オーディオなどの他のデータ モダリティも処理および生成できることを意味します。
- 例: LLaVA、LLaMA-Adapter V2、LAVIN
1.5 視覚言語モデル(VLM) - 視覚モデル(VLM)とマルチモーダルモデル(LMM)はしばしば同じ意味で用いられます。主な違いは、視覚モデルが画像や動画などのモダリティに焦点を当てているのに対し、マルチモーダルモデルはあらゆるデータモダリティを網羅している点です。したがって、視覚モデルはマルチモーダルモデルのサブセットです。
- 例えば、GPT4、Gemini、Mixtral、Flamingo、BLIP、Macaw LLM
1.6 画像生成モデル- テキストのみを生成する LLM と同様に、画像生成モデルは画像を生成します。
- テキストからイメージへの変換機能は、テキスト入力 (プロンプト) に基づいてイメージを生成し、イメージからイメージへの変換機能は、入力イメージのバリエーションを生成するために使用できます。
- これらのモデルの典型的な基礎となるアーキテクチャは拡散モデルです。
- 例えば、Dall E3、Midjourney、Stable Diffusion
1.7 テキスト読み上げ(TTS)モデル- 名前が示すように、TTS モデルはテキストを入力として受け取り、音声を合成して出力します。
1.8 音声テキスト変換モデル(STT) - STT モデルは音声コンテンツを入力として受け取り、テキスト出力を生成します。
02 一般的なLLM用語と概念 2.1 プロンプト- 人工知能に指示や質問を与えることで、特定の種類の模範解答を得ることができます。
- 従来のプログラミングパラダイムとは異なり、LLMとのインタラクションは正式なコード構文に基づくのではなく、モデルに自然言語入力を提供することによって行われます。この入力はキューワードと呼ばれます。
2.2 テキスト補完- 特定のプロンプトワードに対して LLM によって生成される出力は、テキスト補完と呼ばれます。
2.3 推論- モデルが与えられたプロンプトに基づいてテキストを完成させるプロセスを推論と呼びます。
出典:著者による画像 2.4 トークン- レキシコンとは、LLMによって処理されるテキスト(単語または文字)の単位です。LLMの入出力処理の構成要素です。
2.5 パラメータ- パラメータとは、言語モデルに設定される変数の数であり、モデルは学習中にデータからパラメータを学習します。LLMの言語能力は、訓練されるパラメータの数の多さに起因します。
2.6 コンテキストウィンドウ- LLM の構造的特性により、一定数の語彙単位 (ヒントやテキスト補完) を処理できます。
- このトークンの最大数は、モデルのコンテキスト ウィンドウと呼ばれます。
2.7 温度- 温度は、LLM 出力のランダム性を制御するパラメーターです。
- 温度が高いほど、出力はより多様で創造的になり、温度が低いほど、出力はより集中的で決定論的になります。
出典:著者による画像 2.8 トップN/Pサンプリング- LLMは、次のトークンを生成するモデルです。確率分布を用いてトークンを選択し、テキストを完成させます。
- トップ N サンプリングでは、最も高い確率を持つ N 個のトークンから 1 つのトークンが選択されます。
- トップ P サンプリングは、確率の合計が 'P' が最も高いトークンからトークンを選択します。
出典: 著者による画像 2.9 幻覚- モデルによって生成された不正確な情報または捏造された情報。
- LLM は確率分布からトークンを継続的に選択してテキストを生成するものであり、正確な情報を再現するものではないことを覚えておくことが重要です。
2.10 バイアスと毒性- LLMは大量の非構造化データを用いて学習します。このデータは様々なソース(主にオープンインターネット)から取得されます。この学習データに基づいて、モデルは偏りが生じたり、有害なコンテンツを生成したりする可能性があります。
03 LLMライフサイクルステージ 3.1 事前トレーニング- 言語モデルは、一般的な言語パターンを学習するために大規模なデータセットでトレーニングされます。
- 大量のデータが必要になります。
- トレーニングには長い時間がかかります。
- このモデルは、前のコンテキストに基づいてテキスト内の次の可能性のある単語または文字を生成するように設計されています。
- 高コストで高度に専門化されている
出典: 著者による画像 3.2 プロンプトエンジニアリング- 簡単に言えば、キュー エンジニアリングとは、望ましいモデル動作を実現するために効果的なキュー ワードを指定するプロセスです。
3.3 教師あり微調整- ファインチューニングは、プロンプトと補完のペアの注釈付きデータセットを使用して LLM の重みを調整できる教師あり学習プロセスです。
- 命令の微調整とは、サンプル命令とLLMがそれらの命令にどのように応答すべきかに基づいてLLMをトレーニングする戦略です。命令の微調整により、命令タスクのパフォーマンスを向上させることができます。
- 完全な微調整とは、LLMのすべてのパラメータを更新することを指します。これには、すべての勾配やその他の要素を保存および処理するための十分なメモリが必要です。
出典: 著者による画像 3.4 壊滅的な忘却- 単一のタスクを微調整すると、そのタスクにおけるモデルのパフォーマンスが大幅に向上する可能性があります。
- しかし、モデルの重みが更新されるため、他のタスク(指示モデルが良好なパフォーマンスを発揮するタスク)における指示モデルのパフォーマンスが低下する可能性があります。これは「破滅的忘却」と呼ばれます。
3.5 人間のフィードバックからの強化学習- 強化学習は機械学習の一種であり、エージェントが環境内でアクションを実行することで、何らかの累積報酬を最大化することを目的として、特定の目的に関連する決定を下すことを学習します。
- RLHF では、エージェント (私たちが微調整する命令 LLM) が、その環境 (コンテキスト ウィンドウ) 内のアクション スペース (LLM 内のすべてのトークン/単語) で利用可能なすべてのアクションからアクション (テキストの生成) を選択します。
- このアクションの結果(生成されたテキスト)は人間によって評価され、結果が目標と一致した場合は報酬が与えられます。結果が目標と一致しない場合は、マイナスの報酬が与えられるか、報酬は与えられません。これは反復的なプロセスであり、各ステップは「ロールアウト」と呼ばれます。モデルの重みは、プロセス終了時に総報酬が最大化されるように調整されます。
- RLHF の主な目標の 1 つは、「役に立つこと」、「正直であること」、「無害であること」という人間の価値観に沿うことです。
出典: 著者による画像 3.6 報酬モデル- RLHF では、人間が継続的にフィードバックを提供する代わりに、報酬モデルと呼ばれる分類モデルが人間が生成したトレーニング例に基づいてトレーニングされます。
3.7 AIフィードバックからの強化学習- RLHFでは、訓練された報酬モデルを生成するために多大な人的リソースが必要となるため、人的フィードバックのスケールアップは困難な場合があります。モデルとユースケースの数が増えるにつれて、人的リソースは限られたリソースとなり、人的フィードバックをスケールアップするための手法が必要になります。
- アントロピックの研究者たちは2022年に、監督を強化し、RLHFに固有の問題に対処する手法である「憲法AI」の概念を初めて提唱しました。憲法AIでは、一連のルールと原則(いわゆる憲法)を用いてモデルをトレーニングし、モデルの行動を規制します。
- Constitutional AI のトレーニング プロセスは、教師あり学習と強化学習の 2 つのフェーズで構成されます。
- 教師あり学習フェーズでは、モデルは有害なシナリオを含む手がかり語を受け取り、憲法原則に従って自身のモデル応答を批評するよう求められます。その後、修正されたルールに準拠したモデル応答を用いて、モデルを微調整します。
- AI フィードバックからの強化学習 (RLAIF) として知られる強化学習フェーズでは、微調整されたモデルを使用して、憲法原則に基づいたモデル応答を生成します。
出典:著者による画像 3.8 文脈学習- コンテキスト内学習とは、大規模な言語モデルが他のモデリング介入なしに指示に従ってモデル応答を生成するプロセスを指します。
3.9 少数ショット学習- 少数ショット学習とは、プロンプト語内で少数の例のみを提供することで、LLM に特定のタスクを実行するように教えるプロセスを指します。
出典: 著者による画像 LLM ライフサイクル ステージ関連の用語の詳細な説明については、次の記事を参照してください。 04 LLM評価方法と指標(LLM評価) 4.1 困惑パープレキシティ指標は、言語モデルがサンプルをどれだけ正確に予測できるかを測定します。また、モデルが新しいデータにどれだけ驚いているかを測定します。 4.2 ブルー機械生成テキストの品質を評価する指標。生成されたテキストが参照テキストとどの程度一致するかを測定します。 4.3 ルージュ自動要約および機械翻訳タスクのパフォーマンスを評価するための一連の指標。生成されたテキストと参照テキストの重複度を評価します。 出典:著者による画像 4.4 BIG-bench(Google) 「Beyond the Imitation Game」ベンチマーク (BIG-bench) は、大規模モデルの機能をテストし評価するために設計された特別なテストです。 4.5 アーク抽象化・推論コーパス(ARC)ベンチマークは、言語モデルの推論能力を評価するために使用されます。このベンチマークは、様々なシナリオにおけるモデルの理解力と推論能力に焦点を当てています。 4.6 ヘラスワッグ HellaSwag は常識的な自然言語推論を評価するための難しいデータセットであり、その中の質問は人間にとってほとんど常識であるにもかかわらず (精度 > 95%)、その質問に答えることは最先端のモデルにとっても特に困難です。 4.7 MMLU Massive Multitask Language Understanding は、人間の評価方法と同様に、ゼロショット評価と少数ショット評価に重点を置いています。 4.8 真実のQA 言語モデルの応答の信憑性を評価するために使用されるベンチマーク。モデルが提供する「現実的な」情報の正確性と信頼性をテストします。 4.9 接着剤一般言語理解評価 (GLUE) ベンチマークは、自然言語理解システムをトレーニング、評価、分析するためのリソースのコレクションです。 4.10 スーパーグルー SuperGLUEは、言語モデルの性能を評価するためのベンチマークであり、従来のNLPタスクを超えた包括的な言語理解能力を評価するために特別に設計されています。このベンチマークは、より難易度の高いタスク、多様なタスク形式、そして包括的な人間のベースラインを網羅しており、言語モデルの能力を評価するための複雑かつ広く受け入れられているベンチマークとなっています。 4.11 ヘルム HELM(言語モデルの総合的評価)は、言語モデルをユースケースとメトリクスで分類することで、理解の透明性を向上させます。HELMは、新しいシナリオ、メトリクス、モデルを継続的にカバーする動的なベンチマークを目指しています。 05 LLMアーキテクチャ関連用語 5.1 トークン化- テキストは処理のために小さな単位 (トークン) に分割されます。
5.2 リカレントニューラルネットワーク(RNN) - シーケンシャルデータ処理向けに特別に設計されたニューラルネットワークの一種。モデルが過去の入力の記憶を保持できるため、コンテキストの理解に非常に重要となります。
5.3 トランスフォーマー- シーケンシャルデータの並列処理に特化して設計されたニューラルネットワークアーキテクチャ。モデルがシーケンシャルデータをより効率的に理解・生成する方法です。
出典:著者による画像 5.4 エンコーダ- モデルの一部であり、入力データの処理を担当します。入力情報を「エンコード」し、モデルが処理できる形式に変換します。
5.5 デコーダー- モデルの一部であり、エンコードされた入力に基づいて出力を生成する役割を担います。情報を「デコード」し、モデルの理解を意味のあるモデル応答に変換します。
5.6 注意メカニズム- モデルが入力データの特定の部分に注意を集中できるようにするニューラル ネットワークのメカニズム。
出典:著者による画像 5.7 自己注意メカニズム- モデルが自身の入力の異なる部分に注目するアテンションメカニズム。これにより、モデルは同じ入力内の異なる単語の重要度を評価するのに役立ちます。
5.8 多頭自己注意メカニズム- 複数の自己注意メカニズムを同時に採用することで、入力情報のさまざまな側面を同時に捉えるモデルの能力が向上します。
5.9 注意マップ- これはモデルの注目点を視覚的に表示します。マップは、入力情報のどの部分がモデルの出力にとってより重要であるかを示します。
5.10 エンコーダのみのモデル- エンコード要素のみを持ち、直接出力を生成しないモデル。モデル応答の生成よりも、入力情報の理解と表現に重点を置く場合に使用されます。
出典:著者による画像 5.11 因果言語モデル- 因果言語モデリングでは、言語の時間的順序と因果関係を重視しながら、前の文脈に基づいて文中の次の単語または単語のシーケンスを予測します。
5.12 デコーダーのみのモデル- 事前にエンコードされた情報のみに基づいて出力を生成するモデル。新しい入力を理解する必要がなく、応答を生成することに重点を置く場合に役立ちます。
出典: 著者による画像 5.13 MLM(マスク言語モデリング) - MLM は、シーケンス内の特定のトークンを意図的にマスクし、周囲のコンテキストに基づいてこれらのマスクされたトークンを予測するようにモデルをトレーニングする自然言語処理の手法です。
5.14 シーケンスツーシーケンスモデル- シーケンスツーシーケンスモデルは、入力シーケンスを出力シーケンスに変換するように設計されています。言語翻訳、要約、対話などのタスクに最適です。
出典:著者による画像 5.15 埋め込み- 自然言語処理における埋め込みとは、単語、句、または文を連続ベクトル空間内の数値ベクトルにマッピングすることを指します。これらの埋め込みは表現学習技術によって学習され、意味関係や文脈情報を捉えることができます。
06 検索強化生成(RAG) 6.1 検索強化生成(RAG) - RAG は、問題またはタスクに関連するデータとドキュメントを取得し、それらを LLM のコンテキストとして提供することで、LLM アプリの効率を向上させます。
出典:著者による画像 6.2 ベクターデータベース- ベクター データベースはデータをベクター形式で保存し、効率的な類似性検索を可能にします。
6.3 レトリーバー- RAG システム内のコンポーネントは、ベクター データベースから関連情報を取得します。
6.4 ナイーブRAG - 追加の複雑なコンポーネントや最適化された RAG 基本実装はありません。
- 取得 → 読む
出典: 著者による画像 6.5 高度なRAGシステム- 強化された検索結果を生成するための、より洗練された方法。
- 書き換え → 取得 → 再ランク付け → 読み取り
出典:著者による画像 6.6 モジュラーRAGシステム- 個別かつ交換可能なコンポーネントを備えたモジュール式検索強化生成システム。
- メモリ、検索、ルーティング、融合などのモジュールが含まれます。
出典:著者による画像 6.7 チャンキング- 長いテキストを管理しやすいサイズに分割して、検索を高速化し、コンテキスト ウィンドウを管理します。
6.8 RAGシステムの評価コンテキストの関連性 取得されたコンテキストはクエリに関連していますか? 回答の関連性 モデル応答はクエリに関連していますか? コンテキストリコール 取得されたコンテキストは基本的な事実と一致していますか? コンテキストの精度 取得されたコンテキストは正しくソートされていますか? 正確性と信頼性(根拠/忠実性) 生成された出力は、取得された情報に基づいてどの程度まで行われますか? 正確さ 出力結果の正確さ。
出典:著者による画像 RAG のより詳しい紹介については、RAG システムの例とコード スニペットを含む 75 ページの電子ブックをダウンロードしてください。 07 LLMエージェント 7.1 エージェント言語モデルを使用してタスクを実行するエンティティまたはシステム。 7.2 メモリエージェントまたはモデルが以前のやり取りからの情報を保持する能力。 7.3 計画特定の目標を達成するために LLM エージェント内の動作を整理する方法。 7.4 ツールエージェントが使用する追加のコンポーネントまたはリソースにより、パフォーマンスを向上できます。 7.5 反応 Reason と Act は、モデルが情報を属性付けして応答を生成する方法を決定します。 7.6 思考の連鎖エージェントは、論理的思考または推論の連続的なシーケンスに従います。 7.7 思考の樹相互に関連したアイデアや情報から構成される階層構造。 7.8 タスクと質問の分解タスクまたは問題を、管理しやすい小さなコンポーネントに分割します。 7.9 反射 LLM エージェントが自身の思考プロセスについて考え、分析する能力。 08 LMMアーキテクチャ関連用語 8.1 生成的敵対ネットワーク(GAN) ジェネレータと識別器を備えたニューラルネットワークフレームワーク。ジェネレータがコンテンツを作成し、識別器がその品質を評価してコンテンツの改善を促進します。 8.2 変分オートエンコーダー (VAE) 新しいデータポイントを生成するニューラルネットワーク。データのエンコードとデコードを行い、意味のあるコンテンツを生成することに重点を置いています。 8.3 モダリティテキスト、画像、音声など、さまざまな形式または種類のデータ。 8.4 マルチモーダル埋め込み空間共有スペースでは、さまざまな種類の表現が整列されます。 8.5 対照言語画像事前学習(CLIP) OpenAI が提供する CLIP (Contrastive Language-Image Pretraining) は、さまざまな画像とテキストのペアでトレーニングされたニューラル ネットワークです。 出典:著者による画像 8.6 対照学習肯定的な側面と否定的な側面の両方の例を比較することでモデルが学習できるようにするトレーニング方法。 8.7 ビジョンエンコーダモデルにおいて視覚情報の処理を担う部分。視覚データをエンコードし、モデル全体が理解できるようにします。 09 開発、トレーニング、展開におけるコストと効率の考慮 9.1 グラフィックス プロセッシング ユニット (GPU) グラフィックス プロセッシング ユニット (GPU) は、ニューラル ネットワークのトレーニングと推論のプロセスを高速化するために使用できる特殊なハードウェアです。 9.2 パラメータ効率の良い微調整(PEFT) - パラメータ効率的なファインチューニング (PEFT) は、事前トレーニングに似たファインチューニング手法であり、モデル、オプティマイザー、勾配、およびその他のパラメータを保存するためのメモリが必要です。
- パラメータ効率的な微調整 (PEFT) では、モデル パラメータのサブセットのみを微調整し、場合によっては元の重みはまったく考慮されません。
- PEFT はパラメータのサブセットのみを再トレーニングするため、壊滅的な忘却を回避できます。
出典:著者による画像 9.3 モデルの量子化量子化は、モデル内の数値表現の精度を下げて、より効率的な計算を可能にする手法です。 出典:著者による画像 9.4 低ランク適応(LoRA) 低ランク アダプタ (LoRA) では、モデルのパラメータを低いランクに調整することで、パフォーマンスを維持しながら計算の複雑さを軽減します。 出典:著者による画像 9.5 ソフトプロンプトソフトプロンプトは、コンテンツ生成プロセス中にモデルに穏やかなガイドを提供し、モデルが柔軟に応答できるようにする手法です。 9.6 完全シャードデータパラレル (FSDP) FSDP は、モデルのパラメータを複数のデバイスに完全に分割し、分散トレーニングの効率を向上させる並列化戦略です。 出典:著者による画像 9.7 分散データ並列(DDP) 分散データ並列処理 (DDP) も、並列トレーニングのためにモデル パラメータを複数のデバイスに分散する並列化戦略です。 出典:著者による画像 LLMセキュリティ関連の問題10件と解決策 10.1 迅速な注入プロンプトインジェクションは、悪意のあるプロンプトを使用してLLM(ローカル管理ライブラリ)を操作し、フィルターを無視させたり、不要なコマンドを実行させたりします。攻撃者はシステムプロンプトを上書きすることで、LLMの機能やデータにアクセスできるようになります。 10.2 データ漏洩 LLM は、モデル応答を通じて PII などの機密データを誤って漏洩する可能性があります。 10.3 トレーニングデータの汚染事前トレーニングまたは微調整の段階では、不正確なデータ、偏ったデータ、または危険なデータがトレーニング セットに導入される可能性があります。 11. デプロイメントと推論の用語レイテンシとは、モデルにリクエストを送信してから対応する応答を受信するまでの時間遅延であり、リアルタイム アプリケーションにとって非常に重要です。 スループットとは、モデルが特定の時間内に処理するリクエストの数を指し、処理速度を示します。 モデル プルーニングとは、ニューラル ネットワーク内の不要な接続や重要でない接続を削除して、ネットワーク サイズを縮小し、効率を向上させることを指します。 モデル蒸留とは、より大規模で複雑なモデルの動作を模倣するように小さなモデルをトレーニングし、知識を転送して効率を向上させるプロセスです。 フラッシュ アテンションは、効率的なコンピューティング設計に最適化されたアテンション メカニズムであり、リソースが制限された展開シナリオに特に適しています。 KV キャッシュは、事前に計算されたキーと値のペアを保存するためのメカニズムであり、推論プロセス中の検索を高速化し、計算量を削減するのに役立ちます。 位置エンコーディングは、シーケンス モデルで使用される手法であり、入力シーケンス内のトークンの位置情報を挿入して、モデルがデータの順序を理解するのに役立ちます。 推測的サンプリングは、特定の入力に対して複数の可能性のある結果を予測し、モデルがさまざまな潜在的なモデル応答を考慮できるようにします。 読んでくれてありがとう! 終わり
|