HUOXIU

大規模言語モデルの技術開発と金融応用の展望

アメリカの人工知能企業OpenAIは3月15日、テキストと画像入力に対応したマルチモーダル大規模モデル「GPT-4」をリリースした。GPT-3.5と比較して、応答精度やテキスト入力長など、様々な面で性能が大幅に向上している。

2022年末にOpenAIがリリースしたインテリジェントチャットボット製品「ChatGPT」は、その優れた意味理解力、インテリジェントな会話、そしてテキスト生成機能により、世界中で月間1億人のアクティブユーザーから熱狂的な支持を得ています。ChatGPTは、大規模なラベルなしデータセットから情報を抽出し、識別、要約、翻訳、予測、そしてコンテンツ生成を行う大規模言語モデル(LLM)です。

ChatGPTは、大規模事前学習済み言語モデルGPT-3.5をベースとしており、GPT-4モデルの前身です。このモデルは、数千億文字に及ぶ膨大なテキストで事前学習され、人間のフィードバックに基づく強化学習(RLHF)によって人間の言語習慣や価値観に合うように微調整されており、人間とコンピュータ間の対話の質と流暢性を向上させます。

ChatGPTとその基盤技術であるGPT-3.5は、学術界において人工知能分野における画期的な製品とされています。従来の一般的な言語モデル(Bert/Bart/T5)と比較すると、ミサイルと矢ほどの違いがあります。ChatGPTは「汎用人工知能」を可能にし、豊富な応用価値と商業的可能性を示しています。本稿では、ChatGPTの技術開発の軌跡と主要な技術原理を紹介し、ChatGPTの優れた能力の源泉を分析・考察します。さらに、金融分野におけるChatGPTの応用シナリオに焦点を当て、ChatGPTの限界と今後の技術方向性について紹介します。

▲中国科学院計算技術研究所のHe Qing氏

大規模言語モデルの技術開発

従来の機械学習モデルは、特定のタスクにおいて、教師あり学習のために手動でラベル付けされたデータを必要とすることがよくあります。これは人的資源とリソースの面で非常にコストがかかり、実際には入手が困難な場合が多いです。そのため、多数のパラメータを持つニューラルネットワークモデルは、十分なラベル付けデータが不足しているため、過学習に陥りやすくなります。過学習は、モデルの複雑さが実際の問題の要件を超えた場合に発生します。つまり、トレーニングセットでは優れたパフォーマンスを発揮しますが、テストセットではパフォーマンスが低下します。

この問題に対処するため、AIコミュニティはImageNetやCIFAR-10といった大規模な公開データセットを多数公開しており、その中には数百万もの手動でラベル付けされたデータポイントが含まれているものもあります。それでもなお、これらのデータセットは多くの教師あり自然言語処理タスクには到底不十分です。

1. 事前学習済みモデル。事前学習済みモデル(PTM)の登場により、自然言語処理は新たな時代を迎え、限られた手動ラベル付けデータでも十分に効果的なモデルを学習できるようになりました。事前学習済みモデルは転移学習の概念を活用し、大量のラベルなしデータを用いて学習することで、下流のタスクのための適切なパラメータ初期化を実現します。これにより、新たな問題に遭遇した場合でも、モデルをゼロから構築する必要はなく、既存の事前学習済みモデルを調整するだけで良好な結果を得ることができます。

大規模な事前学習済みモデルは、膨大なデータを用いた教師なし事前学習を通じて、言語表現と意味を効果的に学習し、様々な自然言語処理タスクを強力にサポートします。2018年にGPT-1とBERTモデルがリリースされて以来、大規模な事前学習済みモデルは急速に発展し、様々な新しいモデルや技術が絶えず登場しています。

BERTは、3億を超えるパラメータを持つ初の事前学習済みモデルであり、GLUEベンチマークの11のタスクで新記録を樹立しました。TransformersをベースとするBERTは、大量のラベルなしテキストを用いて「クローズテスト」を実行します。これは、単語をランダムにマスクし、2つの文が連続しているかどうかを予測することで、文脈依存の単語埋め込みを生成します。これにより、モデルは文脈を組み合わせ、異なる文脈における同じ単語の意味を区別することが可能になります。

その後、大規模な事前学習済みモデルの波が世界中に押し寄せ、パラメータとデータの数は指数関数的に増加しました(図1参照)。さらに大規模なパラメータを持つGPT-2とGPT-3がリリースされ、自然言語生成と理解に質的な飛躍をもたらしました。ChatGPTの基盤技術であるGPT-3.5は、対話生成においてさらなる飛躍を遂げました。

図 1 は、LLM におけるパラメータとデータの数の急速な増加を示しています。

BERTよりも先にリリースされたGPTは、1億1,700万のパラメータを誇り、5GBのデータを用いて学習され、有望な結果を達成しました。GPT-2は、GPTと比較してネットワーク構造に大きな革新性はありませんが、15億のパラメータを誇り、40GBのデータを用いて学習されました。GPT-2は、調整なしの教師なし学習で、一部の教師ありタスクにおいて優れた結果を達成しています。これは、モデルのパラメータ数とデータ量が十分に大きい場合、事前学習済みモデルで教師ありタスクをカバーできることを意味します。

GPT-3.5の前身であるGPT-3は、コンテキスト学習能力を強化しました。1750億のパラメータを持ち、主にウェブサイト、電子書籍サイト、Wikipediaからクロールされた45TBのデータを用いて学習されました。このデータから、世界に関する知識、常識、論理的推論能力を学習できます。わずか数例で、指定されたタスクを完了できます。

2. 微調整。微調整とは、特定のタスクとそれに対応するラベル付きデータを使用して事前トレーニング済みのモデルをトレーニングし、その特定のタスクにおけるモデルのパフォーマンスを最適化することを指します。

ChatGPTは、事前学習と微調整という2段階の学習戦略を採用しています。事前学習は大規模モデルのための強固な基盤を構築し、微調整はモデルが言語機能を最大限に活用できるようにします。第1段階である事前学習の目的は、大量の低コストデータ収集を通じて対象タスクの共通点を学習し、汎用モデルを構築することです。第2段階である微調整では、モデルが特定のタスクの学習を開始します。

つまり、ChatGPTは記事生成、チャット対話、機械翻訳といった複雑なNLPタスクにおいて強力な能力を発揮しますが、事前学習段階ではこれらの複雑なタスクを直接学習したわけではありません。第一段階の目標は、インターネット上の膨大なテキスト、記事、ニュース、ソーシャルメディアといった膨大な量のラベルなしテキストデータを用いて言語の規則と構造を学習し、自然言語を理解・生成できるようにすることでした。

GPTの事前学習では、「単語連鎖」を実行するように学習します。つまり、モデルは入力に基づいて次の単語を予測します。このモデルの予測はサンプリングプロセスであり、既存の断片を条件として、次の位置に出現する異なる単語の確率分布を予測します。実際の使用時には、モデルはこの確率分布に基づいてこれらの単語をサンプリングし、出力を取得します。そのため、ChatGPTは同じ質問に対して異なる回答を返す場合があります。

従来のファインチューニングでは、事前学習済みモデルのほとんどのパラメータは変更されず、タスク固有のパラメータ(例えば、最終的に生成される文字関連確率のパラメータ)のみが学習中に変更されます。残念ながら、従来のファインチューニングモデルは特定のタスクでは優れたパフォーマンスを発揮する一方で、他のタスクではパフォーマンスの低下を招くことがよくあります。さらに、従来のファインチューニングモデルは複雑な推論問題を理解して処理することができず、学習に必要な大量のラベル付きデータを取得することも困難です。

GPTモデルは、大規模なパラメータと事前学習によって既に強力な言語表現と理解能力を実現していますが、その能力は微調整においてはまだ十分に発揮されていません。GPT-2やGPT-3などのモデルの導入により、従来の微調整モデルはプロンプトや指示に基づく微調整モデルへと改良され、モデルの推論能力と人間の指示理解能力が大幅に向上しました。

ChatGPT の微調整の鍵となるのは、コードのトレーニングと人間のフィードバックに基づく強化学習という 2 つの方法にあります。

3. コードトレーニング。コードトレーニングとは、コードまたはコードコメントをデータセットとしてモデルに提供し、正しいコードを生成できるようにするプロセスを指します。コードトレーニングの本来の目的は、モデルがコードの構造と固有の意味を理解できるようにすることです。しかし、コードに内在するロジックと長期的な依存関係により、モデルはコード構造を学習するだけでなく、自然言語で複雑な推論を行う能力も向上させることができます。この「副産物」により、推論問題の理解と回答におけるモデルの精度が大幅に向上します。

ChatGPTが思考連鎖を用いて複雑な推論を実行できる能力は、コードトレーニングの驚くべき副産物であると考えられます。直感的に言えば、手続き型プログラミングはタスクを段階的に解決していく人間のプロセスに似ており、オブジェクト指向プログラミングは複雑なタスクを複数のより単純なタスクに分解していく人間のプロセスに似ています。

さらに、コード学習の潜在的な副産物として、長距離依存関係が挙げられます。言語における次単語予測は多くの場合非常に局所的ですが、コードは通常、括弧の一致や離れた関数定義の参照といったタスクを実行するために、より長い依存関係を必要とします。さらに、オブジェクト指向プログラミングにおけるクラス継承により、コードはモデルのコーディング階層構築能力にも寄与する可能性があります。

4. 人間からのフィードバックによる強化学習。大規模な事前学習済みモデルに共通する欠点は、「ゼロショット推論」タスク、つまり事前学習中に遭遇しなかったタスクを実行する際の理解力と推論能力が低いことです。従来の微調整手法は、特定の領域における問題の理解力を向上させることはできますが、他の領域の問題には効果がありません。GPTシリーズのモデルは、「人間からのフィードバックによる強化学習」(RLHF)を採用することでこの問題に対処しています。強化学習を通じて、言語モデルは人間からのフィードバックに基づいて学習・最適化を行い、生成される対話の質を向上させます。

このプロセスにおいて、RLHFにおける「環境」は人間からのフィードバックであり、「行動」はモデルが応答を生成するプロセスです。従来の教師あり微調整学習法とは異なり、RLHFでは人間が与えた価値関数がモデルの行動を評価するための基盤として機能します。モデルは自ら学習し、環境を判断し、適切な応答を選択することで、価値関数を継続的に最大化します。

RLHF の実装は 3 つのモジュールに分かれています (図 2 を参照)。

図2 RLHFトレーニングプロセス

最初のモジュールは、従来の微調整手法と同様に、教師ありデータセットを用いて学習し、初期の回答生成モデルを取得します。教師ありデータセットには、人間が作成した一連の質問と回答が含まれており、モデルはこれを用いて、大規模な事前学習済みモデルを微調整して学習します。

2 番目のモジュールは、人間のフィードバックを使用して報酬関数 (または価値関数) をトレーニングおよび生成します。モデルは同じ質問に対して複数の回答を生成し、人間が自分の好みに基づいてさまざまな回答にスコアを付けてランク付けできるようにして、最終的にユーザーの好みを予測できる関数を生成します。

3つ目のモジュールは、与えられた報酬関数に基づく強化学習手法を用いて、モデルを反復的にトレーニングおよび最適化する役割を担います。モデルは、報酬関数を最大化する様々な質問に対する回答を生成し、その回答が報酬関数を最大化するようにパラメータを反復的に微調整します。

RLHFによるトレーニングにより、モデルは人間との継続的なインタラクションを通じて継続的に学習し、応答を最適化できるため、応答の信頼性と解釈可能性が向上します。さらに重要なのは、RLHFがモデルに強力なゼロショット推論機能を提供することです。人間からのフィードバックから学習することで、モデルは質問をより正確に理解し、解決策を提供できない状況を認識できるようになります。

これにより、ChatGPTは人間の指示に応答する能力を獲得しました。以前は、GPT-3の出力は主にトレーニングセットによく見られる文章で構成されていましたが、現在のモデルはコマンドとプロンプトに基づいて、より合理的な回答を生成します。さらに、モデルの微調整に使用されるコマンドの数が一定の規模を超えると、モデルはこれまで見たことのない全く新しいコマンドに対しても効果的な応答を自動的に生成できます。ユーザーは常に新しい質問をすることを考えると、見たことのないコマンドに応答するこの一般化能力は、モデルの実用化にとって非常に重要です。このように、ChatGPTの主要モジュールは、大規模な事前学習済みモデルの言語表現の可能性を完全に解き放ちました。これらのモジュールの適用により、ChatGPTはテキスト分類、エンティティ認識、質問応答システムなど、多くの自然言語処理タスクにおいて革命的な進歩を遂げ、以前のGPT-3モデルを大幅に上回っています。

金融分野におけるChatGPTの応用

大規模モデル技術の継続的なイテレーションにより、ChatGPTは人間のニーズを効果的に理解し、膨大なデータを効率的に処理できるようになりました。これにより、人間の質問に的を絞った応答が可能になり、本格的な業務シナリオへの汎用人工知能の応用が可能になります。金融、法律、メディアなどの知識集約型サービス産業では、GPTのような技術がさらに切実に必要とされています。この記事では、金融分野におけるChatGPTの応用シナリオに焦点を当てます。ChatGPTは、強力なセマンティック理解、言語生成、知識統合機能を活用することで、金融機関の効率向上、リスク軽減、顧客満足度の向上を支援します。具体的な応用シナリオには、以下の側面が含まれます。

まず、インテリジェントな投資リサーチがあります。投資リサーチ分野では、文書構造認識技術と言語生成技術を組み合わせることができます。例えば、市場で成熟した文書構造認識ツール(PDFluxなど)を用いて、大量の業界レポートや公開情報文書を解析し、ChatGPTを介して情報を統合することで、現在の市場のホットスポットや業界動向を正確に把握し、研究者によるデータ収集・整理、論文原稿の自動生成を支援し、作業効率を向上させることができます。

第二に、インテリジェントなカスタマーサービスがあります。銀行や証券会社は通常、クレジットカードの申し込み、口座の照会、ローンの申し込み、保険の相談など、顧客からの問い合わせを大量に処理しており、その中には繰り返し行われる質問も含まれています。GPTのような大規模言語モデルを基盤技術として用いることで、インテリジェントなカスタマーサービスロボットは顧客ニーズを正確に理解し、効率的で高品質なソリューションを提供できます。インテリジェントなカスタマーサービスは24時間365日対応し、ユーザーのニーズに対応することで、応答性と顧客満足度を向上させます。さらに、ChatGPTは多言語サポートを提供しており、異なる言語を話すユーザーへの相談サービスも提供しています。

3つ目はロボアドバイザーです。投資コンサルティングは高度に専門化され、経験豊富な分野であり、投資アドバイザーは市場を理解し、データを分析し、戦略を策定する必要があります。ChatGPTは、数千億のパラメータを含む大規模な言語モデルを備え、関連分野の膨大な知識を蓄積し、必要に応じて効率的に取得することができます。市場データと過去の傾向を分析することにより、ChatGPTは大量のポートフォリオデータから投資決定を予測・分析し、投資決定レポートと最適化提案を生成して、ポートフォリオの効率とリターンを向上させます。同時に、ChatGPTはインタラクティブな投資意思決定ツールとしても機能し、対話を通じて顧客とコミュニケーションを取り、ニーズや投資目標を理解します。最新の調査レポートからの投資推奨と組み合わせることで、顧客に正確でパーソナライズされた資産管理ソリューションを提供し、ロングテール顧客向けの資産管理サービスの質を大幅に向上させます。

4つ目に、リスク管理です。ChatGPTは、過去のデータや業界動向を学習することで将来の市場リスクを予測し、リスク管理者に早期警告を発し、適切なリスク管理アドバイスを提供します。また、ChatGPTは市場やインターネット上のセンチメントを監視し、ニュース報道やソーシャルメディアの問い合わせを分析して関連機関の評判や口コミを把握することで、リスク管理者がリアルタイムの情報を把握し、潜在的なリスクを特定して対応できるように支援します。

5つ目は、取引実行です。ユーザーは音声またはテキストで取引ニーズを入力すると、ChatGPTがそれを実行可能な取引指示に変換します。また、事前に設定された取引戦略とルールをトリガーして、自動売買操作を実行することもできます。

6つ目は、投資家教育です。ChatGPTは、投資家データ、嗜好、ニーズに基づいたパーソナライズされた投資教育サービスを提供します。ChatGPTの強力なインタラクティブ機能により、投資家はChatGPTと1対1の会話学習を行うことができます。ChatGPTはユーザーの現状をリアルタイムで分析し、問題点を特定し、投資家の質問に的確な回答を提供し、投資戦略を具体的に示すことができます。ChatGPTテクノロジーのサポートにより、教育サービスは投資家の満足度を高め、最終的には金融機関がサービス品質を向上させるための強力なツールとなります。

技術の継続的な発展に伴い、金融分野におけるChatGPT技術の応用シナリオはますます多様化・拡大していくでしょう。金融機関はChatGPT技術を活用することで、自動化された処理とインテリジェントなサービスを実現し、それぞれのニーズとビジネスシナリオに基づいて効率性と顧客満足度を向上させることができます。

ChatGPTの制限

ChatGPT のパフォーマンスはすでに非常に優れていますが、まだいくつかの制限があり、さらなる調査と研究が必要です。

まず、事実誤認があります。ChatGPTの回答は一見完全で論理的に見えますが、詳しく調べてみると、多くの誤りや捏造が見つかります。次に、形式的推論が困難です。GPTモデルは、数学や一階述語論理のような厳密な形式体系の中で推論を行うことが困難です。第三に、信念をリアルタイムで更新できません。モデルが何かについて信念を表明した場合、その信念が間違っていると修正が困難になることがあります。第四に、適時性が低いです。GPTモデルはインターネットを直接検索できないため、情報の適時性はモデルのデータベースの更新頻度に依存します。

OpenAIは、ChatGPTをより中立的、客観的、安全かつ詳細な回答を生成し、不適切な質問を拒否できるよう継続的に最適化することに取り組んでいますが、例外は依然として避けられません。したがって、制御性が高いことが求められるミッションクリティカルなタスクでは、ChatGPTは最適な選択肢ではなく、むしろ他のアルゴリズムと組み合わせてリスクを慎重に軽減し、可能な限り最高の精度を達成する必要があります。

さらに、高額なハードウェアコストは、ChatGPTの普及を阻む大きな障害となっています。そのコストは、トレーニングと推論という2つの主要なフェーズに分けられます。1セッションのトレーニングにかかる​​コストは約500万ドルと推定されています。推論フェーズでは、Similarwebのデータによると、2023年1月のChatGPTの1日あたりのアクティブユーザー数は約1,300万人で、各ユーザーは平均約1,000語の質問を投稿し、結果として約130億語(173.3億トークン)に達しました。タスクが24時間にわたって均等に分散されると仮定すると、必要なA100 GPUの数は、173.3億×2×3,000億/(20%×24時間×3,600秒)=601.75ペタフロップス/秒となります。トラフィックのピークが 1 日の平均の 5 倍であると仮定すると、現在のトラフィック量を処理するには合計 602 台の DGX A100 サーバーが必要となり、1 日の電気代だけで約 50,000 ドルに達します。

将来の展望

最近リリースされたGPT-4は、大規模言語モデルの潜在能力を改めて人々に驚かせました。様々な専門試験や学術試験において、人間のような能力を発揮しています。学界と産業界の両方が、大規模言語モデルの汎用人工知能に向けた継続的な進歩を熱心に期待しており、特に注目すべき3つの有望な技術方向性が挙げられます。

まず、LLMの複雑な推論能力の向上です。前述の通り、GPTのようなモデルの推論能力は近年急速に向上していますが、複雑な推論能力は依然として弱いです。単純な加減乗除算でさえ、入力文字列が長すぎると推論能力が大幅に低下します。GPTのような大規模言語モデルの推論能力を、コード学習や他のデータ型の追加を通じてどのように向上させるかは、今後の重要な課題の一つです。

二つ目は、マルチモーダルLLMです。GPT-3.5と比較して、新たにリリースされたGPT-4は、画像やテキストなど、様々なデータタイプの入力を受け付け、テキストを生成できる、アップグレードされたマルチモーダル大規模モデルです。デモンストレーションでは、GPT-4は自然画像だけでなく文書画像も認識できることが示されており、その優れた能力を実証しています。人間が視覚、聴覚、触覚、嗅覚、味覚という五感を持っているように、人工知能もマルチモーダルな入出力を行うことができます。将来的には、画像、動画、音声などのデータをマルチモーダル処理で大規模モデルに統合することで、汎用人工知能の開発と応用はさらに想像力豊かになるでしょう。

3つ目は、Embodied Visionです。GPT-4は人間の脳に似ていますが、GPUクラスター上で動作します。Embodied Visionとは、GPT-4に身体を与え、モデルが現実世界と通信・相互作用し、フィードバックを受け取り、継続的に最適化できるようにすることです。マルチモーダルLLMはGPT-4に知覚能力を与え、高密度な情報を聞き、見ることができるようにします。Embodied Visionは、将来のモデルが現実世界を知覚し、より包括的な情報を受け取ることを可能にします。将来的には、「インテリジェントカスタマーサービス」はチャットウィンドウ内に存在するだけでなく、人間とのインタラクション方法を用いて、現実世界での基本的なタスク、さらには基礎・中級レベルの知識タスクの完了を支援できるようになるかもしれません。これにより、人工知能の汎用性は高まります(図3を参照)。

図 3. 人工知能の認知範囲は常に拡大しています。

本稿では、大規模モデルの学習パスを概観し、ChatGPTの金融分野における応用シナリオを紹介し、その限界を指摘するとともに、将来の技術開発の方向性について分析する。将来的には、産学連携により、具体的なビジネスシナリオから得られるマルチモーダルデータを学習プロセスに組み込むことで、大規模モデルのさらなる技術開発と実用化を促進することができるだろう。