|
フィンテックの継続的な発展に伴い、金融機関は従来の手法を変革し、より多くのサービスをオフラインからオンラインへと移行させています。顧客体験と効率性を向上させるため、金融機関は自然言語処理や機械学習などの技術を常に模索し、顧客サービスの最適化に取り組んでいます。中でも、大規模モデル技術は広く応用され、最も人気のある研究分野の一つとなり、AGI(非同期生成知能)への現在の道筋を象徴しています。大規模モデルへの初期の注目は、NLP(自然言語処理)分野に端を発しています。マルチモーダル機能の進化に伴い、CV(コンピュータービジョン)や汎用マルチモーダル大規模モデルが徐々に市場開発の主流となっています。 I. 大規模モデル開発の背景(I)大規模言語モデルの誕生段階• 2017 年に、Google は自然言語タスクを処理するための Transformer ニューラル ネットワーク アーキテクチャを発表しました。 • OpenAIは2018年にGPT-1をリリースしました。 (II)大規模言語モデル探索フェーズ• 2019年に、OpenAIはGPT-2オープンソースモデルの一部をリリースしました。 • Googleは2019年にBERTモデルをリリースしました。 • 2020年に、Baiduは意味的に理解可能な言語であるERNINE 2.0をリリースしました。 • 2021年、OpenAIは画像内にテキストを生成できるDALL-Eモデルをリリースしました。 • Facebook が CLIP モデルを導入しました。 HuaweiがPanguの大型モデルをリリース。 • OpenAI が Codex を立ち上げました。 (III)大規模言語モデルの爆発段階• 2022年にOpenAIはChatGPT-3.5をリリースしました。 2023年、OpenAIは画像および動画処理を可能にするGPT-4事前学習済み大規模モデルを正式にリリースしました。GPT-3.5と比較して、その性能は大幅に向上し、一部の専門分野および学術分野では人間レベルの性能に達しています。GPT-4は一定のマルチモーダル機能を備えており、画像とテキストを組み合わせた入力を受け取り、テキスト応答を出力することで、その応用範囲をさらに拡大しています。 MicrosoftはChatGPTをベースにした新しいBingをリリースしました。また、GPT-4がOfficeスイートに統合されることも発表しました。 • Facebook が LLaMA - 13B をリリース。 • Google が Bard をアップデートし、Palm 2 モデルを発売。 • 復旦大学チームがMOSSをリリース。 アリババは、マルチターン対話、コピーライティング、論理的推論、マルチモーダル理解、多言語サポート、外部拡張APIを特徴とする大規模言語モデル「同義前文」をリリースしました。現在、DingTalkやTmall Genieなどの製品が同義前文をテスト的に統合しており、Gaode Maps、Ele.me、Hema、Youku、Taopiaopiaoなどの製品も段階的に同義前文モデルに統合される予定です。最終的には、アリババのすべての製品がこの大規模モデルに統合される予定で、OPPO、Geely、Zhijiなどの企業との連携も予定されています。 • SenseTimeは「SenseNova」大規模モデルシステムをリリースし、言語大規模モデル「SenseChat」や一連の生成AIアプリケーションを含む、自然言語処理、コンテンツ生成、自動データ注釈、カスタムモデルトレーニングなどの大規模モデルと機能を開始しました。 ファーウェイのPanguビッグデータモデルは、産業向けAIに注力しており、様々な分野のアプリケーションを強化し、AI開発を「ワークショップ型」から「産業化」アプローチへと進化させる可能性を秘めています。Panguは、ModelArts 2.0 AI開発プラットフォーム、Ascend 910コンピューティングチップ、Zhaohan A5900-AシリーズAIトレーニングサーバーといった自社開発技術を活用しています。Ascend AIの産業エコシステムは、既に20社以上のハードウェアパートナーと1,000社以上のソフトウェアパートナーに拡大しています。 • テンセントHunYuan AI大規模モデル。HunYuanは、テンセントの事前学習R&D能力と連携し、業界をリードするAI事前学習済み大規模モデルとソリューションを開発しています。テンセントの大規模モデルは、WeChat、ゲーム、ショートビデオ、広告、B2Bサービスなど、テンセントの強みのある事業と統合可能です。テンセントは、SaaSアクセラレータとWeChat事業において、多数のパートナーと提携しています。 II. 大規模モデルの開発履歴とアーキテクチャ(I)大型モデルの開発の歴史ルールベースから人間の意識に基づくアプローチまで、大規模言語モデルは技術進歩の必然的な産物です。自然言語処理から大規模言語モデルへの発展は、ルールベース、統計的機械学習、深層学習、事前学習、大規模言語モデルの5つの段階に分けられます。1956年から1992年にかけて、ルールベースの機械翻訳システムはさまざまな機能モジュールを内部に統合していました。人間はまずデータから知識を獲得し、ルールを要約し、それを機械に教え、機械はこれらのルールを実行しました。この段階はルールベース段階として知られています。1993年から2012年には、統計的機械学習段階が起こりました。機械翻訳システムは、言語モデルと翻訳モデルに分類できます。この段階は前の段階よりも急激で、人間が知識を伝達することから、機械がデータから自動的に知識を学習することに移行しました。当時、手動でラベル付けされたデータの量は約数百万でした。2013年から2018年にかけて、深層学習段階が始まりました。この段階は前の段階ほど急激ではなく、離散マッチングから連続マッチングへと進化しました。モデルは大規模化し、ラベル付きデータの量は数千万にまで増加しました。事前学習段階は2018年から2022年まで存在しました。前の段階と比較して最大の変化は、NLP自己教師学習の追加であり、これにより利用可能なデータがラベル付きデータからラベルなしデータへと拡大しました。 図 - 大規模モデル開発の段階 大規模モデルの段階では、データアノテーション、アルゴリズム、そしてヒューマンマシンインタラクションにおいて、大幅な性能向上が見られました。2023年以降、この段階は急速な変化を特徴とし、専門的なタスクから汎用タスク、あるいは自然言語によるヒューマンマシンインターフェースへと移行し、機械が人間の意志に従うことを目指しています。データアノテーションの面では、大規模モデルは大量のラベル付きデータを必要とするものから、大量のラベルなしデータを活用するものへと進化しました。ますます多くのデータが利用され、人間の介入は少なくなっています。将来的には、テキストデータやその他の形式のデータがモデルによって利用されるようになるでしょう。アルゴリズムの面では、大規模モデルはますます表現力豊かになり、規模が大きくなり、より自律的に学習するようになり、汎用アプリケーションへの明確な傾向を示しています。 (II)大規模モデル技術ルート大規模言語モデル研究には、BERT、GPT、そしてハイブリッドアプローチという3つの主要な技術的アプローチがあります。国内では、ほとんどのモデルがハイブリッドアプローチを採用していますが、主流の大規模言語モデルの多くはGPTアプローチを採用しており、2022年末にはGPT-3.5をベースに開発されたChatGPTが登場しました。2019年以降、BERTアプローチでは目立った新モデルの更新がほとんど見られず、GPTアプローチが隆盛を極めています。BERTからGPTへの進化において、モデルはますます大規模化し、達成される性能はより汎用的になっています。 大規模モデルの今後の発展は、汎用化と専門化、そしてプラットフォーム化と簡素化が同時に進むでしょう。同時に、MaaS(Machine-as-a-Service)モデルがAI応用の新たな形態として急速に発展し、AI産業の商業構造とエコシステムを再構築し、産業チェーン全体にわたる新たな分業体制とビジネスモデルを刺激するでしょう。将来的には、大規模モデルはユーザーの生活や企業の生産モデルに深く融合し、創造性と生産性を解き放ち、創造的思考を刺激し、仕事のパターンを再構築し、組織変革と業務効率化を支援し、産業変革を促進するでしょう。 (III)大規模モデルの技術アーキテクチャChatGPTの技術に代表されるAIを活用した大規模言語モデルは、AIイノベーションの新たな波を巻き起こし、大規模言語モデル技術の世界的な競争を巻き起こしています。テクノロジー大手は導入を加速させており、生成AI分野は活況を呈しています。大規模AIモデルの技術アーキテクチャは、基盤層、技術層、能力層、アプリケーション層、ユーザー層の5つの主要層に分かれています。基盤層には、ハードウェアインフラストラクチャと、データ、コンピューティングパワー、アルゴリズムモデルという3つのコア要素が含まれます。技術層は主にモデル構築に関与し、現在、BERTやGPTシリーズなどの大規模AIモデルの分野ではTransformerアーキテクチャが主流となっています。大規模AIモデルには、NLP大規模モデル、CV大規模モデル、マルチモーダル大規模モデルなどがあります。能力層は、テキスト、オーディオ、画像、ビデオ、コード、戦略、マルチモーダル生成などの機能を備えており、複数の分野に適用され、顧客に製品とサービスを提供しています。アーキテクチャ図を以下に示します。 III. カスタマーサービスセンターにおける大規模モデルの応用カスタマーサービスセンターにおける大規模モデルの開発と適用には、データリソース、アルゴリズムとモデル、そして資金とリソースという3つの重要な要素が必要です。現在、カスタマーサービスセンターにおける大規模モデルの適用は、高い計算能力要件、高いトレーニングおよび推論コスト、低いデータ品質、クロスシナリオ適応性の低さ、高い知識ベース構築コスト、そしてプライバシーとセキュリティの問題といった課題に直面しています。カスタマーサービスセンターにおける大規模モデルの適用における主な問題は、以下のとおりです。
カスタマーサービス業界は、オンラインサービスに関するデータが不足しており、データの多様性が保証されていません。データアノテーションの難しさから、蓄積されるデータの量と質が制限されています。ナレッジベースは一般化された知識しか提供しておらず、エントリ数と質が低下しています。
新しいオンラインカスタマーサービスシナリオでは、データセットの制限や知識ベースの不足といった課題が初期段階で発生します。モデルの機能強化にはプロジェクト経験の蓄積が必要であり、業界固有のモデルには体系的な改善が必要です。大規模モデルでは、データ管理経験、プライベートコンピューティングインフラストラクチャの構築と運用能力、基盤システムの最適化とアルゴリズム設計能力など、フルスタックのトレーニングと開発能力が試されます。
複雑で厳密かつ柔軟な論理的推論と自己学習機能は、依然として大規模言語モデルのほとんどが直面する中核的な課題です。現在知られている大規模言語モデルの新たな機能は、論理的推論をはじめとする様々な分野における基本的なパフォーマンスを決定づけます。ほとんどの大規模言語モデルは、人間の感情について単純な判断を下すことができます。しかし、顧客サービス業界では、理解と感情的なニーズに基づいたコンテンツの作成が必須となっています。論理的推論を超えて人間の感情を理解することは、インテリジェントな顧客サービスのためのより高度な思考を意味します。現在、ほとんどのファイナンシャルアドバイザーは、基本的な商品紹介や推奨を提供することしかできず、膨大で多様かつ急速に変化する金融市場データを包括的、詳細、柔軟かつ効果的に分析する能力が不足しており、投資調査の効率性が低いという問題があります。
IV. 大規模モデルの将来的発展展望顧客数の増加に伴い、カスタマーサービスセンターへの期待も高まっています。そのため、銀行のカスタマーサービスセンターは、堅牢なカスタマーサービスサポートを提供することが重要です。そのためには、大規模なディープラーニングと転移学習を活用して特定のシナリオにおけるAIアシスタント機能を強化し、自然言語処理、コンピュータービジョン、インテリジェント音声、ナレッジグラフなどの既存のAIコア技術を統合し、銀行カスタマーサービスセンター向けの包括的なAI大規模言語モデル機能システムを構築する必要があります。さらに、生成AIの安全な適用のために、関連規制の改善と改良が不可欠です。倫理的リスクに対処し、有害で違法なコンテンツの生成と拡散を防ぐための効果的なコンテンツレビューと監視メカニズムを確立する必要があります。大規模言語モデルの適用に対する技術的な監督とレビューを強化することも重要です。最後に、大規模言語モデルの実用化に向けた具体的なリスク防止策と方法を模索する必要があります。 カスタマーサービスロボットの意図理解能力を強化します。カスタマーサービスセンターの大規模モデルと専門データを組み合わせることで、カスタマーサービスロボットの意図理解能力を向上させることができます。カスタマーサービス業界のモデルに基づく意図解析により、初期導入コストを削減します。大規模モデルのナレッジグラフ、自然言語処理技術、アルゴリズムモデルを活用することで、複雑な質問をシンプルでわかりやすい指示に変換し、より正確な回答を提供できます。 動画/バーチャルヒューマンのインタラクション能力を強化。生成AIと大規模言語モデルの統合により、動画/バーチャルヒューマンの制作サイクルが大幅に短縮され、制作プロセスが簡素化されます。同時に、大規模モデルによるユーザー言語ロジックの理解が深まることで、カスタマーサービスシーンにおけるバーチャルヒューマンの認識、知覚、分析、意思決定能力が大幅に向上し、コミュニケーションにおけるインタラクションを強化し、ユーザーのパーソナライズされたニーズをより正確に満たすことができます。 |