HUOXIU

中国農業銀行は金融AIビッグデータモデル製品「ChatABC」の発売に成功しました。

最近、ChatGPTに代表される大規模AIモデルアプリケーションの急速な発展は、金融業界内でこれらのモデルとその適用シナリオに関する幅広い議論と探究を引き起こしました。中国農業銀行のAI研究開発チーム(以下、AI研究開発チーム)は、AI分野での深い耕作と長期にわたる探究に基づき、独自に開発したAIイノベーション能力システムを頼りに、大規模AIモデルの応用を積極的に模索しました。業界で初めてChatGPTのような大規模AIモデルアプリケーションであるChatABC(中国名:小数)をリリースし、中国農業銀行の技術Q&Aシナリオで社内パイロットプログラムを実施しました。この経験は、大規模AIモデルの将来の応用への道を開き、貴重な洞察を蓄積しました。

イノベーション主導

大規模金融AIモデルのパイロットアプリケーション

OpenAIがリリースした汎用AI対話サービスであるChatGPTは、リリースから3か月以内に月間アクティブユーザー数が1億人を突破し、史上最速で成長するコンシューマーアプリケーションとなりました。これまでのチャットボットと比較して、ChatGPTは3つの生産性機能を同時に備えた初めてのチャットボットです。1つ目は、人間のようなコミュニケーション機能で、マルチターンの人間のような対話をサポートし、より正確にコンテキストを理解し、常識的な質問への回答やコンテンツ合成などのタスクを可能にします。2つ目は、マルチタスク生成機能で、小サンプルまたはゼロサンプル学習から知識を生成し、コピーライティング生成、テキスト要約、言語翻訳などのタスクを可能にします。3つ目は、推論機能で、人間のプロンプトを通じて論理的推論を実現し、コード生成や論理計算などのタスクを可能にします。ChatGPTや同様の大規模モデルアプリケーションは、質問応答知識の不正確さ、知識更新の難しさ、データセキュリティとプライバシー保護などの課題にも直面しています。

ChatGPTの中核技術は、数千億のパラメータを持つ大規模言語モデルです。近年、AI業界、学界、研究分野は、大規模モデルの応用展望に大きな期待を示しています。国内外のハイテク企業、オープンソース組織、有名大学が、大規模モデルに多大な労力とリソースを投入しています。OpenAIやMicrosoft以外にも、GoogleのT5やBard、MetaのLLAMA、BaiduのWenxin Yiyan、HuaweiのPanguといった製品が、継続的に進化し、急速に進化を続けています。大規模モデルの成功は、コンピューティング能力、アルゴリズム、データ、ツール、そして人材の継続的な蓄積とブレークスルーにかかっています。

図1. R&DサービスQ&Aアシスタント

大規模言語モデル(LLM)技術の急速な発展とその応用価値の継続的な出現に伴い、中国農業銀行のAI研究開発チームは最先端のLLM技術を積極的に採用してきました。アプリケーションに応用価値を与えることを目指し、独自の研究開発能力に基づき、業界で初めてChatGPTに類似したAI大規模モデルアプリケーション「ChatABC」を開発しました。ChatABC 1.0は、教師ありモデルの微調整、強化学習、自己学習といった最新の大規模モデルアプリケーション技術を活用しています。異種知識ベースと知識拡張により、中国農業銀行のIT知識ベースに完全に統合され、ドメインレベルの知識理解と質問応答機能を備えています。中国農業銀行の研究開発支援プラットフォームを通じて、質問応答アシスタントや自動作業指示応答アシスタントなどの社内向け試用が可能で、より豊富でパーソナライズされた信頼性の高い新しい検索サービス体験と、インテリジェントで効率的な作業指示サポートサービスをユーザーに提供しています。

基盤を強化する

大規模金融AIモデルの能力を探る

中国農業銀行のAI研究開発チームは長年にわたり、デジタル変革戦略を深く実行し、常に新しいAI技術を追跡・探求し、フルスタックの独立した人工知能サービスプラットフォームの構築を全面的に推進し、コンピューティング能力、データ、モデル、ツール、アプリケーションを統合したAI大規模モデルイノベーションアプリケーションシステムの構築を継続的に模索し、大規模モデルのパイロットアプリケーションのレベルを向上させてきました。

図2. 5 in 1 AI大規模モデル革新的アプリケーションアーキテクチャ

1. コンピューティングパワー: クラウドネイティブな異機種コンピューティングパワーのための新たな基盤の構築

コンテナ化技術を基盤として、GPUやNPUといった各種AIチップの統合パッケージングと管理を推進し​​、異機種混在チップの統合管理を実現します。Kubeflowなどのクラウドネイティブオーケストレーション技術を深く適用し、トレーニングタスクのきめ細かな動的スケジューリングをサポートすることで、AIコンピューティングパワーの利用効率を大幅に向上させます。この統合クラウドネイティブコンピューティングパワー基盤は、複数のコンピューティングリソースの統合管理とスケジューリングを可能にし、大規模なAIモデルのトレーニングのための強力なコンピューティング基盤を形成します。

2. データ: 大規模モデルの継続的な反復のための新しい閉ループを確立します。

「収集、構築、管理、活用」という閉ループを軸に、大規模モデルの学習と継続的な改善のための基礎データ閉ループを構築します。最適なデータ配分とは、内部データと外部データの比率を合理的に調整し、データ品質をクリーニング・向上させることです。賢いデータ収集とは、ユーザーの好き嫌いや質問への回答を巧みに設計し、人間のユーザーからの回答を収集することで、継続的なモデルの最適化と学習のための「燃料」とすることです。自己強化とは、ユーザーの評価データを活用して報酬モデルの精度を継続的に向上させ、強化学習によってモデルが「両手で作業する」ことを可能にします。

3. モデル: 複数のモデルを統合した新しいオープンエコシステムの構築

AIプラットフォームはオープンフレームワークを採用し、コンポーネントベースのアプローチを通じて、様々なオープンソースおよび商用モデルを迅速に統合しています。オープンソースモデルの最新動向を継続的に追跡し、質問応答やテキストベクトル化など、様々なシナリオに適応したモデルライブラリを段階的に構築しています。HELMなどのモデル評価システムを参考に、金融セクターに特化したモデル評価システムを最初に構築しました。モデルの品質は、そのメトリクスによって決定されます。

4. ツール: モデル組立ラインのレイアウトと新しいパイプラインのトレーニング

AIプラットフォームは、Kubeflowなどの基盤コンポーネントを活用し、大規模AIモデル向けに複数のトレーニングパイプラインを構築しています。標準化されたパイプラインにより、大規模AIモデルの微調整を自動化し、新規トレーニングモデルの構築効率を大幅に向上させます。また、複数モデルの並列トレーニングをサポートし、モデルの実験、比較、最適化を可能にします。DeepSpeedやFastTransformerなどの高速化フレームワークを深く適用することで、モデルの並列性やデータの並列性といったトレーニングの課題に対処し、大規模AIモデルのトレーニングと推論の効率を向上させます。

5. 応用:大規模モデルにおける知識融合のための新しいアーキテクチャの探求

全文検索や知識推論を含む様々な知識検索シナリオをサポートする異種知識ベースを構築します。全文検索フレームワークを詳細にカスタマイズすることで、文書ベースの知識の高性能かつ正確な検索をサポートします。知識グラフ技術を活用して概念ベースの知識グラフを構築し、知識推論を通じて知識推論能力を強化します。信頼性に基づくモデルベースの質問応答と知識ベース検索のための評価システムを開発し、マルチソース知識のシームレスな統合を実現します。

中国農業銀行のAIチームは、5in1のAIイノベーション能力システムを基盤として、2020年から大規模モデル関連技術の研究とパイロットアプリケーションを実施してきた。例えば、BERT(約1億パラメータ)を使用して企業の世論認識モデルを構築し、世論の内容の抽出と分析、感情分類を可能にした。また、CBNet-v2モデル(約4億5000万パラメータ)を使用して、スマート畜産における牛認識用の大規模モデルを構築し、牛の正確なピクセルレベルのセグメンテーション、位置特定、およびカウントを可能にした。

ChatABC大規模モデルの構築は、金融分野におけるモデルの知識理解、コンテンツ生成、そして安全な質問応答機能に重点を置いています。大規模モデルの微調整、プロンプティングエンジニアリング、知識強化、検索強化、そして人間によるフィードバックによる強化学習(RLHF)など、大規模モデルに関連する新技術の徹底的な探究と包括的な応用を実施しました。中国農業銀行のR&D支援知識ベース、内部の質問応答データ、そしてトレーニングと最適化のための手動ラベル付けデータなどの金融知識を統合し、包括的な金融知識理解とインテリジェントな質問応答アプリケーションを実現しています。

開放性と統合

金融AIビッグモデルの未来を受け入れる

ChatABCの大規模モデルバージョン1.0のリリースは、金融分野におけるAI大規模モデルの応用における重要なマイルストーンです。大規模モデル技術の急速な発展と応用シナリオの継続的な実装により、大規模モデルの応用の将来は有望です。しかし、金融分野における大規模モデルの応用には、3つの大きな課題が残っています。第一に、技術選択の難しさ。大規模モデル技術の急速な発展と、国内外での商用モデルおよびオープンソースモデルの急速な発展により、わずか1か月で数十の類似モデルがリリースされ、小型化とモジュール化の傾向により、基本的な大規模モデルの選択がさらに複雑になっています。第二に、信頼性の高い使用の難しさ。大規模モデルは確率的推論に基づいているため、結果として得られる知識の正確性を保証することが困難です。さらに、知識の更新は大規模モデルのトレーニングに依存しているため、コストが高く、効率が低くなります。同時に、ブラックボックスモデルである大規模モデルは、モデルの公平性、データセキュリティ、プライバシー保護といった分野におけるコンプライアンス遵守の確保には、依然として継続的な検討が必要です。第三に、シナリオ拡張の難しさです。大規模モデルは新しい技術であるため、基盤となるフレームワークのサポート、モデルの学習、データ収集とアノテーション、知識ベースの構築など、多くの課題を伴います。モデル学習の非収束性、データ品質の低さ、アノテーションコストの高さ、シナリオ発見の難しさといった問題は、大規模モデルの効果的な応用を制限しています。

数多くの課題を抱えながらも、金融分野における大規模AIモデルの応用は依然として大きな可能性を秘めています。未来を見据え、変化を受け入れるために、私たちは以下の点に取り組んでいく必要があります。第一に、技術のオープン性を維持し、商用モデルとオープンソースモデルの両方を有効活用し、オープンアーキテクチャとエコシステムの構築という二本柱のアプローチを採用し、大規模モデルのプラガブルサービス機能の強化に注力することで、技術のオープン性を確保します。第二に、その利用の信頼性を探求し、大規模モデル+知識ベースのアーキテクチャ設計を強化し、大規模モデルによる質問応答の信頼性を向上させます。同時に、データ側とアプリケーション側の管理を強化します。データ側では、徹底したデータスクリーニングとクリーニングを実施し、データ品質を向上させます。アプリケーション側では、アプリケーション管理を強化し、業務アプリケーションのリスクを軽減します。第三に、シナリオの標準化を強化し、金融アプリケーションシナリオに重点を置き、データ、アノテーション、モデル選択、モデルトレーニング、モデル評価の標準とコンポーネントを策定し、シナリオアプリケーションの標準化を継続的に改善し、トレーニングとコミュニケーションを強化し、大規模モデルアプリケーションに対する理解を深めます。

大規模AIモデリング技術の急速な発展に伴い、金融業界における大規模AIモデルの応用はもはや「活用するかどうか」の問題ではなく、「いかに効果的に活用するか」の問題となっています。中国農業銀行のAI研究開発チームは、五位一体型AI大規模モデルの革新と応用能力を継続的に強化していきます。オープン性、標準化、信頼性の原則を堅持し、大規模モデリング機能のパイロット適用を積極的に推進することで、他の金融機関にさらに貴重な経験を提供し、金融業界の品質、効率、コスト削減の向上に貢献していきます。