HUOXIU

中原銀行のAIプラットフォーム構築実務

はじめに:この記事では、中原銀行が AI プラットフォームを構築する過程で行った実践と考察の一部を紹介します。

これについては、次の側面から議論されます。

1. AIプラットフォーム構築目標

2. AIプラットフォーム構築の実践

3. AIプラットフォーム構築に関する考察

4. ModelOpsの実装プラクティス

ゲスト スピーカー: Liu Shuhua、中原銀行 AI プラットフォーム責任者

編集・編集: 九江銀行、ホウ・アオ

コミュニティ制作 | DataFun


01

AIプラットフォーム構築目標

まず、中原銀行 AI プラットフォームの構築の背景、目標、プロセス、そしてプラットフォームの構築方法論、具体的には MLOps に関連するいくつかの概念について紹介します。
1. 建設の背景

AI モデルの完全な開発プロセス:
  • まず、ビジネス要件を分析し、ビジネス目標を決定し、設定された目標に従って必要なデータを収集する必要があります。その後、データはクレンジング、ラベル付け、処理されます。
  • データが準備できたら、特徴量エンジニアリングとモデルのトレーニングを実行できます。モデルのトレーニングが完了し、評価に合格したら、本番環境にデプロイできます。
  • 最後に、本番環境にデプロイされたモデルを監視します。モデルのパフォーマンスが一定レベルまで低下した場合は、タイムリーに更新と反復処理を実施する必要があります。これは、AIモデル開発において比較的標準化されたプロセスです。
従来のアプローチでは、ExcelまたはCSVファイル形式でデータを準備し、高性能なCPUまたはGPUサーバーをリクエストし、ノートブックを使用してモデル実験を実施することで最終モデルを取得する必要がありました。データサイエンティストは専門性が高いため、エンジニアリング能力が一般的に低く、モデルのデプロイ時に問題が生じる可能性があります。デプロイ後も、モデルは継続的な反復開発が必要となり、本番環境の安定性を確保するために頻繁なモデルデプロイが必要になります。
従来のアプローチの問題点:
  • 技術的な観点から見ると、計算リソース(サーバー)は各個人が申請・利用するものであり、全体としてリソースの偏在につながります。また、サーバーの分離はデータやリソースの共有・再利用を困難にするだけでなく、モデルの学習環境の一貫性を欠き、後々の保守や業務の引き継ぎに支障をきたす可能性があります。
  • データストレージの同期に関しては、各人が自分のデータを同期して管理する必要があるため、ストレージとデータ管理のオーバーヘッドが増加し、データパイプラインの開発と保守を担当するスタッフの作業負荷も増加します。
  • モデル構築に関しては、従来の開発ツールは比較的初歩的であり、モデルの開発と評価のプロセス全体を手動で実装する必要があります。
  • コードとモデルの管理に関しては、従来の AI モデル開発プロセスでは、一般的にコードとモデルのバージョン管理が欠けています。
  • モデルのデプロイメントとオンラインデプロイメントに関して、従来のデータサイエンティストは、リアルタイムのサービスリリースやバッチスケジュールによるモデルスケジューリングにおいて一定の困難に直面しており、これが継続的インテグレーション、デプロイメント、トレーニングプロセスの中断につながっています。一方、モデルの開発とデプロイメントは、データ処理、モデル構築、デプロイメント、オンラインデプロイメントなど、複数の役割間の連携を伴うエンジニアリング上の問題です。共同作業プラットフォームの欠如は、これらの役割間の連携を妨げています。
2. 建設目標

上記の課題とアプリケーションシステムのDevOpsを考慮すると、プラットフォーム開発者はAIモデルの開発、展開、立ち上げ、保守をワンストップで提供するプラットフォームの提供を積極的に検討するでしょう。そのため、中原銀行のAIプラットフォーム構築目標には、主に以下の側面が含まれています。
  • まず、コンピューティング能力、ストレージ リソース、アルゴリズム フレームワークなど、モデルの開発とトレーニングに必要な基本的な環境とリソースの管理を統合し、特定の詳細を一般ユーザーから隠すことで、リソースの共有、再利用、すぐに使用できる使いやすさを真に実現します。
  • モデルの開発とトレーニングに必要な開発環境を統合し、アプリケーション コードの開発とデバッグのための統合開発環境を提供し、インテリジェントなバージョン管理ツールも提供します。
  • モデリングに必要なデータについては、プラットフォームは統一されたデータアクセス、ストレージ、管理、ガバナンスサービスを提供する必要があり、同時に、データの共有と再利用を改善するために、公開データと非公開データの権限管理とライフサイクル管理を強化する必要があります。
  • 最後に、プラットフォームは、モデルの開発とトレーニングのためのワンストップエンジニアリング機能も提供して、モデルのトレーニングと評価の効率を向上させ、モデルの展開、オンライン展開、および監視の難易度を軽減する必要があります。
3. MLOpsのコンセプト
上記のAIプラットフォーム構築の目標紹介から、中原銀行のAIプラットフォーム構築へのアプローチは、現在主流のMLOpsのコンセプトと一致していることがわかります。ここで、MLOpsについて簡単にご紹介します。

MLOps(機械学習時代のDevOps)は、MLシステム開発(Dev)とMLシステム導入(Ops)の統合を目指しています。その主な機能は、モデル構築チームとビジネスチーム、そして運用チームを連携させ、モデル開発、導入、運用のための標準化されたプロセスを確立することです。これにより、MLベースのアプリケーションにおける増大するエンジニアリング上の課題に対処し、組織が機械学習機能をより効果的に活用してビジネス成長を促進できるようになります。
MLOps が解決を目指す中心的な問題は次のとおりです。
  • モデルの開発と展開の反復サイクルを短縮します。多くの企業がモデルの立ち上げに30~90日を要しており、中には90日以上かかる企業もあることが報告されています。
  • 一部のアルゴリズム エンジニアはモデルのデプロイメントに過度に多くの時間を費やしているため、MLOps は、より標準化され自動化されたプロセスとインフラストラクチャを通じて、モデル配信の全体的な効率を向上させることを目指しています。
  • もう 1 つの中心的な問題は、MLOps が、ビジネス、データ、アルゴリズム、運用などの役割が効率的に連携しながらそれぞれの強みに集中できるようにし、それによってビジネスの価値出力を高めることができる連携プラットフォームを提供することを目指していることです。

MLOps の原則は次のとおりです。
  • 自動化 - データ アクセスからモデルのトレーニング、最終的なデプロイメントまで、自動化できるものはすべて自動化します。
  • 継続性、つまり継続的インテグレーション、継続的デプロイメント、継続的トレーニングにより、運用モデルをタイムリーに更新および反復できるようになります。
  • データ、コード、モデルに対してバージョン管理を実装する必要があります。
  • テストでは、データ、モデル、アプリケーション パイプラインをテストして、出力結果が期待されるビジネス目標と一致することを確認する必要があります。
  • 監視では、データとモデルを監視して、モデル内の異常な状況をタイムリーに検出し、早期警告をトリガーできるようにする必要があります。
  • 再現性は、モデリング プロセス全体と結果が再現可能であることを保証する必要があります。
4. 建設プロセス
上記のような背景、目標、MLOps 手法に基づき、中原銀行は 2019 年に北京九張クラウド テクノロジー株式会社との連携を開始し、AI プラットフォームの構築に着手しました。

このプラットフォームは近年、主に以下の段階を経てきました。
  • この製品は2019年8月に初めて発売されました。
  • 2020年10月にコンピューティングクラスターを拡張し、バージョンアップしました。
  • 2022年9月にトレーニングクラスターと推論クラスターが分離されました。
  • 現在、災害復旧環境を構築中です。
02
AIプラットフォーム構築実務
上記は、AIプラットフォームの構築目標と方法論の全体像を示したものです。パート2では、MLOps方法論とAIモデリングプロセスに基づき、AIプラットフォームに備わるべき機能と注意すべき課題について具体的に紹介します。

この機能アーキテクチャ図に示されているように、中原銀行のAIプラットフォームは、データアクセス、データ前処理、データ探索、モデルトレーニング、モデル評価、モデル展開、モデルサービスなど、モデリングプロセスを中心としたいくつかの主要機能を提供しています。また、プロジェクト管理機能とシステム管理機能も提供しています。以下では、プラットフォームユーザーの観点から、AIプラットフォームの各モジュールが提供すべき機能と、留意すべき課題について簡単に紹介します。
1. データアクセスと管理

データアクセスに関しては、プラットフォームは複数のデータアクセス方法に加え、データ管理およびメタデータ管理機能を提供します。また、データアクセスと分析をサポートしており、ユーザーはデータの分布や品質といったデータの基本情報を迅速に把握できます。
2. データの処理と操作

データの前処理とデータ探索に関して、中原銀行の AI プラットフォームには次の機能があります。
  • データ探索を実行する前に、データ探索タスクを作成する必要があります。タスクの作成中、プラットフォームは必要なコンピューティングリソースとストレージリソースを管理および割り当てます。
  • このプラットフォームは、事前に構築されたデータ処理および特徴エンジニアリング関連の演算子を使用して、Web ページ上またはドラッグ アンド ドロップによって、データのクリーニング、変換、統計、特徴の変換と導出、および特徴の選択をユーザーが実行できるようにサポートできます。
  • このプラットフォームは、事前に設定された視覚化演算子を通じてデータ処理プロセスを視覚化できるため、ユーザーは各処理ステップ後のデータセットの変化をタイムリーに理解できます。
  • データ処理と特徴エンジニアリングのプロセスを保存できるため、後で再実行したり、新しく受信したデータに対して同じデータ処理プロセスを実行したりするのに便利です。
3. モデルの開発とトレーニング
データ処理が完了すると、モデルの開発とトレーニングを開始できます。
  • モデル開発に関しては、プラットフォームは3つのモデリング手法を提供していますデータサイエンティスト向けのセルフコーディングモデリング、 ITエンジニア向けのワークフローモデリング(ドラッグアンドドロップモデリング) 、そしてビジネスユーザー向けの自動モデリングです。これら3つの手法により、異なる役割や能力を持つ人々がAIモデル構築プロセスに参加できるようになり、インテリジェントアプリケーションへの参入障壁を下げます。
  • モデルトレーニングに関しては、プラットフォームは、モデルのハイパーパラメータの調整、トレーニングリソースの適用と構成、トレーニング環境のカスタムインストール、トレーニングプロセスのリアルタイムの視覚的監視、トレーニングログの表示などの機能を提供します。

① コーディングモデリング

セルフコーディングモデリングのために、プラットフォームはすぐに使用できる統合開発環境を提供し、ユーザーがPythonやRなどの複数の言語を使用してモデルを開発、デバッグ、公開することをサポートします。Function as a Service(FAAS)テクノロジーにより、ユーザーは自分のワークスペースでさまざまなファイルを操作できるだけでなく、プロジェクト全体でデータセットや演算子などのオブジェクトを直接使用できるため、同じプロジェクト内の異なるユーザーロール間のコラボレーションが向上します。
②ワークフローモデリング

ワークフローモデリングでは、データセット、データ処理オペレーター、特徴量エンジニアリングオペレーター、モデルトレーニングおよび評価オペレーターをドラッグ&ドロップすることで、ニーズに合わせてワークフローを迅速に構築できます。また、このプラットフォームはワークフローのステップバイステップのデバッグもサポートしています。例えば、ワークフロー全体を実行することなく、ここまで実行、ここから実行、このノードをステップバイステップで実行といった操作が可能です。これにより、ワークフローの設計時間を大幅に短縮し、全体的な設計効率を向上させることができます。
さらに、各モジュールの実行ログと入出力の表示をサポートしており、モデルのトレーニング プロセスを追跡できます。
③ トレーニングプロセスの可視化

前述の通り、このプラットフォームはモデルの学習プロセスを可視化することで、データ担当者がパラメータチューニングやリソース使用の影響をリアルタイムかつ直感的に追跡できるようにします。これにより、モデルトレーナーは実際の状況に応じてハイパーパラメータを調整しやすくなり、モデルの学習難易度が低減されます。
4. モデル評価

モデルの学習中は、最適なモデルを選択するために継続的なモデル評価が必要です。この点において、本プラットフォームはROC、AUC、精度、再現率、特異度といった一般的に使用される様々な評価指標を提供し、多次元可視化、相互比較、ハイパーパラメータ比較、自動モデル評価・比較機能もサポートしています。
5. モデルリリース

モデルが評価を通過した後、要件を満たしたものは、サードパーティアプリケーションで利用できるサービスとしてリリースする必要があります。AIプラットフォームは、モデルリポジトリを通じてモデルを一元的に管理します。
モデルリポジトリは、モデル学習タスクとモデルサービスを連携させることで、モデル構築からワンクリックでのデプロイ、サービスとしてのリリースまでのプロセスを簡素化するだけでなく、モデルの分類と管理を可能にし、モデルファイルの検証、モデル性能評価、視覚的な説明といった統合的なモデル管理サービスを提供します。さらに、モデルリポジトリは、ワークフローや自動モデリングを通じてプラットフォーム内で学習されたモデルを管理するだけでなく、プラットフォーム外でオープンソースの機械学習フレームワークを用いて直接開発・学習されたモデルをコードベースで実装することも可能です。
6. モデルサービス
前述の通り、AIプラットフォームはモデルリポジトリ機能を通じてモデル管理機能を提供しており、外部公開用の各種モデルサービスも提供可能です。

オンラインモデルサービスの場合、AIプラットフォームは、モデルカテゴリと互換性のあるJavaまたはPythonランタイム環境を提供できます。ビジネスシステムは、モデルサービスが提供するインターフェースを直接呼び出して、様々な方法でデータ予測を実行できます。
オンライン モデル サービスを直接呼び出すことができないシステムや、大規模なデータ予測が必要なシナリオの場合、プラットフォームは、モデル データと対応する開発インターフェイスを含む SDK としてモデルをエクスポートすることをサポートしています。
さらに、このプラットフォームは、カナリアリリース、公式リリース、シャドウリリースなど、オンラインモデルサービスの複数の方法もサポートしています。


モデルをサービスとしてデプロイした後は、オンラインで監視する必要があります。AIプラットフォームは、モデルの実行ログ、リソース使用量、呼び出しパターン、パフォーマンスの継続的な監視をサポートします。これは、新たに統合されたデータを使用してモデルを自動的に評価し、モデル評価指標の変化傾向を追跡するスケジュールされたタスクによって実現されます。
7. 環境管理と資源配分
最後に、AI プラットフォームが環境管理とリソースのスケジューリングをどのように実装しているかを紹介します。

このプラットフォームは、Kubernetes(K8S)を用いて、物理サーバーのコンピューティングリソースとストレージスペースを均一にスケジュールします。テナントごとに名前空間を作成し、コンピューティングリソースとストレージスペースを分離することで、サーバーの物理リソースの利用率を最大化します。テナント作成時に、名前空間ごとのリソース制限を設定できます。
このプラットフォームは、 Dockerテクノロジーを通じて、データ処理、コードプログラミング、モデルサービスのためのカスタマイズ可能なランタイム環境も提供します。ユーザーはDockerfilesを使用して、特定のプログラミング環境、フレームワーク、ミドルウェア、およびサービスを含むDockerイメージを構築できます。Dockerイメージは、アプリケーション環境の移行と再利用に優れた柔軟性を提供します。ユーザーはDockerfileをエクスポートするだけで、元の環境を新しい環境に迅速に複製できます。
さらに、このプラットフォームは複数のリソース スケジューリング方法をサポートしており、オンライン モデル サービスのコンピューティング リソースとインスタンス数を設定して、水平スケーラビリティを実現できます。
8. システムアーキテクチャ

上記は、AIプラットフォームが提供する具体的な機能の一部をご紹介したものです。
03
AIプラットフォーム構築に関する考察
これまでの2つのセクションでは、MLOps手法を軸に、ユーザーの視点からAIプラットフォームが提供するべき基本的な機能と、これらの機能を実装する際に考慮すべき事項について簡単に紹介しました。しかし、完全かつ強力なAIプラットフォームは、これらの機能を提供するだけでなく、プラットフォーム構築者や管理者の視点から、リソース管理、環境構築、データガバナンス、機能管理といったより深い機能も提供する必要があります。次に、AI基盤層の3つの基本要素であるコンピューティングパワー、アルゴリズム、データ、そしてAIプラットフォームの運用・保守の観点から、AIプラットフォームの構築方法をさらに探っていきます。
1. クラウドベースのAI機能

計算能力に関して直面している問題は次のとおりです。
  • まず、AIはリソースを大量に消費し、計算負荷の高い技術です。計算能力の強さは、AIモデルの学習精度とリアルタイム推論の結果に直接影響します。モデル開発における一般的なアプローチは、各プロジェクトチームまたはデータサイエンティストがそれぞれ独自の高性能サーバーを申請することです。このアプローチの大きな欠点は、高価なサーバーリソースを十分に活用できないことです。
  • さらに、AIアプリケーションに必要なリソースの種類は、具体的なビジネスシナリオによって異なる場合があります。例えば、CPUが必要なシナリオもあれば、GPUが必要なシナリオもあり、また、各サーバーのモデルやアーキテクチャも異なる場合があります。これは、データサイエンティストにとって、これらのリソースの活用と管理において大きな課題となります。
これらの問題に対処するために、プラットフォーム ビルダーとしての私たちの目標は、データ サイエンティストをコンピューティング リソース管理の詳細から保護し、IaaS (Infrastructure as a Service) を実現して、データ サイエンティストがモデルの開発とトレーニング自体に集中できるようにすることです。
具体的な手順は以下のとおりです。
  • Kubernetes (K8S) は、物理サーバーのコンピューティング リソースとストレージ スペースを統一的に管理およびスケジュールし、テナントごとに名前空間を作成し、コンピューティング リソースとストレージ スペースを分離するために使用されます。
  • モデルを開発する前に、ユーザーはウェブページで必要なリソースの種類と割り当てを申請できます。また、プラットフォームは様々なリソーススケジューリング方法を提供しており、ユーザーは実際のモデル開発とトレーニングプロセスに応じてリソースの割り当てと使用量を調整できます。
  • AIプラットフォームはCDHのビッグデータクラスターにも接続されており、ビッグデータ技術を通じて大規模データ処理タスクの処理効率を向上させることができます。
GPUリソ​​ースに関しては、プラットフォームは現在GPUサーバーを一元管理しているものの、利用モードは依然として排他的です。そのため、プラットフォーム上のGPU利用率が低く、GPUリソ​​ースが不足しており、これがプラットフォームの現状の課題となっています。
現在、GPU リソースの統合的な仮想化管理を可能にし、実際のニーズに応じて割り当てることで GPU リソースの利用率を向上させることを目指して、GPU 仮想化の研究が進められています。
2. アルゴリズム

AI プラットフォーム アルゴリズムに必要な機能は次のとおりです。
  • 一般的に使用されるオープンソース アルゴリズムを統合しているため、データ サイエンティストがプラットフォーム上で直接使用するのに便利です。
  • 一般的に使用されるデータ処理およびモデルトレーニングアルゴリズム、つまりプラットフォーム内の演算子をカプセル化することで、ユーザーはドラッグアンドドロップで直接モデルを簡単に開発できるようになり、演算子をカスタマイズすることもできます。
  • いくつかの自動化されたモデリング ツールが提供されており、一般ユーザーが特定のビジネス シナリオ向けに独自の AI モデルを開発し、優れたモデル結果を実現できます。
要約すると、AI プラットフォームは、アルゴリズム レベルでのモデル開発の障壁を下げ、AI モデルの迅速な導入を促進することができるはずです。
アルゴリズムレベルでは、中原銀行 AI プラットフォームには次の機能があります。
  • Scikit-learn、Pytorch、XGBoost、TensorFlow など、主流のオープンソース機械学習アルゴリズム ライブラリとディープラーニング フレームワークを統合します。
  • 豊富な演算子ライブラリを提供し、データ処理、特徴エンジニアリング、機械学習、モデル予測と評価に関連する200以上の一般的な演算子が用意されており、これらの演算子に対応するソースコードも提供されるため、ユーザーはワークフローとモデルを直接構築して、AIモデルを迅速に構築できます。
  • 統合開発環境を提供することで、ユーザーはオペレーターを編集したり、Python や R などの言語を使用して独自のオペレーターを開発したりできます。
  • Docker テクノロジに基づいて、オペレーターはカプセル化および統合されており、ユーザーはカスタム オペレーターをオペレーター ライブラリに公開できます。これにより、共有と再利用が容易になり、企業にとって重要な知的資産となることができます。
  • 自動モデリングに関しては、一般的な自動モデリングフレームワークと自社開発の自動機械学習アルゴリズムを統合して自動モデリング機能を提供し、画像認識、不正防止、自然言語処理、製品推奨、時系列予測などのシナリオで自動機械学習を実現します。
3. データ
計算能力とアルゴリズムは継続的に進歩していますが、強力な計算リソースの提供、アルゴリズムフレームワークの継続的な強化、パラメータチューニング手法の最適化だけでは、モデルの性能向上の余地はますます限られていることが明らかになっています。むしろ、高品質なデータと適切なデータ処理こそが、モデルの性能を大幅に向上させるのです。人工知能の第一人者であるアンドリュー・ン教授も、ある会議で、機械学習におけるデータの重要性を強調し、データ中心の機械学習システムの開発に重点を移すべきだと指摘しました。では、データ品質をどのように向上させることができるのでしょうか?

データ レベルでは次のような問題がよく発生します。
  • データソースは多岐にわたります。例えば、銀行データには取引データだけでなく、業務データ、ユーザー行動データ、そして信用情報、企業登記情報、司法データといった大量の外部データが含まれます。
  • データの種類は多様であり、構造化データだけでなく、テキスト、画像、ビデオ、オーディオなどの半構造化データや非構造化データも含まれます。
  • データ開発における統一された標準がないため、データ内に隠された貴重な情報を発見することが困難になります。
  • 膨大な量のデータの場合、明確なラベル付けや処理が難しいだけでなく、それをどのように保存するかも大きな課題です。
  • AIモデリングに必要なデータ要件は、従来の要件とはいくつかの点で異なります。例えば、データ収集においては、AIはより広範なデータと多様なデータタイプを必要とする場合があります。また、データの処理と導出においては、よりターゲットを絞る必要があり、オフラインデータやリアルタイムデータの利用方法は従来のアプリケーションとは異なります。
これらの課題に対処するため、中原銀行は統合データプラットフォームを構築しました。このプラットフォームは、データ資産を一元的に処理・保管するだけでなく、メタデータ管理、マスターデータ管理、データリネージ管理、データ品質管理、データライフサイクル管理を含むデータガバナンスシステムも構築しています。しかし、これらのシステムは従来のデータニーズを満たすように設計されています。AIのニーズは、データ収集範囲の広範化と多様化、より専門的なデータ処理と導出、オフラインデータとリアルタイムデータの異なる利用方法など、従来のニーズとは異なる側面があります。そのため、 AI指向のデータサービスとデータガバナンスをどのように提供していくかは、現在私たちが注力している重要な課題です。
中原銀行の現在のアプローチは次のとおりですまず、データエンジニアがデータウェアハウス内のデータを特定のビジネスロジックに従って処理し、公開詳細データ、公開サマリーデータ、市場データに変換します。次に、データサイエンティストがデータウェアハウスから必要な公開データを特徴量ウェアハウスに同期させ、モデリングトレーニング用のプライベートデータに変換します。特徴量ウェアハウス内のデータのライフサイクル管理は、銀行レベルで実現されています。
しかし、現在の特徴量ウェアハウスはまだ比較的弱く、リアルタイムデータや非構造化データのサポートは研究段階にあります。さらに、オフライン特徴量とリアルタイム特徴量の処理は統一されていません。これらは今後の改善が必要な領域です。
4. デプロイメントアーキテクチャ
最後に、AIプラットフォームのデプロイメントアーキテクチャをご紹介します。モデルがデプロイされ、起動されると、ビジネスプロセス(顧客にとって特に重要なリアルタイムトランザクションシナリオなど)に参加します。そのため、モデルからサービスを呼び出すことが非常に重要です。

中原銀行は今年、モデルトレーニングがモデル推論に与える影響を軽減し、モデル推論の安定性を向上させるため、AIプラットフォームをモデルトレーニング用とモデル推論用の2つのクラスターに分割しました。モデルトレーニングが完了すると、推論環境にデプロイされ、外部にサービスを提供します。
今年は、モデル推論の堅牢性をさらに向上させるために、災害復旧環境も構築しています。
このデプロイメントアーキテクチャでは、実際のビジネスデータが本番環境に存在するため、トレーニングクラスターと推論クラスターの両方が本番環境で直接使用されることを示しています。このアプローチはデータサイエンティストの作業を容易にしますが、同時にデータセキュリティに関する懸念も生じます。
共同テストのためにモデル サービスをアプリケーション システムと統合する必要がある場合、ユーザーはモデル管理プラットフォームを通じてモデルをテスト クラスターにデプロイすることもできます。
04
ModelOpsの構築と実践
前節では、MLOpsとAI基盤レイヤーの3つの重要な要素の観点から、中原銀行のAIプラットフォーム構築における実践を紹介しました。最後のセクションでは、中原銀行のモデル管理に関する取り組みについて簡単に紹介します。この分野は非常に広範囲にわたりますが、紙面の都合上、ここでは概要のみを説明します。
1. モデルマネジメントの背景

モデルを管理する必要がある主な理由は 3 つあります。
  • このモデルは危険です。
  • 規制要件があります。
  • 業界内には問題点が存在します。
2. モデル管理の目的
中原銀行のモデル管理の中核目標は、モデル管理プラットフォームを確立し、モデルの全プロセスをワンストップで管理し、モデルリスク管理のクローズドループを構築し、モデル管理の洗練度を向上させ、モデル関連業務の効率と信頼性を高めることで、銀行全体のモデルエコシステムを構築することです。

具体的には、次の 4 つの側面に分かれます。
  • プロセス管理の面では、モデル作業をプロジェクトの視点から捉え、モデルのライフサイクルをさらに拡張し、モデルの要件管理プロセス、開発・トレーニングプロセス、展開プロセス、資産管理プロセスを統合します。また、社内のOAシステムやその他の管理システムとシームレスに接続することで、モデルのライフサイクル全体を管理します。
  • アジャイル展開の観点では、モデル関係者間の連携を強化することで、モデル開発・トレーニングの障壁を低減し、自動化されたモデル展開を実現できます。
  • 資産管理の面では、資産プールと関連システムを確立することで、モデル資産が集中的に管理および統制されます。
  • 監視と早期警告の面では、製品レベルの監視および早期警告システムを開発し、モデル監視の標準化、構成可能性、可視化を実現しました。
3. ModelOps の紹介
上記のモデル管理の目標からわかるように、中原銀行のモデル管理へのアプローチは、現在普及している ModelOps の概念と非常に一致しています。

上の図はModelOps の基本的な概念を示しています。
4. ModelOps と MLOps
MLOps と ModelOps の概念からわかるように、これらは競合するソリューションではなく、補完的なソリューションです。

MLOpsは機械学習時代のDevOpsです。その主な役割は、ビジネス、モデル構築チーム、運用チームを連携させ、モデルの開発、展開、運用のための標準化されたプロセスを確立し、組織が機械学習プロジェクトをスケールできるようにすることです。しかし、 MLOpsではビジネスライフサイクル全体を通してモデルを管理・作成することはできません。
ModelOpsは、モデルガバナンスとモデルライフサイクル管理全体の様々な側面に焦点を当てています。しかし、 ModelOpsはモデルを直接構築することはできず、モデル作成ツールと連携して動作する必要があります。
5. 中原銀行の ModelOps システム
中原銀行の実際の状況に基づいて、モデル管理のために、モデル管理プラットフォーム、AIプラットフォーム、スマート戦略プラットフォームに基づくモデルサポートシステムアーキテクチャが開発されました。

6. 中原銀行の ModelOps システム

このシステムアーキテクチャ図は、モデル管理プラットフォームがモデル要件管理、開発管理、展開管理、資産管理、監視管理を含むモデルのライフサイクル全体の管理を主に担当し、AI プラットフォームとインテリジェント戦略プラットフォームがモデルの具体的な開発を主に担当していることを明確に示しています。
7. モデル管理組織構造
上記は、モデル管理について技術的な観点から簡単に紹介したものです。しかし、管理体制が整備されると、管理措置の円滑な実施が不可欠となり、組織構造や制度レベルで適切な安全対策を講じる必要があります。

組織構造においては、経営幹部、モデル審査委員会、モデル開発・応用部門、モデル検証・承認部門、監査部門など、各部門間の分担を明確に定義した、モデル管理のためのトップダウン型の組織枠組みが設計されました。
8. モデル管理システムの構築
システム開発の面では、中​​原銀行は一連の手順規則、3つの主要な方法、4つの標準、および1つの管理規則を順次策定しました。

9. モデル管理の主要プロセス

以上从技术和制度的角度,给大家从整体上简单介绍了模型管理的方法论。这里再给大家具体介绍一下模型上线前相关阶段中比较关键的流程。中原银行将模型上线前分为了三个阶段:需求阶段、开发训练阶段和上线阶段,上图展示了各个阶段中相应的管理流程。
10. 模型资产管理和治理

在模型管理中,另一个核心的问题是对模型资产的管理和治理,中原银行也是首先从制度层面发布了模型资产管理的相关规范,后通过模型管理平台提供相应的管理工具,对模型进行管理和治理。