Morningstar Data は、オープン性を通じて AI 時代に対応し、3 つの分散データベース製品を完全にオープンソース化しました。

大規模モデルはAI時代に変革をもたらし、様々な業界でAIが積極的に活用されています。AIアプリケーションは、データベースなどのデータ基盤に新たな需要と課題を生み出すと同時に、新たな機会ももたらしています。

3月6日、データベーススタートアップ企業のMorningstar Dataは、革新的なデータインフラストラクチャアーキテクチャに基づく3つの分散データベース製品をリリースしました。Redisと互換性のある分散型キーバリュートランザクションデータベース「EloqKV」、MySQLと互換性のある分散型リレーショナルデータベース「EloqSQL」、そしてMongoDBと互換性のある分散型ドキュメントデータベース「EloqDoc」です。同社はまた、これらの製品が完全にオープンソースであることを発表しました。Morningstarは、技術革新を通じて、次世代AIアプリケーションに適したデータ基盤の構築を目指しています。

AI時代において、データ基盤は新たな課題に直面しています。

データベースは、IT供給とビジネス需要の変遷とともに進化してきました。インターネットとモバイルインターネットの台頭以来、企業のビジネスシナリオはより複雑化し、マルチモーダルデータの急増は、データベースアーキテクチャを単一マシンから分散システムへと移行させました。データベースのモダリティは、SQLからキーバリュー、ドキュメント、グラフ、時系列データベースといったNoSQLのサブフィールドへと拡大し、現在ではNewSQLへと進化を続けています。

Morning Chapter Dataの共同創設者兼CEOである張麟涛氏は、過去20年間の膨大かつ多様なデータによってもたらされたスケーラビリティとマルチモーダルデータ処理のニーズが、データベースの多様化の活発な発展をもたらしたと説明した。大規模言語モデルを用いたAIアプリケーションの加速に伴い、AI時代はデータベースに対する新たな需要と課題を生み出している。

金融エージェントアプリケーションの基本アーキテクチャ

今日、AIアプリケーションはデータベースに対する新たな需要を喚起しています。金融エージェントアプリケーションを例に挙げると、異なるモダリティのデータを管理するために複数のデータベースを導入することは、多くの課題を伴います。複数のデータベースを導入するには、個別にハードウェアを購入してインストールする必要があり、固定投資コストの増加とシステムの複雑さの増加、ひいては運用コストの増加につながります。異なるデータベースにデータを保存すると、各エージェントが異なる時点のデータを参照することになり、不整合が生じてアプリケーションが複雑化します。さらに、AIアプリケーションは依然として急速に進化しており、データモダリティの柔軟な拡張と迅速なスケーリングが求められています。複数のデータベースを個別に導入することは、柔軟性と俊敏性の面で課題をもたらします。

要約すると、AI アプリケーションでは、データベースに次の機能が必要です。

まず、パフォーマンス、スケーラビリティ、トランザクション機能のバランスをとる必要があります。次に、AIアプリケーションは、さまざまなデータモダリティを統合的に管理する必要があります。新しいデータモダリティを追加しても、新しいデータパイプラインは必要ありません。すべてのデータは統合管理システムによって管理され、標準APIインターフェースを公開することで、エージェントが一貫したデータを参照できるようにする必要があります。最後に、柔軟性と俊敏性はAI時代の成功の鍵です。AIアプリケーションの急速な発展には、爆発的なユーザー増加に対応するために、迅速なスケールアップとスケールダウンが必要です。さらに、クラウドのメリットを最大限に活用するには、クラウド中立性が不可欠です。

張麟涛氏は、AIアプリケーションの需要に応えるため、従来のSQL、NoSQL、そしてNewSQLデータベースは、柔軟なスケーラビリティとマルチモーダル処理の面で依然として課題に直面していると指摘した。例えば、NoSQLデータベースはスケーラビリティを実現する一方で、トランザクションを犠牲にしている。一方、NewSQLはトランザクションとスケーラビリティの機能を備えているものの、パフォーマンスと効率性を犠牲にしている。

「長年にわたり、データベースアーキテクチャは実際にはほとんど変化していません。AI時代には、将来のAIアプリケーションのニーズを満たすための新しいデータベースアーキテクチャが必要です」と張霖涛氏は述べています。さらに、Chenzhang Dataは革新的なData Substrate技術を通じて、AI時代の企業のためのデータ基盤を構築していると付け加えました。

「データ基盤」アーキテクチャの革新的な実践

「データサブストレート」は、Morning Chapter Dataが提案する新しいモジュール型データベースアーキテクチャです。Morning Chapter Dataは、データベースカーネルを分離し、異なるデータベースに共通する機能を抽象化することで、標準化されたAPIをモジュール形式で確立し、異なる機能を持つデータベースに統一されたデータ基盤を構築します。これにより、システムの複雑さと開発コストが軽減され、柔軟な拡張性を実現します。

Chenzhang Dataの共同創業者兼チーフアーキテクトであるChen Liang氏は、Data Substrateコンセプトのメリットは2つあると指摘しました。データベースを分離し、共通モジュールを抽象化することで、車輪の再発明を回避し、既存システムを最大限に活用できます。さらに、各機能モジュールはよりきめ細かいリソースで拡張できるため、ユーザーは最小限のリソースで動的に拡張し、パフォーマンス要件を満たすことができます。さらに、レゴブロックのようなモジュール式アーキテクチャにより、迅速な組み立てが可能になり、さまざまなシナリオやアプリケーションに適応する柔軟なデータベースを構築できるため、ますます複雑化するユーザーのデータ処理ニーズに対応できます。

プラグ可能、モジュール式、抽象的、再利用可能、そしてレゴブロックのように柔軟に組み立てられるという概念は目新しいものではありませんが、データベース分野における革新的な応用は前例のないものです。基盤ソフトウェアの至宝であるデータベースは、複雑なシステムであり、大きなエンジニアリング上の課題を抱えています。

Chen Liang氏は、データベースをレゴブロックのように構築するには、主に2つの課題があると説明した。まず、適切な抽象化、分離メカニズム、そしてモジュールの適切な分割を見つけることは、いずれも容易ではない。次に、組み立てられたシステムがネイティブシステムと同等、あるいはそれ以上のパフォーマンスを発揮することを保証すること。そのためには、システムパフォーマンスを保証するための新たなアルゴリズムとプロトコルの開発が必要となる。

Morning Chapter Dataは、Data Substrateアーキテクチャに基づいて、データベースをコンピューティングエンジン、キャッシュおよび同時実行管理、ログ、データストレージの4つのレイヤーに分離します。中間の2つのレイヤー、「キャッシュおよび同時実行管理とログ」は、Data Substrateの最も重要なレイヤーです。

データ基板に基づく分離

キャッシュと同時実行管理は分散メモリ層で行われ、分散メモリテーブルの抽象化として捉えることができます。この抽象化により、キャッシュのオンデマンドスケーリングが可能になります。分散メモリ層はデータコンテンツをデコードするのではなく、IDでデータを検索するため、クロスモーダルなデータ管理も可能です。つまり、テーブル行をキャッシュする場合でも、JSONドキュメントをキャッシュする場合でも、それらを均一に処理できるため、異なるコンピューティングエンジンをその上に構築できます。さらに、ロギング層では、ログを分散ログに抽象化することで、弾力的なスケーリングも可能になります。

データ基盤には2つの重要なプロトコルがあります。1つ目は、非同期チェックポイント機能を通じて、キャッシュまたはログからデータストアへデータ変更を並列かつ非同期に書き込むことです。2つ目は、障害発生時にキャッシュまたはデータストア内のチェックポイントされていないデータを復元し、復元が完了するまで外部へのサービスを提供しないことです。これら2つのプロトコルにより、システム全体の効率的な運用が保証され、より高いパフォーマンス、柔軟性、高可用性、そしてフォールトトレランスが実現します。

Data Substrateは、従来のストレージとコンピューティングの分離やハードウェアリソースの分離に比べて優れたアーキテクチャを提供します。ビジネスニーズとホットデータ／コールドデータの状況に基づいてリソースを割り当て、よりきめ細かなキャッシュレベルのオンデマンドスケーリングを可能にします。これにより、上位層アプリケーションからのトラフィックをより俊敏かつ柔軟に処理できるようになり、パフォーマンスとコスト効率が向上します。

優れたアーキテクチャには効果的なエンジニアリング実装も必要であり、データベースのエンジニアリング実装は、展開環境やハードウェア開発のトレンドと密接に関連しています。Chen Liang氏は、現在、ストレージデバイスのI/Oが急速な発展を遂げていると指摘しました。マルチスレッドモデルと同期I/Oを使用する従来のデータベースは、同時実行のボトルネックに遭遇し、新しいハードウェアの高I/Oの利点を最大限に活用することが困難です。次世代ハードウェア向けに設計されたChenzhang Dataは、開発にC++を使用しています。キャッシュおよび同時実行管理モジュールでは、ローカルおよびリモートメモリアクセスを統合することで、同時実行プログラミングの複雑さを簡素化しています。具体的には、クエリ/トランザクションはコルーチンとして実行され、物理スレッドの数を減らし、非同期プログラミングは非ブロッキングI/Oを可能にし、より高いI/O同時実行性を実現して、新しいハードウェアのパフォーマンスを最大限に引き出します。

SQL/NoSQLの切り替えに0.1ミリ秒

Chenzhang Dataは個別のモジュールを販売するのではなく、Data Substrateと既存のストレージ／コンピューティングエンジンを基盤として構築された標準化されたデータベース製品を提供しています。今回の発表イベントでは、Chenzhang Dataの共同創業者兼CTOであるZhang Huanが、革新的なData Substrateアーキテクチャに基づく3つのデータベース製品、EloqKV、EloqSQL、EloqDocを発表しました。これら3つの製品はすべて完全にオープンソースです。

EloqKVは、階層型ストレージの永続性、高パフォーマンス、水平スケーラビリティ、マスターレベルトランザクション、クライアント透過性、Redisとの互換性などの機能を備えた分散トランザクションデータベースです。キャッシュデータベースとしても、マスターレベルトランザクションデータベースとしても使用できます。

例えば、EloqKVは、メモリ、ローカルSSD、オブジェクトストレージに基づく自動階層化データストレージをサポートしています。ホットデータはEloqKVクラスター内の分散キャッシュプールにキャッシュされ、クエリ応答レイテンシは0.1ミリ秒を実現します。コールドデータは、RocksDB、Cassandra、Amazon DynamoDB、GCP Bigtableなどのキーバリューストレージエンジンに保存できるため、キャッシュミスが発生した場合でもクエリパフォーマンスを確保できます。オブジェクトストレージを選択した場合、ディスクへのフラッシュはオブジェクトストレージに直接書き込まれ、ローカルディスクはオブジェクトストレージのキャッシュとしてのみ使用されるため、企業のコスト削減と効率性の向上に貢献します。

EloqKVは、多くのユーザーのコスト削減と効率性の向上に貢献しました。例えば、あるソーシャルネットワーキングソフトウェアは、データの継続的な増加に直面し、当初はRedisを使用していました。しかし、Redisではオンラインユーザーとオフラインユーザーの両方をメモリに保存する必要があり、非常にコストがかかっていました。Amazon DynamoDBは初期のストレージコストは低かったものの、アクセストラフィックの増加に伴ってコストが直線的に増加しました。EloqKV + DynamoDBソリューションを採用することで、コールドデータとホットデータがレイヤーに保存され、優れたオンラインユーザーエクスペリエンスを確保しながら、Redisと比較してコストを10分の1に削減できました。

EloqKVはNoSQLデータベース製品を強化します。例えば、Google Cloud GCPで人気の分散ストレージシステムであるBigtableは、独自のAPIインターフェースを使用しており、市場の他の製品との互換性がないため、企業によるBigtableの利用が制限されています。Morning Chapter Dataは、BigtableをGCP上の永続ストレージとして、EloqKVをキャッシュおよびトランザクションレイヤーとして利用し、標準APIインターフェースを提供しています。このEloqKV+Bigtableのアプローチは、特に海外展開を進める企業にとって、より費用対効果の高い製品サービスを提供します。

EloqSQL は、複数の書き込み、グローバルセカンダリインデックス、ログ分離、低レイテンシの分散トランザクション、低いストレージコスト、および MySQL との互換性をサポートする分散リレーショナルデータベースです。

複数書き込みとグローバルセカンダリインデックスのサポートをはじめとする機能により、従来のMySQLの書き込みボトルネックやデータベースシャーディングの問題点を解決できます。EloqSQLは、データ基盤アーキテクチャにより、非常に低レイテンシの分散トランザクションとストレージコストの削減を実現します。

Zhang Huan氏は、EloqSQLはMySQLと分散キャッシュを組み合わせたものだと説明しました。ベンチマークテストでは、EloqSQLは分散トランザクションのTPSと95%レイテンシ指標をNewSQLと比較して10倍向上させました。

EloqDoc は、複数の書き込み、ストレージとコンピューティングの分離、ログの分離、強力なトランザクション、ネイティブの分散性、および MongoDB との互換性をサポートする分散ドキュメントデータベースです。

エラスティックスケーリングの観点では、EloqDocはCPU、メモリ、ログ、ストレージなど、あらゆるリソースにわたるスケーラビリティと弾力性を提供する初のプラットフォームであり、多様なワークロードニーズに、より経済的な方法で対応できます。EloqDocは、ホットデータトラフィックの変化と大容量データに最適化されています。ホットデータトラフィックの変化に対しては、EloqDocは個別のバッファプールの追加をサポートし、不要なデータの再バランス調整を回避し、100倍高速なエラスティックスケーリングを実現します。大容量データの場合、EloqDocはオブジェクトストレージを個別にスケーリングできるため、コンピューティングとストレージを分離することでコストを削減し、TCOを10分の1に削減できる可能性があります。

概要: オープンソースを通じて AI 時代へ向かう。

「Morning Chapter Dataの製品は単なるデータベースではなく、イネーブラー（実現手段）のようなものです。当社のData Substrateは、既存のデータベースに分散機能、トランザクションサポート、そしてより優れたアーキテクチャを提供します。MySQLを分散データベースに変換し、Redisにトランザクション機能を提供し、MongoDBをストレージとコンピューティングを分離したアーキテクチャに変換できます。同時に、Amazon Web ServicesのAmazon DynamoDBやGoogle CloudのBigtableにも、より豊富なAPIを提供することで、より強力な機能を提供できます」と張歓氏は述べ、Data Substrateの潜在能力は有望だと付け加えました。

今後、Morningstar Dataは、クラウドネイティブデータベース「EloqDB Cloud」と統合データベース「ConvergedDB」という2つの製品をリリースする予定です。EloqDB Cloudはクラウドネイティブアーキテクチャを採用し、階層型ストレージをサポートし、柔軟かつ弾力的なスケーリングとスケール・トゥ・ゼロに対応し、Redis互換のトランザクションデータベースです。一方、ConvergedDBは、SQL、KV、ドキュメント、ベクター、グラフ、全文検索、時系列データなど、クロスモーダルなトランザクションをサポートし、統一されたクエリインターフェースと標準APIを備えているため、最高レベルのAIネイティブデータベースとなっています。

モーニングスターのビジョンは、製品設計の最初から「車輪の再発明をしない」という原則を堅持し、世界をリードするデータ管理ソフトウェア企業を築くことです。張歓氏は、オープンソースが基本ソフトウェアの革新的な開発における重要な原動力となっていると説明しました。データベースエコシステムでは、多くの優れたオープンソース製品が登場しており、フロントエンドコンピューティングエンジンからバックエンドストレージエンジンに至るまで、多くのITアーキテクチャが業界最高のオープンソースソフトウェア上に構築されています。モーニングスターはオープンソースの恩恵を受けており、今後も積極的に活用し、オープンソースコミュニティに貢献していきます。

Data Substrateは、Morningstar DataがAI時代のデータ基盤ソリューションとして提案した、比較的新しいアーキテクチャコンセプトです。最適なソリューションであるかどうかは、実世界のシナリオにおけるさらなる改良と検証が必要です。今回の発表イベントで発表されたMorningstar Dataの製品包括的なオープンソース化は、その始まりに過ぎません。同社はオープンソース戦略を基盤として、AI時代へと前進を続けていきます。

HUOXIU

Morningstar Data は、オープン性を通じて AI 時代に対応し、3 つの分散データベース製品を完全にオープンソース化しました。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ