|
最近、Alibaba Cloudの機械学習プラットフォーム(PAI)をリードする複数の論文がACL 2023 Industry Trackに採択されました。ACLは、人工知能と自然言語処理の分野におけるトップクラスの国際会議であり、自然言語処理技術の応用シナリオに関する学術研究に重点を置いています。この会議は、事前学習済み言語モデル、テキストマイニング、対話システム、機械翻訳など、自然言語処理における中核的なイノベーションを推進し、学界と産業界の両方に大きな影響を与えています。 この論文の成果は、PAI機械学習プラットフォーム、アリババ国際貿易部門、アリババクラウドと華南理工大学の共同研修プログラム、そして復旦大学の肖陽華教授チームによって共同で開発されました。今回の選出は、アリババクラウドのPAI機械学習プラットフォームが独自に開発した自然言語処理およびマルチモーダルアルゴリズム、そしてそのアルゴリズムフレームワークの能力が、世界の業界の最先端レベルに達し、国際的な学者から高い評価を得ており、中国の人工知能技術イノベーションの国際競争力を実証していることを示しています。 論文概要FashionKLIP は、e コマースのマルチモーダル概念知識グラフによって強化された e コマース シナリオ グラフ テキスト モデルです。画像とテキストの検索は、一般的なクロスモーダルタスクとして、幅広い産業アプリケーションで大きな実用的価値を持っています。 視覚言語事前トレーニング済み(VLP)モデルの急速な発展により、さまざまなモダリティにわたる表現学習が大幅に改善され、パフォーマンスが大幅に向上しました。 しかし、eコマースデータには独自の特性があります。 1)一般的なシナリオのテキストには、ほとんどが完全な文構造の記述が含まれていますが、eコマースシナリオの説明またはクエリは通常、製品の素材やスタイルなどの詳細を説明する複数の説明フレーズで構成されています。 2)一般的なシナリオの画像は複雑な背景を持っていることがよくあります。対照的に、製品画像には主に背景オブジェクトの少ない大きな製品画像が含まれています。 これに基づいて、本稿では、eコマース知識強化のためのVLPモデル、FashionKLIPを提案します。 これは、大規模なeコマース画像とテキストコーパスからマルチモーダルeコマース概念知識グラフ(FashionMMKG)を構築するデータ駆動型構築戦略の2つの部分で構成されています。知識を組み込んだトレーニング戦略で、両方のモダリティで画像とテキストのペアの表現の整合を学習し、さらに、FashionMMKG のファッション概念の視覚的なプロトタイプ表現とテキスト表現を一致させることで概念の整合を取得します。 FashionKLIP法の実用性を検証するため、Alibaba Internationalの商品検索プラットフォームに適用し、画像商品検索とテキスト商品検索という2つの検索サブタスクでゼロショット検証を実施しました。また、ベースライン手法であるCLIPとの比較も行いました。実験結果は、FashionKLIPの実用的価値と効率性をさらに実証しています。 ConaCLIP は、デュアル エンコーダー モデルを使用して軽量のテキストと画像を検索するための蒸留アルゴリズムです。テキスト画像検索は、特定のテキストクエリが与えられた場合に、大規模な画像セットから最も関連性の高い画像のリストを取得することを目的としています。情報インタラクションとソーシャルシナリオの急速な発展に伴い、このタスクはクロスモーダルアプリケーションの重要なコンポーネントと見なされ、eコマースプラットフォームやウェブサイトなどのさまざまな現実世界のシナリオで求められています。CLIPなどの既存のモデルは、コンピューティングリソースが限られているエッジデバイスや、プライベートな写真/メッセージコレクションなどの動的インデックスシナリオには依然として実用的ではありません。この問題に対処するために、私たちの目標は、大規模な事前トレーニング済みの2ストリームエンコーダーモデルから始めて、小さなモデルの事前トレーニング段階での蒸留プロセスに焦点を当て、より小さく、より高速で、より効率的な一連の軽量モデルを取得することです。既存の研究とは異なり、私たちの方法では、事前トレーニング段階での蒸留のために完全に接続された知識相互作用グラフを導入します。私たちの方法には、イントラモーダルな教師と生徒のインタラクション学習に加えて、下の図に示すように、イントラモーダルな生徒と生徒のインタラクション学習、インターモーダルな教師と生徒のインタラクション学習、インターモーダルな生徒と生徒のインタラクション学習も含まれます。 学生ネットワーク用に構築された全結合グラフは、マルチビュー学習とマルチタスク学習スキームの統合と見なすことができ、事前学習済みモデルに必要な堅牢性と有効性を高めます。また、学習プロセスの種類ごとに、様々な教師戦略の効果を徹底的にテストすることをお勧めします。提案手法をeコマースプラットフォーム上のエンドツーエンドのクロスモーダル検索シナリオに適用した結果、モデルのストレージ容量を大幅に削減し、計算効率を向上させながら、モデルのパフォーマンスを実質的に維持できることが実証されました。 中国語ドメイン固有のテキスト画像生成と拡散モデル、および高速推論を備えたツールチェーンテキスト画像合成(TIS)は、テキスト入力から画像を生成する技術です。テキスト指示を与えると、コンピュータプログラムはテキスト内容に一致する画像を生成します。しかし、事前学習済み言語モデルにはドメイン固有のエンティティ知識が欠如しており、拡散モデルの推論速度にも限界があるため、オープンソースコミュニティで普及しているテキスト画像生成モデルは、特定の産業分野への応用に苦戦しています。主な問題は、拡散ベースの手法では、入力テキストをエンコードするために事前学習済みのテキストエンコーダーが必要であり、このテキストエンコーダーは拡散モデルのUNetモデルへの条件付き入力として使用されることです。しかし、オンラインで収集されたテキスト画像を使用する現在の事前学習済みテキストエンコーダーモデルは、特定のエンティティ概念を理解する能力が不足しており、エンティティオブジェクトのリアルな画像を生成するために不可欠な特定のエンティティ知識を獲得することが困難です。同時に、拡散モデルの推論速度と計算コストも考慮すべき重要な要素であり、反復的な逆拡散ノイズ除去プロセスの煩雑な計算は、拡散モデルの推論速度のボトルネックとなってきました。テキストから画像への生成拡散モデルのトレーニングと展開のための新しいフレームワークを提案します。モデルアーキテクチャを下図に示します。特定のエンティティの理解を向上させるために、CLIPテキストエンコーダに豊富なエンティティ知識を注入し、知識グラフを使用して知識を拡張します。大規模な階層型拡散モデルを直接利用するオープンソースのStable Diffusionとは異なり、画像拡散モジュールの後にESRGANベースのネットワークを統合します。これにより、生成される画像の解像度が向上すると同時に、パラメータ爆発と処理時間の長さの問題に効果的に対処できます。オンライン展開のために、FlashAttentionで最適化されたニューラルアーキテクチャに基づく効率的な推論プロセスを設計しました。生成モデルの計算グラフの中間表現(IR)は、エンドツーエンドのAIコンパイラBladeDISCによってさらに処理され、生成モデルの推論速度が向上します。 実験の結果、ドメイン固有知識拡張モデルはドメイン知識をより深く理解し、よりリアルで多様な画像を生成できることが実証されました。推論速度を向上させるため、エンドツーエンドAIコンパイラBladeDISCとFlashAttentionテクノロジーを採用しました。また、このテクノロジーをAlibaba Cloudの機械学習プラットフォーム(PAI)と統合することで、実世界のアプリケーションにおける実用性を示しました。ユーザーは、自身のタスク(データ)をクリックするだけで、モデルのトレーニング、微調整、推論を行うことができます。 オープンソースアルゴリズムオープンソースコミュニティへの貢献を強化するため、上記3つのアルゴリズムのソースコードは、自然言語処理アルゴリズムフレームワークEasyNLPに近日中に提供される予定です。NLPの実践者や研究者の皆様は、ぜひご利用ください。EasyNLPは、Alibaba Cloud Machine Learning Platform PAIチームがPyTorchをベースに開発した、使いやすく機能豊富な中国語NLPアルゴリズムフレームワークです。一般的に使用されている中国語の事前学習済みモデルと大規模モデル展開手法をサポートし、学習から展開までワンストップのNLP開発体験を提供します。クロスモーダル理解の需要の高まりを受け、EasyNLPは、特に中国語領域のさまざまなクロスモーダルモデルもサポートし、オープンソースコミュニティに公開していきます。より多くのNLPおよびマルチモーダルアルゴリズムの開発者や研究者に貢献し、コミュニティと協力してNLP/マルチモーダル技術とモデルの開発と展開を促進したいと考えています。 Githubアドレス: https://github.com/alibaba/EasyNLP 論文集論文名: FashionKLIP: ファッションのマルチモーダル概念知識グラフによるEコマース画像テキスト検索の強化 著者: Wang Xiaodan、Wang Chengyu、Li Lei、Li Zhixu、Chen Ben、Jin Linbo、Huang Jun、Xiao Yanghua、Gao Ming 論文PDFリンク: https://aclanthology.org/2023.acl-industry.16.pdf 論文名: ConaCLIP: 軽量テキスト画像検索のための完全連結知識相互作用グラフの蒸留の探究 論文のPDFリンク: https://aclanthology.org/2023.acl-industry.8.pdf 論文名: 急速な普及: 高速推論速度を備えたドメイン固有のテキスト画像合成装置の構築 論文PDFリンク: https://aclanthology.org/2023.acl-industry.28.pdf |