|
最近、アリババクラウドのAIプラットフォームPAIからの複数の論文がACL 2024に採択されました。これらの論文は、アリババクラウド、アリババグループのセキュリティ部門、華南理工大学の金連文教授のチーム、華東師範大学の何暁鋒教授のチームによって共同で開発されました。ACL(Association for Computational Linguistics)は、人工知能と自然言語処理の分野におけるトップクラスの国際会議であり、自然言語処理技術の応用シナリオに関する学術研究に重点を置いています。この会議は、事前学習済み言語モデル、テキストマイニング、対話システム、機械翻訳など、自然言語処理における中核的なイノベーションを推進し、学界と産業界の両方に大きな影響を与えています。今回の採択は、アリババクラウドのAIプラットフォームPAIが、自然言語処理、マルチモーダルアルゴリズム、アルゴリズムフレームワークの研究において学術的な評価を得たことを意味します。 論文概要PAI-Diffusion 中国語オープンソーステキスト・画像生成モデルシリーズとクラウド推論サービス近年、AIGC分野ではStable Diffusionのようなテキスト画像生成モデルが登場しています。Alibaba Cloud AI PAIチームは、Stable Diffusionモデル構造を参考に、中国語の特性を考慮し、中国語の事前学習データを処理・フィルタリングし、学習プロセスを最適化することで、中国語のテキスト画像生成モデルのPAI-Diffusionシリーズを提案しました。これにより、画像生成品質と文体の多様性が大幅に向上しました。本研究では、PAI-Diffusionシリーズの12の中国語モデルすべて(ベースモデル、LoRA、ControlNetなどを含む)をオープンソース化し、開発者と協力してAI生成コンテンツ技術を進歩させ、より創造的でインパクトのある作品を生み出しています。本研究には、PAI-Diffusionモデル用の2つの推論ツールも含まれています。Chinese SD WebUIは、Stable Diffusion WebUIのプラグインで、ユーザーが必要とする画像をゼロコードで生成するために使用されます。Diffusers-APIは、API呼び出しを介して中国語モデルのオンライン展開をサポートします。詳細については、論文と技術ブログをご覧ください。この研究はACL 2024カンファレンスでも発表される予定です。 DiffChat、Stable Station 向けのインタラクティブなマルチターンプロンプト生成モデル拡散モデル(安定拡散など)に基づくテキスト画像生成モデルのパフォーマンスは、入力テキスト、つまりプロンプトの影響を受けることがあります。 ユーザーが作成された画像に特定のニーズを持っている場合や、特定のコンテンツ変更を実行したい場合、通常、プロンプトを繰り返し変更する必要があり、各試行の結果は予測できません。これにより、時間と計算リソースが大幅に消費されます。 この問題を解決するために、私たちは、ユーザーのニーズと指示に応じて元のプロンプトを適切に変更し、新しいプロンプトを取得して、テキスト画像生成モデルが指示に準拠したより美的に心地よい画像を生成できるようにする、テキストからテキストへのマルチターン生成モデルであるDiffChatを提案します。 このプロセス全体で、ユーザーとテキスト画像生成モデル間の反復的なインタラクションが実現され、最終的にユーザーの創造的なニーズが満たされます。 この手法は、まずキューワードの美化とキューワードエンジニアリングを通じて、タスクに関連性の高いデータセットを構築します。次に、教師ありファインチューニング学習の後、モデルの性能をさらに向上させるため、美観、人間の嗜好、コンテンツの完全性に関するフィードバックを用いた強化学習手法を提案し、モデルを最適化します。さらに、この手法は、動的な行動空間補正とコンテンツの完全性に基づく状態価値推定という2つの改善策を提案しています。実験結果では、この手法が競合するいくつかの類似手法を大幅に上回る性能を示すことが示されています。 検索のための大規模言語モデルの強化におけるロングテール知識の役割検索拡張生成(RAG)は、ユーザークエリに関連する文書を検索することで、大規模言語モデル(LLM)の知識能力を強化する上で優れた性能を発揮することが実証されています。しかし、RAGは検索された情報を無差別にクエリを拡張することでLLMの応答品質を向上させることにのみ焦点を当てており、LLMが元のクエリに正確に回答するために真に必要な知識の種類についてはほとんど考慮されていません。本論文では、LLMは大規模な事前学習中に一般的な高頻度の世界知識を既に記憶しているため、ロングテール知識がRAGにとって重要であると主張します。これに基づき、ロングテール知識検出のための簡便かつ効果的な手法を提案します。具体的には、知識の「ロングテール」性を測定するための、統計的かつ意味論的な生成期待値較正誤差(GECE)指標を新たに提案します。これにより、入力クエリにロングテール知識が含まれる場合にのみ、関連文書を検索し、大規模モデルに挿入します。実験結果によると、提案手法は既存の RAG 手法と比較して平均推論時間が 4 倍以上高速化され、下流タスクのパフォーマンスが一貫して向上することが示されています。 具体的には、`pred` と `ref` はそれぞれ生成されたテキストとモデルタスクの標準結果を表します。`M(pred, ref)` はモデルの METEOR スコア指標です。平均トークン確率において、`P(ti)` は LLM によって生成された i 番目のトークンの確率を表し、`n` はトークンシーケンスの長さです。分母の `α` は平均用語頻度です。ロングテールのインスタンスは `α` 値が小さいため、その逆数も大きくなることがわかります。さらに、`▽ins` は現在のインスタンスの勾配であり、`E(▽ins)` はデータセット全体の平均勾配です。勾配を取得するには、データセットを使用して LLM を微調整し、順方向および逆方向の勾配伝播を実行するだけです。ロングテールのインスタンスは、データセットの平均スコアと比較して勾配 `▽ins` が小さく、結果としてドット積 `E(▽ins)·▽ins` が小さくなることがわかります。 大規模言語モデルのための知識編集アルゴリズムDAFNet大規模言語モデル(LLM)は近年目覚ましい成果を上げていますが、依然として誤った情報を生成するという錯覚に悩まされています。モデル編集は、LLMにおける事実上の誤りを修正するタスクです。しかし、これまでの研究では、モデル編集は主に単発の編集タスクとして扱われ、LLMによって生成される繰り返し発生する誤りにはほとんど注意が払われてきませんでした。本研究では、エラーを継続的に修正するためのシーケンシャルモデル編集(SME)というタスクに取り組みます。動的補助融合ネットワーク(DAFNet)を設計することで、シーケンス全体にわたる事実上の知識間の意味的相互作用を強化し、多知識トリプルの編集プロセスにおける壊滅的な忘却を防止します。 具体的には (1) 関係トリプル内の意味的融合のために、編集内の注目ストリームをLLM内のラベルレベルの粒度を持つ自己回帰自己注目に集約する。さらに、多層対角相互編集注目ストリームを利用して、シーケンス全体のレベルで重み付け表現を更新する。 (2)配列編集には知識を蓄えるための補助パラメータが必要であることを考慮し、近接性、人気度、ロングテール、そして堅牢性を実現し、配列編集の汎用性を高める新たなデータセットDAFSetを構築しました。実験結果では、DAFNetは単一ラウンド編集と連続編集の両方において、強力なベースラインを大幅に上回る性能を示しました。DAFSetの使用により、様々なシナリオにおいて、他の補助ネットワークベースの手法の性能も継続的に向上しています。 製品化されたサービス前述の研究成果は、PAI AIプラットフォームのさまざまなモジュールにも深く統合され、PAIのお客様にAIモデルのトレーニングと推論サービスを継続的に提供しています。具体的には、中国語SD WebUIは、Stable Diffusion WebUIのプラグインとして、PAI-EASとシームレスな互換性を備えており、中国語AIGCアプリケーションを5分以内にPAI-EASにワンクリックで展開できます。Diffusers-APIはPAI-EASに統合されており、お客様はクラウド上でさまざまな大規模テキストおよび画像生成モデルを簡単に展開し、リアルタイムの運用環境に導入できます。さらに、PAI-QuickStartは、50を超える一般的な大規模言語モデルとそのさまざまなトレーニングおよび推論手法を統合しており、お客様は大規模言語モデルをより簡単に微調整して展開できます。今後も、PAIプラットフォーム上で業界をリードするアルゴリズムとモデル機能をお客様に提供していきます。 論文集論文名: PAI-Diffusion: クラウド上でのテキストから画像への合成のためのオープンな中国語拡散モデル群の構築と提供 著者: Wang Chengyu、Duan Zhongjie、Liu Bingyan、Zou Shinyi、Chen Cen、Jia Kui、Huang Jun 論文PDFリンク: https://arxiv.org/abs/2309.05534 論文名: DiffChat: インタラクティブな画像作成のためのテキスト画像合成モデルによるチャット学習 著者:王家鵬、王成宇、曹庭峰、黄軍、金蓮文 論文PDFリンク: https://arxiv.org/abs/2403.04997 論文名:検索強化型大規模言語モデルにおけるロングテール知識の役割について 著者: Li Dongyang、Yan Junbing、Zhang Taolin、Wang Chengyu、He Xiaofeng、Huang Longtao、Xue Hui、Huang Jun 論文PDFリンク: https://arxiv.org/pdf/2406.16367 論文名: DAFNet: 大規模言語モデルにおける逐次モデル編集のための動的補助融合 著者: Zhang Taolin、Chen Qizhou、Li Dongyang、Wang Chengyu、He Xiaofeng、Huang Longtao、Xue Hui、Huang Jun 論文PDFリンク: https://arxiv.org/abs/2405.20588 Alibaba Cloudの人工知能プラットフォーム(PAI)は、研究インターンを継続的に募集しています。チームは、ディープラーニングアルゴリズムの研究と応用に注力しており、特に大規模言語モデルとマルチモーダルAIGC大規模モデルへの応用アルゴリズムに重点を置いています。履歴書の送付およびお問い合わせは、 [email protected]までご連絡ください。 |