新知源報道 出典: 同期 編集者:ピーチ・スワロー 【知源新紹介】最近、南洋理工大学とマイクロソフトの中国チームが共同でマルチモーダルモデル「Otter」を発表しました。これは将来、ARヘッドセットのAIアシスタントとしても活用される可能性があり、Jarvisを超えることも夢ではありません! Apple の画期的な Vision Pro ヘッドセットの誕生は、空間コンピューティングの時代を直接的に導きました。 「Jarvis」と呼ばれる AI アシスタントが開発され、次世代のヘッドセットが日常生活で最高のパフォーマンスを発揮できるようになれば、本当に素晴らしいことでしょう。 麻雀をしていた時、誰かが私にどの牌を捨てたらいいか直接尋ねてきました。Otter-Eさんがやり方をアドバイスしてくれたおかげで、それ以来ずっと勝つことができました。 空中にいるときに、Otter-E に着陸したい場所を尋ねると、着陸方法を詳しく説明します。 サッカーをプレイする Otter-E からアドバイスを求めることもできます。 カワウソが水中で遊ぶ姿を見て感動した時でも、Otter-E が 5 行の詩を作ってくれます。 上記は、南洋理工大学とマイクロソフトの研究者が AR ヘッドセット向けに特別にトレーニングした AI アシスタント「Otter-E」です。 実際、これは Otter モデルのもう一つの進化形です。 Otter は、OpenFlamingo に基づくマルチモーダル モデルであり、MIMIC-IT でトレーニングされており、改善された指示追従能力とコンテキスト学習を実証しています。 Otter は 2 つのコンシューマー グレードの RTX 3090 GPU で実行できることは注目に値します。 さらに、MIMIC-IT は 7 つの画像およびビデオ データセットにまたがり、さまざまなシナリオをカバーし、8 つの言語をサポートしています。 一般的なシーンの理解から微妙な違いの発見、そして AR ヘッドセットの一人称視点の理解の強化まで。 一部のネットユーザーは、AppleのVision Pro向けに作成されたAI ARアプリケーションを見て興奮を表明した。 8つの言語をサポートし、7つのデータセットにまたがる 現在、AI 開発で最も急速に成長している分野は会話型アシスタントであり、AI はユーザーの意図を理解して実行する強力な能力を備えています。 大規模言語モデル (LLM) の強力な一般化機能に加えて、命令のチューニングが不可欠な役割を果たします。 命令チューニングとは、様々な高品質命令に基づいてLLMを微調整することです。命令チューニングにより、LLMはユーザーの意図をより強力に理解できるようになります。 LLaVA のパフォーマンスは非常に強力ですが、LLaVA-Instruct-150K にはまだ 3 つの制限があります。 (1)視覚的多様性が限られている。 (2)単一の画像を視覚データとして用いる。 (3)言語関連の文脈情報のみ: これらの制限に対処するために、研究者はマルチモーダルコンテキスト指示調整 (MIMIC-IT) を導入しました。 MIMIC-IT には主に 3 つの機能があります。 (1)一般的なシーン、自己中心的な視点のシーン、屋内のRGB-D画像など、さまざまなデータセットからの画像やビデオを含む多様な視覚シーン。 (2)複数の画像(または1本の動画)を視覚データとして記録する。 (3)マルチモーダルコンテキスト情報、複数の指示と応答のペアや複数の画像や動画を含む、マルチモーダル形式のコンテキスト情報によって特徴付けられる。 論文リンク: https://arxiv.org/pdf/2306.05425.pdf 次の図は、MIMIC-IT の概略図です。 MIMIC-IT データセットには、知覚、推論、計画という基本機能を網羅した 280 万のマルチモーダル指示応答ペアが含まれています。 各指示にはマルチモーダル対話コンテキストが付随しており、MIMIC-IT でトレーニングされた VLM は対話型指示の後に高い熟練度を発揮し、ゼロショットの一般化を達成できます。 研究者たちは、より多くの VLM が現実世界を理解する能力を獲得できるように支援するために、MIMIC-IT データセットを作成しました。 次の図は、2つのモデルデータ形式を比較したものです。LLaVA-Instruct-150KとMIMIC-IT (a) LLaVA-Instruct150Kは、単一の画像と、その言語のみで記述された対応するコンテキスト情報(黄色のボックス)で構成されています。 (b) MIMIC-ITは、複数の画像や動画を入力データに組み込み、画像/動画と言語入力の両方をコンテキスト情報として扱うマルチモーダルコンテキスト情報をサポートします。 一方、研究者らは、複数の言語で高品質の指示と回答のペアを生成するための自動化パイプラインである Sythus を提案しました。 研究者たちは、LLaVA が提案したフレームワークを基に、ChatGPT を使用して視覚コンテンツに基づいた指示と応答のペアを生成しました。 生成されたコマンドと応答のペアの品質を確保するために、研究者のデータ パイプラインでは、システム情報、視覚的な注釈、コンテキストからの例を ChatGPT のプロンプトとして使用します。 コアセットの品質はその後のデータ収集プロセスに影響するため、研究者はコールドスタート戦略を採用しました。 コールド スタート フェーズでは、研究者はヒューリスティックなアプローチを採用し、ChatGPT にシステム メッセージと視覚的な注釈のみを通じてコンテキスト内の例を収集するよう促しました。 この段階は、満足のいくコンテキストでの例が特定された場合にのみ終了します。 4 番目のステップでは、命令と応答のペアが取得されると、データ パイプラインはそれを中国語 (zh)、日本語 (ja)、スペイン語 (es)、ドイツ語 (de)、フランス語 (fr)、韓国語 (ko)、アラビア語 (ar) に拡張します。 Sythusの概要。研究者は、特定のデータセット内のコマンドとレスポンスのペアを照会するための最適なシステム情報とコンテキスト例を決定するために、コールドスタートフェーズを採用しました。 その後、Sythus はステップ 1 から 4 をスキップし、8 つの言語で高品質のコマンドと応答のペアを生成しました。 下の図は、MIMIC-IT と他のマルチモーダル指導データセットを比較したものです。 MIMICIT は次の機能を備えています。 (1)最大規模の視覚言語指導データセット。 (2)ビデオデータを含む第1の指示データセット。 (3)マルチモーダルコンテキストシナリオをサポートする(データ形式は図2に示す)。 (4)英語、中国語、スペイン語、日本語、フランス語、ドイツ語、韓国語、アラビア語の8つの言語をサポートします。 MIMIC-IT のデータ ソースには、COCO、Spot-the-diff、ScanNetV2、VisualStorytelling、DenseCaption/Activity caption、TVCaption、Ego4D の 7 つのデータセットが含まれます。 ここで、lang. は言語を表し、vis. は視覚を表します。 下の図は、マルチモーダルコンテキストにおける指示と応答のペアの統計データを示しています。 (a) と (b) は、指示と応答を表す動詞と名詞の語根のペアです。図の内側の円は出力応答の動詞の語根を表し、外側の円は直接名詞を表しています。 (c) コマンドと応答の統計。分布をよりバランスよくするために、Ego4D コマンドの 25% を保持します。 上の画像は、さまざまなシナリオにおけるオッターの反応の例を示しています。 MIMIC-IT データセットでトレーニングされた後、Otter はコンテキストの理解と推論を提供し、コンテキスト内の例から学習し、自己視覚 AI アシスタントとして機能できるようになります。 カワウソが生まれた 研究者らは、MIMIC-IT データセットのさまざまな応用と、それに基づいてトレーニングされた視覚言語モデル (VLM) の潜在的な機能を実証しました。 研究者らはまず、MIMIC-IT データセットを使用してトレーニングされたコンテキスト指示チューニング モデルである Otter を導入しました。 次に、研究者らは、MIMIC-IT データセットで Otter をトレーニングするためのさまざまな方法を検討し、Otter を効果的に使用できる多くのシナリオについて議論しました。 - シーンの理解と推論 MIMIC-IT データセットには約 280 万のコンテキスト指示と応答のペアが含まれており、さまざまなタスクの完了を容易にするためにまとまりのあるテンプレートに構造化されています。 以下のテンプレートには、人間とアシスタントの役割のタグを利用して、ユーザーとアシスタント間のシームレスな対話を可能にする画像、ユーザー コマンド、モデル生成の応答が含まれています。 MIMIC-IT データセットで Otter モデルをトレーニングすると、LA タスクと SD タスクで実証されているように、さまざまな機能が得られます。 LA課題の訓練中、オッターは優れた場面理解力、推論能力、そして多ターン対話スキルを発揮しました。さらに、SD課題では、日常の場面における全体的な違いや微妙な違いを巧みに識別しました。 図に示すように、MIMIC-IT データセットでトレーニングした後の Otter の応答は、複数ターンの対話を理解し、推論する能力を強調しています。 - 文脈に沿った例を使って学ぶ 前述のように、文脈インスタンス内で視覚言語を組織化するという概念に関して、研究者らはLA-T2Tタスクの訓練後にOtterモデルが文脈間指示に従う能力を実証しました。他のタスクでは、入力データは以下の形式で構成されます。 - 自己視覚的理解 MIMIC-IT データセットの注目すべき特徴は、IEP および E4D シーンからの一人称ビデオと連続画像の包括的なコレクションが含まれていることです。 IEP シナリオでは、屋内レイアウトに基づいてモデルがイベントを計画できるように設計された指示と応答を含む、屋内環境内での理解と計画に重点を置いた内容になっています。 一方、E4D シーンは、一人称拡張現実 (AR) ヘッドマウント アシスタント アプリケーション向けにカスタマイズされたコマンドと応答を使用して特別に設計されています。 研究者たちはこのデータに基づいて、ARヘッドセットアプリケーション用に特別に設計されたOtter-Eと呼ばれる自己視覚アシスタントをトレーニングしました。 MIMIC-IT は、モデルの能力を強化して、一人称視点でシーンを認識し、今後のタスクの戦略を策定し、AR ヘッドセットのユーザーに貴重な洞察と提案を提供します。 したがって、Otter-E モデルは、AR ヘッドセット向けのユニークで先進的な視覚言語モデルとなり、画期的な没入型体験への道を切り開きました。 実験評価 以下の表は、MMAGIBench フレームワークを使用した視覚言語モデルの認識および推論機能の広範な評価を示しています。 Otter は、知覚タスクと推論タスクの両方で最高の平均精度を達成し、すべてのベースライン モデルを上回ります。 VQAv2などの視覚言語モデルの現在の評価指標には、堅牢性に欠ける点があります。例えば、VQAv2は主に単語やフレーズに対する応答を評価するのに対し、多くのモデルは文の出力を生成します。 このギャップを埋めるため、研究者たちはChatGPTに各入力のラベルを予測させ、それを実際のラベルと比較することでモデルを評価しました。ChatGPTの応答が予測と対応するラベルが一致した場合、テストサンプルは正しいと判断されました。 図に示すように、Otterはビデオ理解においてベースラインモデルを上回っています。(b) 人間による評価の比較。Otterは優れた実用性と一貫性を示しています。(c) 少数のショットによるコンテキスト学習の評価。Otterは優れたコンテキスト学習とゼロショット学習においてOpenFlamingoを上回っています。 著者紹介 李波 Li Boは、南洋理工大学コンピュータサイエンス学科の博士課程1年生で、Liu Ziweiの指導を受けています。深層学習に関する彼の研究分野は以下のとおりです。 安定拡散や GPT などの基本モデルは、真にインテリジェントな人工知能を実際のアプリケーションに導入する可能性を秘めているようです。 具現化された AI: 対話と探索的学習を通じて環境内の困難なタスクを解決する自律型インテリジェント エージェント。 これらは月面着陸計画の壮大な夢であり、リー氏が長期的に注力する課題でもあります。彼の最初の研究プロジェクトは、コンピュータービジョンの新たな可能性と、現実世界のシナリオにおける基盤モデルに焦点を当てています。 張元漢 (张元瀚) 張元翰(ユアンハン・チャン)は南洋理工大学の博士課程の学生で、指導教官は劉紫薇(リウ・ズウェイ)です。彼の研究分野はコンピュータービジョンとディープラーニング、特に表現学習と転移可能性です。 劉紫偉 Liu Ziweiはシンガポールの南洋理工大学の助教授であり、南洋理工大学の助教授の称号も持っています。彼の研究分野は、コンピュータービジョン、機械学習、コンピューターグラフィックスです。 |
Apple Vision Proを装着して麻雀をプレイ!NTUとMicrosoftの中国チームが協力し、ARヘッドセット専用に設計されたOtter-Eを開発しました。
関連するおすすめ記事
-
朝のニュース | 2023年7月27日(木)
-
拡張分析について半月ほど調べましたが、漠然とした理解しかできませんでした。しかし、ChatGPTに10個の質問をしてみたら、すぐに理解できました!
-
QwQ-32B か DeepSeek か? AI を民営化する企業にとって、アジャイル モデルの反復が重要な考慮事項になります。
-
Amazon CodeCatalyst の生成 AI アシスタントである Amazon Q を使用して、開発者の生産性を向上します。
-
新しいインフラ戦略の下で、インテリジェント交通はどのようにして産業のアップグレードを実現できるのでしょうか?
-
大規模モデルの時代にもナレッジグラフは必要でしょうか?次世代ナレッジグラフセマンティックフレームワークであるSPGは、企業のデジタル変革を推進します。