|
出典: Xi Xiaoyao Tech Talk Xi Xiaoyao テックトーク オリジナル 著者 | Xiaoxi, ZenMoore3か月以上前、Microsoft Research Asiaは論文「言語だけが必要なわけではない:知覚と言語モデルの整合」の中で、強力なマルチモーダルモデル「Kosmos-1」を発表しました。このモデルは知覚と言語をうまく整合させ、ChatGPTのマルチターン対話および推論機能に画像認識・理解機能を追加することで、大規模モデルの機能を言語から視覚へと一歩前進させました。 それから3か月余り後の昨日、Microsoft Research AsiaはKOSMOS-1の強化アップグレードであるKOSMOS-2をリリースしました。以前のマルチモーダル大規模モデルと比較して、KOSMOS-2はマルチモーダル大規模モデルのグラウンディング能力を最大限に引き出し、オブジェクトレベルで入力とインタラクションする能力を獲得しました。つまり、KOSMOS-2は言語と視覚世界を真に結びつけることができるのです。例えば、下の画像のように、画像を入力し、モデルにその中のものを説明してほしい場合、モデルは単に「雪だるまが火で暖まっている」というテキストを提供するだけでなく、雪だるまがどこにあり、火がどこにあるのかを実際に識別する機能も備えています。KOSMOS-2は、言葉による説明を提供するだけでなく、画像内のエンティティを識別する能力も備えています。 大規模マルチモーダルモデルのこの能力は、ある程度、具現化AIの基盤を築き、言語、知覚、行動、そして世界を真にマルチモーダルに統合するためのインスピレーションを提供します。例えば、ユーザーが「左目の絵文字」を入力すると、KOSMOS-2は画像内のハート型を正確に特定できます(1)。画像内に牛が何頭いるかを入力すると、KOSMOS-2は「2頭」と答えるだけでなく、どの2頭の牛なのかを正確に特定できます(2)。同様に、画像を入力し、バナーに書かれた単語を尋ねると、KOSMOS-2はそれらを正確に識別し、その位置を提供します(3)。 画像と言語の順序を入れ替え、ウサギとカメが同期して疾走するウサギとカメのレースのような画像を入力し、カメを選択すると、モデルに「この動物」(選択されたカメを指す)がなぜ一般的ではないのかを尋ねることができます。KOSMOS-2は合理的な説明(4)も提供しており、これはモデルが選択されたオブジェクトと言語における「これ」の参照を理解できることを意味します。別の例として、画像の説明シナリオでは、画像を入力して「それは何ですか?」と尋ねると、KOSMOS-2は画像の主題を正確に特定できます(5)。また、2本の飲み物のボトルを選択して「この2つの飲み物の最大の違いは何ですか?」と尋ねると、モデルは最大の違いがラベルにあり、一方はレモン、もう一方はスイカを指していることを認識できます。 より詳細なセグメンテーションと説明が必要な場合は、KOSMOS-2が画像の詳細をどのように記述しているかを見てみましょう。下の図に示すように、 KOSMOS-2は画像の内容を正確に記述するだけでなく、それぞれの記述の位置も提供しています。 こうしたより直感的な理解に加え、マイクロソフトの研究者たちはKOSMOS-2の様々な指標に関する一連の実験も実施しました。実験は2つのパートに分かれており、1つはKOSMOS-2とKOSMOS-1を区別する新たな能力、すなわちグラウンディング能力の性能を評価し、もう1つは一般言語タスクと知覚言語タスクにおけるKOSMOS-1の性能を比較し、KOSMOS-2の優位性を実証しました。 著者らは、フレーズグラウンディングと参照表現理解という2種類の入力を用いてグラウンディング能力をテストしました。フレーズグラウンディングでは、モデルは1つ以上のフレーズに基づいて対応するバウンディングボックスのセットを生成する必要があります。一方、参照表現理解タスクでは、モデルはさらに、以下の図に示すように、与えられた文に基づいて画像内のエンティティを見つける必要があります。 KOSMOS-2は、従来の微調整モデルと比較して、非常に優れた性能を発揮します。ゼロショットモデルとしては、R@1指標を用いた位相接地タスクにおいて、微調整モデルを凌駕する性能を示し、他のより複雑なモデルにも大きく劣っていません。また、参照表現理解においても、ベンチマークとなるゼロショットモデルを大きく上回り、RefCOCOgにおいても優れた結果を達成しています。 一方、著者らは、画像理解に基づいたモデルの評価も行いました。従来のマルチモーダル大規模モデルは、詳細なテキスト記述を通してしか画像領域をモデルに割り当てることができませんでしたが、KOSMOS-2は直接的なバウンディングボックスアプローチを採用しています。そのため、本論文では、モデルが境界付き画像の内容を正しく理解しているかどうかも評価することを目指しました。そこで著者らは、参照表現生成タスクを構築し、その中でKOSMOS-2を用いた実験を行いました。 このミッションでは、KOSMOS-2 のゼロショット能力も印象的で、CIDEr メトリックで微調整されたモデルを上回る結果を達成し、トップに立った。 KOSMOS-1 とは対照的に、KOSMOS-2 は、画像キャプション、視覚的な質問応答、および 8 つの標準言語タスクを含む、一般的な言語および視覚言語マルチモーダル タスクでテストされました。 KOSMOS-1と比較すると、KOSMOS-2は新たな機能を獲得しながらも、KOSMOS-1と同等の総合的な性能を維持し、画像記述タスクにおいては若干の改善も示しています。言語機能に関しては、KOSMOS-2はStoryCloze、HellaSwag、Winograd、Winogrande、PIQAにおいてKOSMOS-1と同等の性能を示し、CBはわずかに低下しましたが、BoolQとCOPAは向上しました。全体として、KOSMOS-2はコア機能を維持しながら、新たな強力な機能を獲得しています。 では、KOSMOS-2はどのように作成されたのでしょうか。その中核となるコンポーネントの1つが、著者らが構築したGrounded Image-Text Pairs (GRIT)データセットです。KOSMOS-2のグラウンディング機能を実現するために、論文ではCOYO-700MとLAION-2Bに基づいてGrounded Image-Text Pairsデータセットを構築し、それをKOSMOS-1のマルチモーダルコーパスと組み合わせてトレーニングしました。データセット全体の構築は2つのステップで構成されていました。まず、名詞-句-バウンディングボックスのペアを生成して基本的なトレーニングデータを取得します。次に、モデルが複雑な言語記述を処理できるように、論文では句を複文に拡張し、モデルの処理機能を拡張しました。GRITデータセットの全体的な構築プロセスを次の図に示します。 2つの構築ステップを経て、GRITは最終的に約9,100万枚の画像、1億1,500万個のテキストセグメント、そして1億3,700万個の関連バウンディングボックスを生成しました。上の表は、GRITのサイズと既存のGroundingデータセットを比較したものです。このGRITデータセットに基づき、KOSMOS-2はKOSMOS-1と同じモデルアーキテクチャと学習目標を用いて学習を行っています。特に注目すべきは、著者らが位置マーカーと対応するテキストセグメントを「ハイパーリンク」データ形式を用いて接続している点です。全体的な学習戦略と手法については、KOSMOS-1の論文を参照してください。 要約と考察自然言語と視覚世界を真に結びつけることは、知能実現の重要なステップであることは疑いようがありません。KOSMOS-2は、視覚と言語のより深い繋がりを力強く推進し、物体レベルで画像領域を認識する新たな能力を獲得し、優れた言語理解能力と画像認識能力を備えています。身体型AIが真に現実世界に進出する時、グラウンディング能力は基本的な能力となり、KOSMOS-2の登場は、身体型AIの真の夜明けを垣間見ることができるでしょう。 論文タイトル: 論文リンク: プロジェクトリンク: |