編集者注：視覚機能の統合は、モデルの機能と推論手法にどのような影響を与えるのでしょうか？画像を理解し、テキストを生成できるAIアシスタントが必要な場合、GPT-4Vのようなクローズドソースのソリューションに限定されるのでしょうか？
本日ご紹介する記事の核心となる主張は、マルチモーダル言語モデルの分野が急速な発展段階にあり、Llama 3.2 VisionやMolmoなどのオープンソースモデルの出現により、オープンマルチモーダルエコシステムを構築するための重要な基盤が築かれたという点です。
この記事では、MetaのLlama 3.2 VisionモデルとAI2のMolmoモデルの主要な技術アーキテクチャと特性を紹介し、他の多くの大規模マルチモーダルモデルとのパフォーマンスを比較します。記事では、Molmoはほとんどの視覚領域のテストで優れたパフォーマンスを発揮するのに対し、Llama 3.2 VisionはMMMUなどのテキスト関連タスクで優れたパフォーマンスを発揮するとしています。オープンソースにおけるマルチモーダルモデルの定義にはさらなる議論と改良が必要ですが、Molmoは現在、オープンソースに最も近い視覚モデルです。また、この記事では、視覚機能の統合がモデルの機能と推論手法に与える影響についても考察します。
現時点では評価ツールとデータセットに欠陥があるにもかかわらず、オープンソースモデルはクローズドソースモデルに匹敵する可能性を示しており、マルチモーダル AI の分野が新たな開発機会をもたらしつつあることを示しています。

著者 | ネイサン・ランバート

編纂者：岳陽

純粋な言語モデルと比較して、マルチモーダル言語モデルの分野は定義が曖昧で、未解決の問題が多く、創造性を発揮する余地が大きいと言えます。言語モデルには明確に定義されたタスクと動作があり、先進的な研究室はOpenAI o1などの革新的な学習手法を用いて、最も困難な推論問題におけるブレークスルーを試みています。しかし、先端研究室も小規模研究室も、マルチモーダルモデルの応用を模索しています。AIはどのようにして外界を「認識」し、理解するのでしょうか？堅牢なオープンモデル群を持つことは、この分野の包括的、オープン、かつ透明性のある発展に不可欠であり、これらは肯定的な成果を達成するための2つの重要な条件です。

現在、マルチモーダル言語モデルの研究のほとんどは、言語バックボーンと画像エンコーダに基づいて初期化されるLate-Fusionモデルを用いて行われています（おそらくGPT-4Vで使用されている手法です）。基本的な言語モデルを微調整するこの手法はコストがかかりますが、計算コストは人々が想像するほど法外なものではありません。様々なモデルアーキテクチャ[1]が存在しますが、Late-Fusionは安定性と予測可能性の高さから、現在の研究で人気のある選択肢となっています。MolmoとLlama 3.2 Vはこの手法を用いて学習されました。

マルチモーダルデータセットで事前学習された早期融合モデルを用いたデータスケーリングの期待される効果はまだ現れていません。おそらく、これらのモデルがGPT-5レベルのコンピューティングクラスターでテストされたときに初めて、その真のメリットが明らかになるでしょう。

後期融合型マルチモーダルアプローチは、基本的な言語モデルを多様な出力形式に変換・アップグレードする方法を探求するきっかけとなりました。過去数年間、RLHFからマルチモーダル後期融合モデル、そしてO1のような革新的なモデルに至るまで、モデルの微調整に用いてきた様々な手法を振り返ると、モデルには未だ探求すべき豊かな表現力が秘められていることに気づきます。「マルチモーダルトレーニングは、GSM8kやIFEvalのような標準的なテキストベンチマークにどのような影響を与えるのか？」といった根本的な疑問も残っています。モデルを視覚的に微調整した後も、MMLU（Massive Multitask Language Understanding）テストなど、モデルの知識レベルを評価するために主に用いられる標準的なテストに大きな変化はありません。

この分野も私にとって新しい分野です。本論文の主な焦点は、Ai2の重要なモデルバージョンであるMolmo[2]（オープンマルチモーダル言語モデル）、そしてMetaの新しいモデルであるLlama 3.2 Visionです。どちらも異なるスケールで4つのモデルセットを公開しています。それぞれのパフォーマンスは同等ですが、Molmoの方がよりオープンです。

Metaは、Llama 3.2の初期バージョンである1B、3B、11B-Vision、90B-Vision[3]をリリースし、ブログ記事[4]でトレーニングプロセスの詳細を公開しました（記事内にリンクも掲載されています）。11BモデルはLlama 3 8Bモデルの改良版となる可能性が高く、90BモデルはLlama 3 70Bモデルの進化版です。

Ai2 は、Qwen 2 72B をベースにした Molmo 72B、Qwen 2 7B をベースにした Molmo-7B-D、OLMo 7B をベースにした近々発売予定の Molmo-O、および 1B のアクティブパラメータを備えた OLMoE をベースにした Molmo-E を発売しました。

Molmo シリーズのモデルは Apache 2.0 ライセンスに基づいてライセンスされていますが、Meta モデルは Llama 3.2 コミュニティライセンスに基づいてライセンスされており、モデルの使用にはより厳しい制限が課せられています。

こうなると、人工知能分野はどこへ向かうのかという疑問が必然的に浮かび上がります。実際には、1Bおよび3Bパラメータを持つLlamaモデルが主な焦点となっています。小規模言語モデルに対する市場需要は高まり続けており、これらのモデルの能力向上に伴い、その市場ポテンシャルは拡大し続けています。この話題については今後も繰り返し議論していきますが、本日はマルチモーダルモデルに焦点を当てます。

01 Llama Vision: 一般開発者向けマルチモーダルモデル

Llama 3レポート[5]の発表以来、Metaはこれらのモデルがまもなく利用可能になることを明らかにしています（EUを除く）。MetaはこれらのモデルをMeta AIと、RayBanスマートグラスなどの拡張現実（AR）/仮想現実（VR）デバイスに適用しています。これらのモデルは非常に信頼性が高く、アクティブパラメータが通常60B程度と推定される閉鎖された実験室の小型モデルよりもはるかに優れています。

これらのモデルに関する具体的な情報は比較的少ないです。EUのユーザーがMeta AIの公式ページからモデルをダウンロードしようとすると、HuggingFaceプラットフォームで見たのと同じ地域制限のロックが表示されます。

他のユーザーもMeta AIでこれらのモデルにアクセスできます。しかし、さらに重要なお知らせがあります。より豊富なドキュメントとよりオープンな環境（地理的制限なし）を備えたモデルも利用可能です。

02 Molmo: Llama Vision に匹敵する (ほぼ) オープンソースモデル。

MolmoはAi2[6]による最新のオープンソース言語モデルであり、予備的な技術レポート[7]、モデルの無料デモ[8]、そして近日公開予定のデータセットが付属しています。このプロジェクトは、誰もが現代のAIモデル構築の最も重要な部分に参加したり理解したりできるように、オープンソースの言語モデルを構築することを目的としています。Molmoモデルは、Qwen2とOLMoのアーキテクチャとCLIPエンコーダ[9]を組み合わせて学習されています。しかし、このオープンソースのCLIPバージョン[10]が利用可能であったにもかかわらず、研究チームはそれを選択せず、代わりに後者の方がダウンストリームのパフォーマンスが優れている別のバージョンを選択しました。MistralのPixtralモデル[11]とLlamaモデルはどちらも独自のエンコーダを学習していることに留意してください。関連ブログ投稿では、これらのコンポーネントがどのように連携するかが明確に説明されています。

モデルアーキテクチャは、言語モデルと画像エンコーダを組み合わせたシンプルで標準的な設計を採用しています。モデル全体は4つの主要部分で構成されています。 (1)入力された単一画像を、異なるスケールと異なるクロッピング方法の画像セットに変換するプリプロセッサ。 (2)これらの画像を独立して一連のビジュアルトークンに変換するViT画像エンコーダ。 (3)ビジュアルトークンを言語モデルの入力に適したサイズに変換し、プーリング技術によってビジュアルトークンの数を削減するコネクタ。 (4) デコーダーのみを含むTransformer Large Language Model (LLM)。

この論文では、モデル構造の詳細な概要が説明されています。

これらのモデルでは、すべてのモデルパラメータがトレーニングフェーズの両方で更新され、変更されないままになるわけではないことに注意してください。さらに、これらのモデルはトレーニング中にRLHF（人間のフィードバックに基づく強化学習）や嗜好調整技術を採用していません。視覚モデルのベンチマークテストに基づくと、MolmoモデルはGPT、Claude、Geminiモデルと同等のパフォーマンスを発揮します。

Llama 3.2 Vモデルと比較すると、 Molmoはほとんどの視覚領域で優れた性能を発揮します。以下はベンチマークスコアの概要です。

MMMUテストでは、Llama モデルが 6 ポイント高いスコアを獲得しました。
MathVistaテストでは、Molmo モデルのスコアが 1 ポイント高くなりました。
ChatQAテストでは、Molmo モデルが 2 ポイント高いスコアを獲得しました。
AI2Dテストでは、Molmoモデルのスコアが4ポイント高くなりました。
DocVQAテストでは、Molmo モデルが 3 ポイント高いスコアを獲得しました。
VQAv2テストでは、両者のスコアはほぼ同等、または Molmo がわずかに優位でした (Llama 3.2 のブログ投稿でのこの点に関するレポートは十分に明確ではありませんでした)。

以下はRedditユーザーのLocalLlama[12]による評価結果を独自に再現したものである。

私の意見では、これは様々な組織の目標とよく一致しています。Llama 3.2 Vはテキスト処理において、おそらく大幅に優れたパフォーマンスを発揮しますが、Molmoは画像処理において優れています。Molmoは、画像内の方向特徴の認識や時計の読み取りといったタスクにおいて特に優れています。

本稿の後半でさらに詳しく検討しますが、ベンチマークはこれらのモデルの能力を完全に反映するものではありません。Molmoはオープンソースと科学コミュニティに多大な貢献をしてきましたが、これらのモデルの動作特性を探求することも同様に重要です。Molmoには、他のモデルにはない独自の機能があります。それは、参照画像内の特定のピクセルを指し示す機能です。例えば、私はMolmoに、自分の写真に写っている自転車の位置を尋ねました。[13]

この方向性の能力こそが、Webエージェントアプリケーションにおけるマルチモーダルモデルの最も大きな利点です。モデルのトレーニング中に十分なWebデータが取り込まれると、一般的なWebページをすべて閲覧する能力をすぐに習得できます。

モデルに同じ画像を説明するように依頼すると、かなり詳細な説明が返され[14]、それは非常に標準的なものであった。

この画像はZoom通話のスクリーンショットで、黒い枠と白い枠で囲まれています。右上の小さなウィンドウには、別の参加者が映っています。彼は髭を生やし、眼鏡をかけ、ヘッドフォンをかけ、黒いTシャツを着ています。暖炉の前に座っており、マントルピースの上には写真や本が並べられています。メイン画像に写っている若い男性は、茶色のショートヘアに青い目をしており、笑顔で、白い水玉模様の青いシャツを着ています。彼は白い壁の部屋に座り、窓枠があります。彼の背後には様々な品物が置かれた黒い棚があり、壁には自転車のタイヤが掛けられています。部屋には額入りの絵画もいくつか飾られています。画面上部にはファイル名が表示されています…

この詳細な記述は、Molmoモデルの学習に使用された新しいデータセットPixMoから直接影響を受けています。PixMoは、これらの以前のモデルよりもはるかに価値があります。このデータセットの革新性は、注釈者がテキストではなく音声で画像に応答できることです（ローカライズされた物語[15]に関する研究に似ています）。これにより、データ注釈がより創造的で説明的になります。実際、データ注釈者はこれらのタスク（ポインティングデータの提供など）を非常に楽しんでおり、積極的にさらに多くのタスクを要求します。データ注釈者からの高いレベルの参加を促すことは、あらゆるヒューマンデータパイプラインの目標であり、私が目にした事例では前例のないことです。このデータセットには、多種多様な画像をカバーする数百万のサンプルが含まれています。

Llama 3.2 Vについて私たちが知っている数少ない技術的詳細の一つは、それが「60億（画像とテキスト）のペア」で学習されたということです。そのほとんどは合成データである可能性が高いです。一方、Molmoは主に人間によって生成された数百万のデータセットで学習されました。

Molmoを含むOLMoモデルにとって、最も重要な差別化要因と戦略はオープン性です。「オープンソースAI」の定義に関する議論が続く中、CLIPのようなマルチモーダルモデルは、オープンソースAIに対する理解を検証、あるいは「ストレステスト」するための優れた例となります。以下は、Molmoモデルとその類似モデルのオープン性の比較です。Llama 3.2 Vのオープン性は、他のすべてのオープンウェイトモデルとほぼ同等です。

これらのモデルはすべて、オープンデータを使用しないビジュアルエンコーダ（主にOpenAIのCLIP）を採用していますが、オープンソースの代替手段も存在します。公開されている画像データは、CSAMのようなデリケートな問題を含む可能性のある重大なリスクを伴い、複雑です。非オープンソースモデル（パラメータを更新）から微調整されたMolmoモデルは、オープンソースイニシアチブの最新の定義によればオープンソースとはみなされません。しかし、Molmoが生の画像やテキストデータではなく、公開されているデータの埋め込みのみを使用する場合、このアプローチはオープンソースの要件を満たすでしょうか？ここで疑問が生じます。コアウェイトが変更されず、埋め込みデータが公開されている場合、モデルは依然としてオープンソースの基準を満たしているのでしょうか？

これは、他の言語モデル（非公開モデルを含む）の合成出力を用いて学習されたオープンソースモデルの定義と一致しています。複数のモデルとデータストリームを同時に利用する分野では、オープンソースAIの定義については更なる議論が必要です。テキストのみを用いて事前学習されたモデルについては、「オープンソース」の定義は原則として妥当であり、わずかな調整のみで済みます。しかし、微調整やマルチモーダルアプローチが絡むと状況はより複雑になり、更なる議論が必要となります。

これらの理由から、「Molmoはオープンソースだ」と明言するつもりはありませんが、Molmoが現時点でオープンソースに最も近いビジュアルモデルであることは間違いありません。定義上、エコシステムの中で最もオープンなラボは、戦略的にオープンソースに非常に近いと言えます。

03 視覚機能の導入がモデル能力と推論手法に与える影響

視覚機能の追加は微調整の問題と捉えられるため、現在のトップクラスのモデルが、画像の有無にかかわらず同じ手がかり語を処理した場合にどのようなパフォーマンスを発揮するのか疑問に思います。裏では、クエリは異なるモデルにルーティングされます。GPT -4やClaudeのような初期の融合モデルではないモデルの場合、視覚要素の追加は推論コストとは別に、ほぼ確実にパフォーマンスに影響を与えます。そうでなければ、すべてのモデルは視覚モデルになります。しかし、このテストは、画像データをネイティブに処理するGPT-4oのようなモデルには適用できません。

最も直接的な比較方法は、テキストタスクにおける標準バージョンと視覚バージョンのモデルの評価の違いを調べることです。しかし、現在公開されているモデルでこのような直接的な比較を可能にしているものはほとんどありません。たとえ可能だったとしても、通常は部分的な評価しかカバーしていません。この記事の執筆中に、私はそれなりに良い調査を行いましたが、完全に網羅的とは言えず、具体的な数値で説得力のある議論を裏付けるには比較データが不十分であることがわかりました。私の直感では、モデルに視覚処理を組み込むと、トレーニング後に得られるパフォーマンスの向上（微調整や最適化など）を実現するのがはるかに難しくなると思います（ChatBotArenaのようなプラットフォームで見られるように）。

この実験は、GPT-4とClaude 3.5 Sonnetが、中程度の難度の推論またはプログラミングタスク、特に画像干渉が存在する状況において、無関係な情報を正しく無視できるかどうかを観察することを目的としました。結果は、両モデルとも、明示的に指示された場合、特定の情報を容易に無視し、その後画像関連の質問を受けた際にも画像の内容を正確に理解したことを示しています。画像の導入により、これらのモデルは、類似のタスクを処理する際に以前のモデルが遭遇した典型的な問題やエラーに、より陥りやすくなる可能性があります。

私はよく使う簡単な推論の質問から始めました。「月にはゴルフボールがいくつ入るでしょうか？」 ChatGPT4 に画像があるかどうかに関係なく、推論プロセスはほぼ同じで、答えも非常に似ています。

一方、この例ではクロードの視覚システムはやや不十分であるように見えます（下の画像の右側を参照）。クロードの返答は、彼がいつもするように、このよくある概念的な質問に答えようとするというよりは、巧妙な言い逃れに近いものとなっています。

この課題は簡単すぎるように思えたので、プログラミング問題に取り組むことにしました。法学修士課程の学生に、解決策を説明してもらい、Pythonスクリプト（言語モデルの基本的な学習スクリプト）を書いてもらいます。当初はChatGPT画像は提供されていませんでしたが、これは当然のことです。なぜなら、ChatGPT画像は実際の開発において有用性が限られているからです。

画像付きのプロンプトに対する ChatGPT の応答は、十分に詳細でも包括的でもありません。

クロードの2つの回答は内容がほぼ同じでした。

この結論は驚くべきものではありません。モデルの画像入力がまだ未成熟であるため、昨年よく見られた典型的な問題や欠陥がより多く見られます。

より差し迫った問題は、この状況が将来大幅に改善されるのか、それとも変わらないのかということです。O1のような機能は、より高品質な視覚入力よりもはるかに広く受け入れられつつあります。AIモデルの分野では、言語は依然として中心的な役割を果たしています。視覚の限界を押し広げる明確な課題がなければ、視覚入力が変革をもたらすことを証明することは困難です。言語は依然としてこのエコシステムの生命線です。

Molmoは標準的なテキスト指示チューニングとRLHF（人間のフィードバックに基づく強化学習）が欠如しているため、推論タスクは従来のモデルとは大きく異なるものとなっています。このようなタスクに対しては、Molmoの全モデルにおいて継続的な最適化が必要であると認識しています。

しかし、MolmoにはClaudeやChatGPTにはない独自の機能がいくつかあります。これらの機能が真価を発揮することを期待しています。これらのモデルを体験できるもう一つの選択肢としてVision Arena[16]がありますが、機能インターフェースの一部に問題があり、ネイティブアプリケーションほど高速ではないことに注意が必要です。

04 マルチモーダル言語モデル：迅速なフロントエンド開発

Molmoプロジェクトと私がこれまでフォローしてきたプレーンテキストモデルプロジェクトとの最大の違いは、マルチモーダルモデルエコシステムの成熟度の低さです。特にモデルトレーニング後の行動研究の分野では、評価ツール、データセット、オープンベンチマークモデルが不足しており、要するに、すべてが非常に不足しています。私は今年初めにこの問題、特にオープンパイプラインにおけるマルチモーダルRLHFの曖昧さについて意見を表明しましたが[17]、残念ながらそれ以来ほとんど変わっていません。このため、「オープンソース」と言えるモデルが、GPT-4oのようなクローズドソースモデルとほぼ同等であるという現象が生じています。

技術レポートではモデルのベンチマークについて広範囲に議論されていますが、潜在的な研究領域と比較すると、これらの議論は表面的な部分しか触れていないことを明確にしておくことが重要です。多くの評価手法は、概念の説明やコンテンツの認識といった従来の言語モデルの概念を視覚領域に単純に移植するだけです。しかし、視覚モデルには、全く新しいベンチマーク手法が必要です。視覚言語モデルにおけるSWE-Benchに相当するベンチマークは何でしょうか？SWE-Bench-Visionが登場する可能性はありますが、テキストモデルと直接相関しない新しいテストカテゴリの開発も必要です。

マルチモーダルモデルを使う際、その本来の用途が明確でないことに気づきました。これらのモデルは確かに情報抽出と処理において強力です。私はよくClaudeやChatGPTを使って、表の内容をコピーしたり、コードを書き換えてグラフを生成したりしていました。上記の用途以外にも、シーンキャプションなど、多くの機能があります。これは視覚的に魅力的で記憶に残りやすいのですが、日常生活で頻繁に使うものではありません。

これまで、視覚言語モデルのパフォーマンスは芳しくありませんでした。しかし、現在ではそのパフォーマンスは大幅に向上し、さらに重要な点として、大規模に公開されているという点が挙げられます。これは間違いなく、視覚言語モデルの普及を促進するでしょう。こうした利用の増加は、さらなる開発のためのフィードバックループを生み出します。以下では、この議論について詳しく説明します。

特に、Meta は「オープンソース AI」ブランドを Llama モデルに関連付ける戦略を採用し、業界における Llama モデルの信頼性を高め、より多くの開発者がこのようなモデルに注目するように促しました。

マルチモーダル言語モデルの将来において、未解決ながらも確実に重要な応用は、Webページ要素の理解です。Webエージェントは、生成AI製品の大規模展開を阻む最後のハードルの一つとなっています。Webエージェントがまだそれほど普及していない理由は、現在のエコシステムがクローズドモデルに大きく依存しているため、特定の操作（特にエンタープライズアプリケーション）を実行するために必要な権限の取得に苦労していることが考えられます。技術の進歩に伴い、オープンウェイトモデルが急速に採用・応用されると考えられます。マルチモーダルモデル開発の原動力は、ネイティブマルチモーダルモデルの普及というよりも、市場、技術、業界の動向にあるように思われます。この点については、Adeptと議論することができます。オープンウェイトモデルやオープンソースに近いモデルの増加に伴い、AI分野の開発加速は間近に迫っています。

読んでくれてありがとう！

このブログを楽しんで、新しいことを学んでいただければ幸いです。

著者について

ネイサン・ランバート

AI研究、製品、そして不確実な技術の未来について考察する機械学習研究者。バークレーAI研究所で博士号を取得。Meta、DeepMind、HuggingFaceでの経験あり。

終わり

今週のインタラクティブコンテンツ🍻

Molmoの「ピクセルレベルのポインティング機能」からどのようなインスピレーションを得ましたか？この機能は将来、どのような革新的なアプリケーションを生み出すとお考えですか？

🔗記事内のリンク🔗

[1]https://lilianweng.github.io/posts/2022-06-09-vlm

[2]https://molmo.allenai.org/blog

[3]https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

[4]https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32

[5]https://arxiv.org/abs/2407.21783

[6]https://www.interconnects.ai/p/olmo

[7]https://molmo.allenai.org/paper.pdf

[8]https://molmo.allenai.org/

[9]https://huggingface.co/openai/clip-vit-large-patch14-336

[10]https://github.com/mlfoundations/open_clip

[11]https://mistral.ai/news/pixtral-12b/

[12]https://www.reddit.com/r/LocalLLaMA/comments/1fpb4m3/molmo_models_outperform_llama_32_in_most_vision/

[13]https://molmo.allenai.org/share/963de0d0-9069-4a14-ad5a-8e4bc0863136

[14]https://molmo.allenai.org/chat/d1917496-1581-4ca5-8bda-1f4216d1ea1e

[15]https://arxiv.org/abs/1912.03098

[16]https://huggingface.co/spaces/WildVision/vision-arena

[17]https://www.interconnects.ai/i/140525309/multimodal-rlhf-questions-ideas-and-resources

オリジナルリンク:

https://www.interconnects.ai/p/molmo-and-llama-3-vision

HUOXIU

Llama 3.2 Vision & Molmo: マルチモーダルオープンソースエコシステムの基盤

01 Llama Vision: 一般開発者向けマルチモーダルモデル

02 Molmo: Llama Vision に匹敵する (ほぼ) オープンソースモデル。

03 視覚機能の導入がモデル能力と推論手法に与える影響

04 マルチモーダル言語モデル：迅速なフロントエンド開発

ネイサン・ランバート

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

01 Lla​​ma Vision: 一般開発者向けマルチモーダルモデル

02 Molmo: Llama Vision に匹敵する (ほぼ) オープンソース モデル。

03 視覚機能の導入がモデル能力と推論手法に与える影響

04 マルチモーダル言語モデル：迅速なフロントエンド開発

ネイサン・ランバート

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

01 Llama Vision: 一般開発者向けマルチモーダルモデル

02 Molmo: Llama Vision に匹敵する (ほぼ) オープンソースモデル。