HUOXIU

OpenAI Soraの主要技術解説:時空パッチ技術の公開

編集者注:OpenAIは最近、初の動画生成モデル「Sora」をリリースしました。このモデルによって生成される動画コンテンツは、複数のキャラクター、特定のアクション、複雑なシーンを表現することができ、現実世界を理解しシミュレートできる人工知能モデルを構築するための基盤となります。

この記事の焦点は、Sora: Spacetime Patches の中核技術です。著者は、この技術が革新的な時空間データモデリング手法を通じて、Sora が時空間次元におけるイベントやオブジェクトの変化、動き、相互作用を予測することを学習し、それによってビデオ世界の物理モデルを確立し、極めてリアルなビデオを生成することを可能にすると考えています。

これはまさに生成モデルの分野における画期的な成果であり、AGIの分野においても画期的な成果です。編集者は、ドラえもんの2次元ポケットカメラもいつか実現するかもしれないと考えています。


著者 | ヴィンセント・コック

編纂者:岳陽


人工知能はどのようにして静止画像をダイナミックでリアルな動画に変換できるのでしょうか?OpenAI の Sora は、時空パッチを革新的に活用することでその答えを提供します。


急速に進化する生成モデルの分野において、OpenAIのSora [1]は、動画生成に対する私たちの理解を根本から変える重要なマイルストーンです。本稿では、Sora [2]の背後にある技術を探求し、画像、動画、3Dコンテンツの作成における次世代モデルの可能性を探ります。


OpenAIは、以下のプロンプトを使って動画を生成しました。猫が寝ている飼い主を起こして朝食を要求します。飼い主は猫を無視しようとしますが、猫は新たな策略を試します。そしてついに、飼い主は枕の下から隠しておやつを取り出し、猫をもう少し引き止めようとします。Soraが生成した動画は驚くほどリアルです。Soraはまだテスト段階であるため、完全なモデルはまだ一般公開されていません。

01 ソラのユニークなアプローチが動画制作方法を変える

生成モデルの開発においては、敵対的生成ネットワーク(GAN)から自己回帰モデル、拡散モデルまで、それぞれに長所と短所を持つ様々な手法の進化を目の当たりにしてきました。Soraは、新たなモデリング技術と、多様な動画の長さ、アスペクト比、解像度に対応できる高い柔軟性によって、パラダイムシフトをもたらします。


Sora は、拡散原理とトランスフォーマー アーキテクチャを組み合わせて、次の特性を持つ拡散トランスフォーマー モデルを提案します


  • テキストをビデオに変換: おそらくこの機能はこれまで何度も見たことがあるでしょう。

  • 画像から動画へ:静止画に命を吹き込む

  • ビデオからビデオ: ビデオのスタイルを他のスタイルに変更します。

  • ビデオの長さを編集: ビデオを延長したり短縮したりする

  • シームレスなループ動画を作成:無限にループしているように見えるタイル動画を作成します。(翻訳者注:動画編集の分野において、「タイル」とは、動画クリップをコピーしてつなぎ合わせ、繰り返して配置し、新しい動画フレームを作成する技術を指す専門用語です。)

  • 画像生成:静止画1枚のみですが、「シングルフレームムービー」と呼ぶことができます(解像度は最大2048×2048)。

  • あらゆる解像度のビデオを生成できます。1920 x 1080 から 1080 x 1920 まで、あらゆる解像度が利用可能です。

  • シミュレーションされた仮想世界:Minecraftやその他のビデオゲームなど

  • ビデオを作成します: 最大 1 分、複数の短いビデオを含みます。


キッチンにいるところを想像してみてください。Pika[3]やRunwayML[4]といった従来の動画生成モデルは、レシピを厳密に守るシェフのようなものです。美味しい料理(動画)を作ることはできますが、知っているレシピ(アルゴリズム)によって限界があります。これらの「シェフ」は、特定の「材料」(データ形式)と「調理技術」(モデルアーキテクチャ)を用いて、ケーキ(短編動画)やパスタ(特定の種類の動画)を作ることに特化しているかもしれません。


対照的に、Soraは料理の味の構成とバリエーションについて比類のない理解力を持つ、まるで一流シェフのようです。Soraはレシピに従うだけでなく、常に新しいレシピを生み出しています。データとモデルアーキテクチャの柔軟性により、Soraは一流シェフの多才さと洗練さに匹敵する、高品質な動画を次々と制作することができます。

02 ソラフォーミュラの核心を探る:時空パッチ技術

時空間パッチはSoraのイノベーションの中核です。これは、Google DeepMindによるNaViT [5]とViT(Vision Transformers)に関する以前の研究に基づいており、2021年の論文「An Image is Worth 16x16 Words [6]」に基づいています。



「バニラ」ビジョントランスフォーマーアーキテクチャ — 画像出典:Dosovitskiy et al., 2021[6]


従来のビジョントランスフォーマーでは、言語トランスフォーマーのように単語を用いるのではなく、一連の画像「パッチ」を用いて画像認識モデルを学習します。「パッチ」を用いることで、畳み込みニューラルネットワークの画像処理における制約から解放されます。



フレーム/画像をパッチに分割する方法 — 画像出典: Dehghani et al., 2023[5]


しかし、ビジョントランスフォーマーは、固定サイズとアスペクト比を持つ画像トレーニングデータによって制限を受けます。これにより画像品質が制限され、大規模な前処理が必要になります。



ビデオの時間的データセグメンテーションの可視化 — 出典: kitasenjudesign[7]


Soraは、NaViTが画像を処理するのと同様に、ビデオを一連のパッチに処理することで、元のアスペクト比と解像度を維持します。この維持は、視覚データの本質を捉えるために不可欠であり、モデルがより正確な世界の表現から学習することを可能にし、Soraに魔法のような精度をもたらします。



Spacetime Patchingプロセスの可視化 — 画像クレジット: OpenAI (Sora)


このように、Soraはリサイズやパディングなどの前処理を必要とせず、様々な視覚データを効率的に処理できます。この柔軟性により、シェフが様々な食材を使って料理の味を引き立てるように、あらゆるデータがモデルの理解に貢献することが保証されます。


SORAは、Spacetime Patching技術によるビデオデータの詳細かつ柔軟な処理によって、正確な物理シミュレーションや3Dの一貫性といった複雑な特性の基盤を築いています。これらの機能は、リアルなだけでなく、世界の物理法則にも適合したビデオを作成するために不可欠であり、複雑でダイナミックなビジュアルコンテンツを作成するための人工知能の可能性を示しています。

03 ソラへの給餌:トレーニングにおける多様化されたデータの役割

生成モデルのパフォーマンスは、トレーニングデータの品質と多様性と密接に関連しています。既存のビデオモデルは、従来、より制約の厳しいデータセット、より短い期間、より狭い目的に基づいてトレーニングされてきました。


Soraの学習データセットは広範かつ多様で、長さ、解像度、アスペクト比が異なる動画や画像が含まれています。Minecraft[8]のようなデジタルワールドを再現する能力は、UnityやUnrealなどのシステムからシミュレートされたカメラデータを取り込み、より豊かな視点やスタイルで動画コンテンツを撮影していると考えられます。これにより、SoraはGPT言語モデルに類似し、「オールラウンド」なレベルの動画生成を実現しています。


豊富なデータを用いた学習により、Soraは複雑なダイナミクスを深く理解し、多様で高品質なコンテンツを生成することができます。このアプローチは、多様なテキストを用いた大規模言語モデルの学習手法を模倣し、同様の概念を視覚データに適用することで、汎用的な機能を実現します。



可変パッチを備えたNaVitと従来のVision Transformersの比較 — 画像出典: Dehghani et al., 2023 [5]


NaViTモデルが異なる画像から複数のパッチを単一のシーケンスにまとめることで学習効率と性能を大幅に向上させるのと同様に、Soraは時空間パッチングを活用することで動画生成シナリオにおいて同様の生成効率を実現します。このアプローチにより、大規模なデータセットからより効果的に学習し、モデルの高忠実度動画生成能力を向上させると同時に、既存のモデルアーキテクチャと比較して必要な計算量を大幅に削減できます。

04 シミュレーションされた物理世界を現実に:SORAの3D空間制御とビデオの一貫性

3D空間の論理的な一貫性と整合性、そしてオブジェクトの動きと相互作用は、Soraのデモの大きなハイライトでした。大量の動画データを調整や前処理をすることなく学習することで、Soraは生のトレーニングデータをそのまま処理できるため、驚くほど正確に物理世界をモデル化することができます。


オブジェクトやキャラクターが 3 次元空間で動き、相互作用し、遮蔽されたりフレームから外れたりしても一貫性と説得力を維持するデジタル ワールドやビデオを生成できます。

05 未来を見据えて:Soraが生成モデルに与える影響

Soraは、生成モデルの新たな高水準を確立しました。この技術は、オープンソースコミュニティに刺激を与え、ビジュアル生成における新たな境地を探求し続ける可能性を秘めており、新世代の生成モデルの開発を牽引し、創造性とコンテンツのリアリティの限界を打ち破るでしょう。


OpenAI が言うように、Sora の旅はまだ始まったばかりだ。 「ビデオ生成モデルのスケールアップは、物理世界の普遍的なシミュレーターを構築するための有望な道です。」


SORAテクノロジーと最新のAI研究および実用アプリケーションとの統合は、生成モデルの明るい未来を予感させます。これらのテクノロジーが進化を続けるにつれ、デジタルコンテンツとのインタラクションは必然的に再定義され、高忠実度でダイナミックな動画の生成がより便利で多様なものになるでしょう。


読んでくれてありがとう!


終わり