著者 | ヴィンセント・コック 編纂者:岳陽 人工知能はどのようにして静止画像をダイナミックでリアルな動画に変換できるのでしょうか?OpenAI の Sora は、時空パッチを革新的に活用することでその答えを提供します。 急速に進化する生成モデルの分野において、OpenAIのSora [1]は、動画生成に対する私たちの理解を根本から変える重要なマイルストーンです。本稿では、Sora [2]の背後にある技術を探求し、画像、動画、3Dコンテンツの作成における次世代モデルの可能性を探ります。 OpenAIは、以下のプロンプトを使って動画を生成しました。猫が寝ている飼い主を起こして朝食を要求します。飼い主は猫を無視しようとしますが、猫は新たな策略を試します。そしてついに、飼い主は枕の下から隠しておやつを取り出し、猫をもう少し引き止めようとします。Soraが生成した動画は驚くほどリアルです。Soraはまだテスト段階であるため、完全なモデルはまだ一般公開されていません。 01 ソラのユニークなアプローチが動画制作方法を変える生成モデルの開発においては、敵対的生成ネットワーク(GAN)から自己回帰モデル、拡散モデルまで、それぞれに長所と短所を持つ様々な手法の進化を目の当たりにしてきました。Soraは、新たなモデリング技術と、多様な動画の長さ、アスペクト比、解像度に対応できる高い柔軟性によって、パラダイムシフトをもたらします。 Sora は、拡散原理とトランスフォーマー アーキテクチャを組み合わせて、次の特性を持つ拡散トランスフォーマー モデルを提案します。
キッチンにいるところを想像してみてください。Pika[3]やRunwayML[4]といった従来の動画生成モデルは、レシピを厳密に守るシェフのようなものです。美味しい料理(動画)を作ることはできますが、知っているレシピ(アルゴリズム)によって限界があります。これらの「シェフ」は、特定の「材料」(データ形式)と「調理技術」(モデルアーキテクチャ)を用いて、ケーキ(短編動画)やパスタ(特定の種類の動画)を作ることに特化しているかもしれません。 対照的に、Soraは料理の味の構成とバリエーションについて比類のない理解力を持つ、まるで一流シェフのようです。Soraはレシピに従うだけでなく、常に新しいレシピを生み出しています。データとモデルアーキテクチャの柔軟性により、Soraは一流シェフの多才さと洗練さに匹敵する、高品質な動画を次々と制作することができます。 02 ソラフォーミュラの核心を探る:時空パッチ技術時空間パッチはSoraのイノベーションの中核です。これは、Google DeepMindによるNaViT [5]とViT(Vision Transformers)に関する以前の研究に基づいており、2021年の論文「An Image is Worth 16x16 Words [6]」に基づいています。 「バニラ」ビジョントランスフォーマーアーキテクチャ — 画像出典:Dosovitskiy et al., 2021[6] 従来のビジョントランスフォーマーでは、言語トランスフォーマーのように単語を用いるのではなく、一連の画像「パッチ」を用いて画像認識モデルを学習します。「パッチ」を用いることで、畳み込みニューラルネットワークの画像処理における制約から解放されます。 フレーム/画像をパッチに分割する方法 — 画像出典: Dehghani et al., 2023[5] しかし、ビジョントランスフォーマーは、固定サイズとアスペクト比を持つ画像トレーニングデータによって制限を受けます。これにより画像品質が制限され、大規模な前処理が必要になります。 ビデオの時間的データセグメンテーションの可視化 — 出典: kitasenjudesign[7] Soraは、NaViTが画像を処理するのと同様に、ビデオを一連のパッチに処理することで、元のアスペクト比と解像度を維持します。この維持は、視覚データの本質を捉えるために不可欠であり、モデルがより正確な世界の表現から学習することを可能にし、Soraに魔法のような精度をもたらします。 Spacetime Patchingプロセスの可視化 — 画像クレジット: OpenAI (Sora) このように、Soraはリサイズやパディングなどの前処理を必要とせず、様々な視覚データを効率的に処理できます。この柔軟性により、シェフが様々な食材を使って料理の味を引き立てるように、あらゆるデータがモデルの理解に貢献することが保証されます。 SORAは、Spacetime Patching技術によるビデオデータの詳細かつ柔軟な処理によって、正確な物理シミュレーションや3Dの一貫性といった複雑な特性の基盤を築いています。これらの機能は、リアルなだけでなく、世界の物理法則にも適合したビデオを作成するために不可欠であり、複雑でダイナミックなビジュアルコンテンツを作成するための人工知能の可能性を示しています。 03 ソラへの給餌:トレーニングにおける多様化されたデータの役割生成モデルのパフォーマンスは、トレーニングデータの品質と多様性と密接に関連しています。既存のビデオモデルは、従来、より制約の厳しいデータセット、より短い期間、より狭い目的に基づいてトレーニングされてきました。 Soraの学習データセットは広範かつ多様で、長さ、解像度、アスペクト比が異なる動画や画像が含まれています。Minecraft[8]のようなデジタルワールドを再現する能力は、UnityやUnrealなどのシステムからシミュレートされたカメラデータを取り込み、より豊かな視点やスタイルで動画コンテンツを撮影していると考えられます。これにより、SoraはGPT言語モデルに類似し、「オールラウンド」なレベルの動画生成を実現しています。 豊富なデータを用いた学習により、Soraは複雑なダイナミクスを深く理解し、多様で高品質なコンテンツを生成することができます。このアプローチは、多様なテキストを用いた大規模言語モデルの学習手法を模倣し、同様の概念を視覚データに適用することで、汎用的な機能を実現します。 可変パッチを備えたNaVitと従来のVision Transformersの比較 — 画像出典: Dehghani et al., 2023 [5] NaViTモデルが異なる画像から複数のパッチを単一のシーケンスにまとめることで学習効率と性能を大幅に向上させるのと同様に、Soraは時空間パッチングを活用することで動画生成シナリオにおいて同様の生成効率を実現します。このアプローチにより、大規模なデータセットからより効果的に学習し、モデルの高忠実度動画生成能力を向上させると同時に、既存のモデルアーキテクチャと比較して必要な計算量を大幅に削減できます。 04 シミュレーションされた物理世界を現実に:SORAの3D空間制御とビデオの一貫性3D空間の論理的な一貫性と整合性、そしてオブジェクトの動きと相互作用は、Soraのデモの大きなハイライトでした。大量の動画データを調整や前処理をすることなく学習することで、Soraは生のトレーニングデータをそのまま処理できるため、驚くほど正確に物理世界をモデル化することができます。 オブジェクトやキャラクターが 3 次元空間で動き、相互作用し、遮蔽されたりフレームから外れたりしても一貫性と説得力を維持するデジタル ワールドやビデオを生成できます。 05 未来を見据えて:Soraが生成モデルに与える影響Soraは、生成モデルの新たな高水準を確立しました。この技術は、オープンソースコミュニティに刺激を与え、ビジュアル生成における新たな境地を探求し続ける可能性を秘めており、新世代の生成モデルの開発を牽引し、創造性とコンテンツのリアリティの限界を打ち破るでしょう。
SORAテクノロジーと最新のAI研究および実用アプリケーションとの統合は、生成モデルの明るい未来を予感させます。これらのテクノロジーが進化を続けるにつれ、デジタルコンテンツとのインタラクションは必然的に再定義され、高忠実度でダイナミックな動画の生成がより便利で多様なものになるでしょう。 読んでくれてありがとう! 終わり
|
OpenAI Soraの主要技術解説:時空パッチ技術の公開
関連するおすすめ記事
-
chatGPT に置き換えられることを心配する必要はありません。この記事を読めば理解できるでしょう。
-
ハーバード大学やMITの本拠地であるボストンは、政府による顔認識技術の禁止を正式に発表した。
-
Gaode POI の可視性を高めるディープラーニングの進化
-
[Orange Piで遊ぶ] Orange PiにKlipperをインストールするときに発生した問題 Kunpeng Pro
-
イノベーションを原動力に、新しいフレームワークを選択: Ascend AI Framework Summit が開催されます。
-
スピーチトランスクリプト: ビッグデータモデルの時代において、どのような AI コンピューティング パワー システムが必要なのでしょうか?