編集者注： OpenAIは最近、汎用ビジュアルモデル「Sora」をリリースしました。これは、テキストモデル「ChatGPT」と画像モデル「Dall-E」に続く、非常に革新的な大規模モデル製品です。ビジュアルコンテンツ制作分野における生成AIの応用展望は再考されており、コンテンツ制作ワークフローに革命をもたらすことが期待されています。
本日ご紹介するブログ記事では、Sora は Transformer、NaViT、拡散モデルなどの革新的なビジュアル AI テクノロジーの融合であり、汎用人工知能に向けた重要な一歩であると主張しています。
著者はまずSoraの機能を簡単に紹介し、次にTransformer、ViT、ViVit、MAE、NaViT、拡散モデル、潜在拡散モデル、そして最も重要なDiffusion Transformerなど、Soraを支えるコア技術について詳しく説明している。最後に著者は、Soraが今後さらに応用範囲を広げ、3Dモデリング分野に進出し、最終的には物理エンジンに匹敵する汎用解析ツールへと進化し、ビジュアルコンテンツ制作をはじめとする様々な分野に革命的な進歩をもたらすと予測している。Soraの登場は、マルチモーダルAIの漸進的な成熟と普及を意味し、人間の想像力の限界をさらに拡大していく。

著者 | 木内良太博士

編纂者：岳陽

Unsplash の Kaushik Panchal による写真

2022年末にChatGPTで世界を驚かせたOpenAIは、2024年2月15日、Soraのデビューで再び世界に衝撃を与えました。テキストプロンプトに基づいて1分間の動画を作成できるこの技術は、間違いなくAGIへの新たなマイルストーンとなるでしょう。

このブログ記事では、OpenAI が公開した技術レポートに基づいて、この驚くべき技術の背後にある基本的な研究方法と内容を紹介します。

ちなみに、「SORA」は日本語で「空」を意味します。この名前の由来はまだ公式には発表されていませんが、OpenAIが東京をテーマにした動画を投稿していることを考えると、この推測は十分に納得できます。

OpenAIがXを通じてSoraを世界に公開

01 ソラの簡単な紹介

OpenAIが開発したSoraは、テキストから動画への変換モデルであり、その機能と応用は現代のAI技術の新たな方向性を導きます。このモデルは数秒の動画生成に留まらず、最長1分間の動画も作成可能で、ユーザーの指示を忠実に実行しながら高品質を維持します。誰もが夢見るものを現実に変える可能性を秘めていると言えるでしょう。

OpenAI Sora コンテンツのデモ

現実世界に基づいて複雑なシーンを生成します。

Soraは、プロンプトに記述された要素の物理世界における存在と動作を理解します。これにより、ユーザーが動画内で期待する行動や振る舞いを正確に表現できます。例えば、人が走る様子や自然現象の変化をリアルに再現できます。さらに、複数の登場人物の細部、行動の種類、被写体や背景の具体的なディテールまでも正確に再現できます。

これまで、生成AIを動画制作に活用する際には、異なるシーン間での一貫性と再現性を維持するという大きな課題がありました。これは、各シーンやフレームを個別に生成する際に、前の文脈や詳細を完全に理解し、それらを次のシーンやフレームに適切に継承することが非常に困難だからです。しかし、このモデルは、言語の深い理解と視覚的コンテキスト、そしてプロンプトの正確な解釈を組み合わせることで、物語の一貫性を確保します。また、与えられたプロンプトから登場人物の感情や性格特性を捉え、動画の中で表情豊かなキャラクターとして表現することも可能です。

Bill Peebles (OpenAI) による投稿（X経由）

02 その背後にある関連技術や研究は何ですか?

Unsplash の Markus Spiske による写真

Soraは、画像データ生成モデルに関する先行研究を基盤としています。先行研究では、リカレントネットワーク、生成的敵対ネットワーク（GAN）、自己回帰Transformer、拡散モデルなど、様々な手法が用いられてきましたが、通常は特定の単一クラスの視覚データ、短い動画、または固定解像度の動画を対象としていました。Soraはこれらの限界を克服し、生成される動画の長さ、アスペクト比、サイズにおいて大幅な改善を実現します。本セクションでは、これらの改善を可能にするコア技術を紹介します。

2.1 トランスフォーマー

Vaswani et al. (2017)、「必要なのは注意力だけだ」

Transformerは、自然言語処理（NLP）分野に革命をもたらしたニューラルネットワークアーキテクチャです。2017年にVaswaniらによって初めて提案されました。このモデルは、従来のリカレントニューラルネットワーク（RNN）と畳み込みニューラルネットワーク（CNN）の欠点を大幅に克服し、今日の幅広い画期的な技術を支える革新的なアプローチとなっています。

変圧器モデルのアーキテクチャ |バスワニら。 (2017)

RNN の問題点:

長期的な依存関係: RNN は理論的には時間の経過とともに情報を渡すことができますが、実際には長期間にわたる依存関係を捕捉するのが難しいことがよくあります。
並列処理には限界があります。RNNの計算の各ステップは前のステップの出力に依存するため、逐次処理（例えば、テキスト内の単語や文を一つずつ処理する）する必要があり、現代のコンピュータアーキテクチャが提供する並列処理能力を活用できません。その結果、大規模なデータセットでの学習は非効率的になります。

CNN の問題点:

固定された受容野サイズ: CNN はローカル特徴の抽出に優れていますが、受容野サイズが固定されているため、コンテキスト全体にわたる長距離依存関係をキャプチャする能力が制限されます。
自然言語の階層構造をシミュレートすることは困難です。CNN を使用して言語の階層構造を直接モデル化することは非常に困難であり、深い文脈理解を実現するには不十分な可能性があります。

Transformer の新機能:

アテンションメカニズム: モデルがシーケンス内の任意の位置間の依存関係を直接モデル化できるようにすることで、長距離の依存関係と広範なコンテキストを直接キャプチャします。
並列処理をサポート: 入力データは一度にまとめて処理されるため、計算において高度な並列性が実現され、大規模なデータセットのトレーニング速度が大幅に向上します。
可変受容野：注意機構により、モデルは必要に応じて受容野のサイズを動的に調整できます。つまり、特定のタスクやデータを処理する際には、モデルは自然に局所的な情報に注意を集中させ、他の場合にはより広い文脈を考慮することができます。

2.2 ビジョントランスフォーマー（ViT）

Dosovitskiy他 (2020)「画像の価値は16×16語：大規模な画像認識のためのトランスフォーマー」

この研究では、自然言語処理 (NLP) に革命をもたらした革新的なトランスフォーマー原理を画像認識に適用し、視覚モデルの新たな方向性を切り開きました。

トークンとパッチ

Transformerのオリジナル論文では、トークンは主に単語や文の一部分を表し、これらのトークン間の関係性を分析することで、文の意味をより深く理解することが可能になります。本研究では、トークンの概念を視覚データに適用するために、画像を16×16のパッチに分割し、各パッチをTransformer内で「トークン」として扱います。このアプローチにより、モデルは画像全体における各パッチの関係性を学習し、それに基づいて画像全体を認識・理解することが可能になります。これは、従来の画像認識CNNモデルで用いられてきた固定的な受容野サイズの制約を克服し、画像内のあらゆる位置関係を柔軟に捉えることを可能にします。

ViTモデルの概要 | Dosovitskiy他 (2020)

2.3 ビデオビジョントランスフォーマー (ViViT)

アルナブら。 (2021)、「ビビット: ビデオビジョントランスフォーマー」。

ViViTはVision Transformerの概念をさらに拡張し、多次元ビデオデータに適用します。ビデオデータは、静的な画像情報（空間要素）と時間とともに変化する動的な情報（時間要素）の両方を含むため、より複雑です。ViViTはビデオをパッチに分解し、Transformerモデル内でトークンとして扱います。パッチを導入することで、ViViTはビデオ内の静的要素と動的要素を同時に捉え、それらの複雑な関係性をモデル化することができます。

チューブレット（時空間入力）埋め込み画像 | Arnab, et al. (2021)

2.4 マスクオートエンコーダ（MAE）

He, et al. (2022)、「マスクされたオートエンコーダはスケーラブルな視覚学習者である。」

この研究では、マスクオートエンコーダと呼ばれる自己教師型の事前トレーニング方法を使用して、従来は高次元で膨大な量の情報に関連付けられていた大規模なデータセットのトレーニングに固有の高い計算コストと非効率性を大幅に改善します。

具体的には、入力画像の一部をマスクすることで、ネットワークは隠れた部分から情報を予測するように学習されます。これにより、画像内の重要な特徴や構造をより効果的に学習し、豊富な視覚データ表現を得ることができます。このプロセスにより、データ圧縮と表現学習の効率が向上し、計算コストが削減され、さまざまな種類の視覚データや視覚タスクの多様性が向上します。

本研究で用いられた方法論は、BERT（Bidirectional Encoder Representations from Transformers）などの言語モデルの進化とも密接に関連しています。BERTはマスク言語モデル（MLM）を通じてテキストデータの深い文脈理解を実現しますが、Heらは同様のマスク技術を視覚データに適用することで、画像のより深い理解と表現を可能にしました。

マスクされたオートエンコーダ｜He, et al. (2022年)

2.5 ネイティブ解像度ビジョントランスフォーマー（NaViT）

Dehghani他 (2023)「Patch n’Pack: NaViT、あらゆるアスペクト比と解像度に対応するビジョントランスフォーマー」

この研究では、Vision Transformer (ViT) の適用範囲をさらに拡張し、あらゆるアスペクト比や解像度の画像に適合するように設計されたモデルである Native Resolution ViTransformer (NaViT) を提案します。

伝統的なVitalityが直面する課題

Vision Transformerは、画像を固定サイズのパッチに分割し、それらをトークンとして扱うことで、画像認識タスクに画期的なアプローチを導入します。しかし、この手法では、モデルが特定の解像度またはアスペクト比に最適化されていることを前提としているため、異なるサイズや形状の画像に合わせて調整が必要になります。これは大きな制約であり、実際のアプリケーションでは、様々なサイズやアスペクト比の画像を処理する必要があることが一般的です。

NaViTのイノベーション

NaViTは、あらゆるアスペクト比や解像度の画像を効率的に処理できるため、事前の調整なしにモデルに直接入力できます。Soraはこの柔軟性を動画シナリオにも適用し、様々なサイズや形状の動画や画像をシームレスに処理することで、モデルの柔軟性と適応性を大幅に向上させます。

デガニ他（2023）

2.6 拡散モデル

Sohl-Dickstein他 (2015)「非平衡熱力学を用いた教師なし深層学習」

Transformerに加え、拡散モデルもSoraを支えるコア技術です。この研究は、非平衡熱力学を応用したディープラーニングモデルの一種である拡散モデルの理論的基礎を築きました。拡散モデルは、ランダムノイズ（パターンのないデータ）から始まり、徐々にノイズを除去して実際の画像や動画に近いデータを作成する拡散プロセスの概念を導入します。

例えば、ランダムな点から始めて、徐々に美しい風景や人物の動画へと変化させていく様子を想像してみてください。この手法はその後、画像や音声などの複雑なデータの生成にも応用され、高品質な生成モデルの開発に貢献してきました。

ノイズ除去プロセスの画像 | 画像提供: OpenAI

Ho et al. (2020)「拡散確率モデルのノイズ除去」
Nichol and Dhariwal (2021)、「改良されたノイズ除去拡散確率モデル」

Sohl-Dicksteinら（2015）が提唱した理論的枠組みに基づき、実用的なデータ生成モデルであるノイズ除去拡散確率モデル（DDPM）が開発されました。このモデルは、高画質画像生成の分野において特に顕著な成果を上げており、拡散モデルの有効性を実証しています。

ソラへの拡散モデルの影響

通常、機械学習モデルの学習には、大量のラベル付きデータ（例えば、「これは猫の画像です」など）が必要です。しかし、拡散モデルはラベルなしデータからも学習できるため、インターネット上の膨大な量のビジュアルコンテンツを活用して、様々な種類の動画を生成することができます。つまり、 Soraは様々な動画や画像を観察することで、「通常の動画とはどのようなものか」を学習できるのです。

2.7 潜在拡散モデル

Rombach他 (2022)「潜在拡散モデルによる高解像度画像合成」

本研究は、拡散モデルを用いた高解像度画像合成分野に大きく貢献する。潜在空間における拡散モデルを用いることで、高解像度画像を直接生成する場合と比較して、画質を維持しながら計算コストを大幅に削減する手法を提案する。言い換えれば、画像を直接操作するのではなく、潜在空間（画像の圧縮表現を含む低次元空間）に表現されたデータを符号化し、拡散処理を導入することで、より少ない計算リソースで目的を達成する。

Soraはこの技術をビデオデータに適用し、ビデオの時空間データを低次元の潜在空間に圧縮し、それを時空間パッチに分解します。この効率的な潜在空間データ処理・生成機能は、Soraがより高品質なビジュアルコンテンツをより迅速に生成する上で重要な役割を果たします。

視覚エンコーディングの画像｜画像クレジット（OpenAI）

2.8 拡散トランス (DiT)

PeeblesとXie (2023)、「トランスフォーマーを使用したスケーラブルな拡散モデル」

この研究は、Soraの実現において最も重要な部分と言えるでしょう。OpenAIが公開した技術レポートに記載されているように、Soraは通常のトランスフォーマーではなく、拡散トランスフォーマー（DiT）を使用しています。

重要なのは、Sora が拡散変換器であることです。(OpenAI Sora 技術レポートより)

本研究では、拡散モデルで一般的に用いられるU-netコンポーネントをTransformer構造に置き換えた新たなモデルを導入する。この構造は、潜在パッチに対するTransformer演算を通じて潜在拡散モデルを実装する。このアプローチにより、画像パッチをより効率的に処理できるため、計算リソースを効率的に活用しながら高品質な画像を生成することができる。Stability AIが2022年に発表したStable Diffusionとは異なり、このTransformerの導入は、より自然な動画生成に貢献すると考えられる。

拡散変圧器によって生成された画像 | Peebles and Xie. (2023)

さらに、検証結果がDiTのスケーラビリティを実証し、Soraの実装に大きく貢献していることは注目に値します。スケーラビリティとは、Transformerの深さ/幅（モデルの複雑化）や入力トークン数の増加に応じて、モデルのパフォーマンスが向上することを意味します。

拡散変圧器のスケーラビリティ | Peebles and Xie. (2023)

GFLOPS（コンピューティング性能）：コンピュータの計算速度を表す測定単位で、1秒あたり10億回の浮動小数点演算に相当します。この記事では、ネットワークの複雑さをGFLOPSで測定します。
FID（フレシェ・インセプション距離）：画像生成の評価指標の一つで、値が小さいほど精度が高いとされます。生成画像と実画像の特徴ベクトル間の距離を測定することで、生成画像の品質を定量的に評価します。

Kaplan et al. (2020) と Brown et al. (2020) は、これが自然言語処理の分野で観察されていることを実証しました (翻訳者注: これは「スケーラビリティの存在」を指す必要があります)。これは、ChatGPT の革新的な成功を支える重要な特徴でもあります。

Kaplan et al. (2020)「ニューラル言語モデルのスケーリング法則」
Brown, et al. (2020)「言語モデルは少数ショット学習者である」

Transformerは、従来の拡散モデルと比較して、その優れた特性により、より低い計算コストで高品質な画像を生成できます。この重要な特性は、より多くの計算リソースを用いることで、より高品質な画像を生成できることを示唆しています。Soraはこの技術を動画生成に応用しています。

ビデオ生成におけるスケーラビリティ | 画像クレジット (OpenAI)

03 この研究財団は OpenAI の努力と相まって、Sora を開発しました。

3.1 可変のビデオの長さ、解像度、アスペクト比

NaViTの活用により、Soraはワイドスクリーンの1920x1080pビデオ、縦長の1080x1920ビデオ、そしてその間のあらゆる解像度のビデオを生成できます。つまり、様々なデバイス向けにあらゆる解像度のビジュアルコンテンツを作成できるのです。

3.2 画像や動画をプロンプトとして使う

現在、Soraはテキストから動画を生成するフォーマット、つまりテキストプロンプトに基づいて動画を生成します。しかし、先行研究で示されているように、テキストだけでなく、既存の画像や動画も入力として使用できます。これにより、Soraは画像をアニメーション化したり、既存の動画の過去や未来を視覚コンテンツとして視覚化したりして出力することができます。

3.3 3D一貫性

前述の研究がこの機能の実現にどのように直接貢献しているかは不明ですが、Soraはダイナミックなカメラモーションエフェクトを備えた動画を生成できます。「カメラ」が移動したり回転したりすると、キャラクターやシーンの要素が3次元空間内で一貫して動きます。

04 ソラの未来を見据えて

このブログ記事では、OpenAIの汎用動画生成モデル「Sora」の基盤技術について詳しく説明します。Soraが一般公開され、より多くの人々に利用されれば、間違いなく世界規模で大きな影響を与えるでしょう。

この画期的な進歩は、映像制作のあらゆる側面に影響を及ぼすと予想されますが、 SORAは映像分野で確固たる地位を築いた後、3Dモデリング分野にも進出していくことが予想されます。そうなれば、映像クリエイターだけでなく、メタバースなどの仮想空間における視覚効果を人工知能によって容易に生成できるようになるでしょう。

下の画像は、すでに将来のシナリオの可能性を示唆しています。

Martin Nebelong の X 経由の投稿（Micael Rublof 製品に関するもの）

現在、Soraは「単なる」動画生成モデルであると考える人もいますが、NVIDIAのジム・ファン氏は、Soraがデータ駆動型の物理エンジンになる可能性を示唆しています。人工知能は、膨大な量の現実世界の動画や（明示的には言及されていませんが）物理的な挙動を考慮する必要がある動画（Unreal Engineの動画など）から物理法則や現象を理解する可能性を秘めています。もしそうであれば、近い将来、テキストから3Dモデルを生成するモデルが登場する可能性は非常に高いと言えるでしょう。

ジム・ファンの興味深い投稿（X経由）

読んでくれてありがとう！

終わり

HUOXIU

変革は緩やかに、変化は突然に：OpenAI Sora関連技術の進化を垣間見る

目次

01 ソラの簡単な紹介

現実世界に基づいて複雑なシーンを生成します。

02 その背後にある関連技術や研究は何ですか?

2.1 トランスフォーマー

2.2 ビジョントランスフォーマー（ViT）

2.3 ビデオビジョントランスフォーマー (ViViT)

2.4 マスクオートエンコーダ（MAE）

2.5 ネイティブ解像度ビジョントランスフォーマー（NaViT）

2.6 拡散モデル

2.7 潜在拡散モデル

2.8 拡散トランス (DiT)

03 この研究財団は OpenAI の努力と相まって、Sora を開発しました。

3.1 可変のビデオの長さ、解像度、アスペクト比

3.2 画像や動画をプロンプトとして使う

3.3 3D一貫性

04 ソラの未来を見据えて

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

目次

01 ソラの簡単な紹介

現実世界に基づいて複雑なシーンを生成します。

02 その背後にある関連技術や研究は何ですか?

2.1 トランスフォーマー

2.2 ビジョントランスフォーマー（ViT）

2.3 ビデオ ビジョン トランスフォーマー (ViViT)

2.4 マスクオートエンコーダ（MAE）

2.5 ネイティブ解像度ビジョントランスフォーマー（NaViT）

2.6 拡散モデル

2.7 潜在拡散モデル

2.8 拡散トランス (DiT)

03 この研究財団は OpenAI の努力と相まって、Sora を開発しました。

3.1 可変のビデオの長さ、解像度、アスペクト比

3.2 画像や動画をプロンプトとして使う

3.3 3D一貫性

04 ソラの未来を見据えて

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

2.3 ビデオビジョントランスフォーマー (ViViT)