|
出典: Alibaba Cloud Developers Soraは、動画生成を中心とした多機能モデルです。この記事では、Soraとは何かを簡単に紹介し、主にSoraの強力さ、Soraが持つ技術的ブレークスルー、そしてそれを再現することの難しさ、意義、そしてインスピレーションという3つの側面から考察します。 記事末尾のディスカッションに参加して、ガラス製ウォーターボトルとクラウドランプをプレゼントするチャンス!クリックして元の記事を読んで、「Soraを使ってどんな動画を作りたいですか?」についてディスカッションしましょう。 1. ソラは、動画生成を核とした多機能モデルです。本質的にはOpenAIが7つのドラゴンボールをすべて集めた融合製品であり、現在最も強力なモデルです。 2. 画期的な機能:準商用アプリケーション: 1) テキスト/画像からビデオを生成、2) ビデオからビデオを生成(プロダクトプレイスメント/二次創作)、3) すぐに使用できる 1 分間の超長尺、超高画質ビデオ、4) ビデオ分裂、複数の視点を自律的に生成。 3. 技術的アプローチからのインスピレーション:画期的な点は、エンジニアリングとアーキテクチャのブレークスルーにあります。コア技術である潜在的技術、変換技術、ディフューズ技術、そしてリキャプション技術は新しいものではありませんが、Google VideoマルチモーダルやFei-Fei Liの初期の論文といったオープンソースプロジェクトは、Soraで使用されている技術的アプローチに言及しています。Soraの成功は、スケーリング則モデルのスケール拡大がビデオ生成品質の向上に明確な影響を与えることを改めて示しています。データエンジニアリングは不可欠であり、エンジニアリング能力は大きな技術的障壁となっています。そして、LLM大規模言語モデルは依然として中核を成しています。マルチモーダル(テキストから画像、画像からテキスト)生成はどちらも、生成されるコンテンツを誘導および制約するためのテキストセマンティクスを必要とします。 4. 個人的意義:モデルとアプリケーションは徐々に分離していくでしょう。AIインフラ市場は1兆ドル規模と巨大です。大手企業以外の企業は、正しい道を選び、しっかりと投資する必要があります。一般の人々にとって、ワークフローを理解し、ツールを使いこなせることは、コアとなる競争力に繋がります。プロンプトを効果的に活用する鍵は、独自の知識体系を持つことです。コンテンツを作成できる人は、その40倍の能力を持っています。 SoraとRunway Gen2、Pikaなどの機能比較表を見ると、 OpenAI Soraは基本的な動画生成機能(再生時間、アスペクト比)に加え、動画の連続性と現実世界への適合性において比類のない優位性を持っていることが分かります。特に動画解像度に関しては、OpenAI Soraのデフォルトは1080pですが、他の多くのプラットフォームもデフォルトで1080p未満に設定されており、アップスケーリングによって初めてより高い鮮明度を実現しています。60秒という再生時間で、既に商用利用可能な、すぐに使える機能を提供しています。前述の動画生成機能の中でも、動画リンク、デジタルワールドシミュレーション、世界の状態への影響(ワールドインタラクション)、モーションカメラシミュレーションは、これまでの動画プラットフォームやツールでは実現できなかった機能です。また、OpenAI Soraモデルは画像を直接生成できるため、動画生成を中核とした多機能モデルであることも特筆に値します。 | | | | | | | 1920x1080から1080x1920までの任意のサイズ | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
UE5、Unity、Nerfなどをトレーニングセットとして大量の合成データが生成されました。 合成データの広範な活用は、AGI実現への重要な一歩です。Soraの機能における大きな進歩の一つは、UE5、Unity、Nerfなどの技術を用いて、大量の合成データを学習セットとして生成したことだと言われています。 Soraは現実世界やファンタジー世界をシミュレートし、複雑なレンダリング、物理法則、長期的な推論を学習します。さらに、Unreal Engine 5(UE5はトップクラスのゲームエンジン)を使用して、広範囲に学習させることも可能です。 3Dの一貫性Soraは、ダイナミックなカメラワークを備えた動画を生成できます。カメラの動きや回転に合わせて、キャラクターやシーンの要素も3D空間内で一貫性を保ちながら動きます。 長距離の一貫性とオブジェクトの持続性は、動画生成システムにとって常に大きな課題であり、特に長時間の動画をサンプリングする際の時間的連続性を維持することが課題となっています。Soraは、短距離および長距離の依存性(不安定性)の両方を効果的にモデル化できます。例えば、Soraは、人物、動物、オブジェクトがフレームに隠れたり、フレームから消えたりした場合でも、その存在を保持できます。同様に、単一のサンプルで同じキャラクターの複数のショットを生成し、動画全体を通してその外観を維持できます。 時間的一貫性(インタラクション): Soraは、世界の状態に影響を与える行動をシンプルな方法でシミュレートできます。例えば、画家がキャンバスに新しい筆致を残し、それが時間の経過とともに持続したり、人がハンバーガーを食べて噛み跡を残したりすることができます。 デジタル世界をシミュレートするSoraは、ビデオゲームなどの人工的なプロセスもシミュレートできます。SoraはMinecraftのプレイヤーを基本的な戦略で操作しながら、同時に世界とそのダイナミクスを高精度にレンダリングできます。これらの機能は、プロンプトに「Minecraft」を含めることで、ゼロショットで起動できます。 キャッチフレーズは「コーヒーカップの中を航行しながら戦う2隻の海賊船のリアルなクローズアップビデオ」。 シミュレーターは、異なる装飾が施された海賊船という2つの精巧な3Dアセットをインスタンス化します。Soraは、テキストから3Dへの変換問題を潜在空間内で暗黙的に解決する必要があります。 3D オブジェクトは、互いの進路を回避しながら移動しながらアニメーション化されます。 コーヒーの流体力学、あるいは船の周りに形成される泡の挙動。流体シミュレーションはコンピュータグラフィックスの完全なサブフィールドであり、伝統的に非常に複雑なアルゴリズムと方程式を必要とします。 フォトリアリズム、ほぼレイトレーシング レンダリングのようです。 シミュレーターは、海に比べてカップが小さいことを考慮し、ティルトシフト撮影を使用して「ミニチュア」な雰囲気を作り出します。 シーンのセマンティクスは現実世界には存在しませんが、エンジンは期待どおりに正しい物理ルールを実装します。 この作業を再現する際の主な課題は、物理エンジンとワールド モデルです。 ワールドモデルと物理エンジンは、バーチャルリアリティ(VR)とコンピュータグラフィックスにおける2つの重要な概念です。ワールドモデルは、シーン、オブジェクト、照明などの要素を含む仮想環境を記述するフレームワークであり、仮想世界の見た目と感触を表現するために使用されます。一方、物理エンジンは、重力、衝突、摩擦といったオブジェクト間の物理的な動きや相互作用をシミュレートおよび計算するために使用されます。つまり、ワールドモデルは仮想環境の静的な記述であり、物理エンジンはその環境内のオブジェクトの動的な動作をシミュレートする役割を担っています。これらがバーチャルリアリティ技術において連携することで、ユーザーに没入型の体験を提供します。 ワールドモデルには、複雑なシーンや物理的効果への対応、新しい環境における汎化能力の向上、リアルタイムの推論、予測、意思決定のための事前知識のより効果的な活用など、より高度な機能が求められます。Soraは比較的正確な動画コンテンツを生成できますが、複数のオブジェクトの相互作用や複雑な物理的動きを含むシーンでは、誤りやエラーが発生する可能性があります。また、Soraは現在、動画生成パターンの学習に大量のトレーニングデータに大きく依存していますが、このアプローチは、新しい環境における汎化能力とリアルタイムの意思決定能力を制限する可能性があります。これが、Soraが現在ワールドモデルとは見なされていない理由です。 Sora モデルの技術レポートから、Sora モデルの実装は、視覚理解 (Clip)、Transformers モデルと大規模モデルの出現 (ChatGPT)、ビデオ キャプション (DALL·E 3) など、OpenAI による一連の歴史的な技術作業の強固な基盤の上に構築されていることがわかります。出典: ModelScopeフォーラム記事、Sora技術図[1]要点1:ビデオ圧縮ネットワークパッチは大規模言語モデルにヒントを得ており、その成功は、様々なテキスト様式(コード、数学、様々な自然言語)をエレガントに統合するトークンの使用に一部起因しています。大規模言語モデルはテキストトークンを持ち、Soraは視覚パッチを採用しています。OpenAIは、Clipなどの過去の研究で、パッチングが視覚データモデルの効果的な表現であることを十分に実証しています(論文「An image is worth 16x16 words: Transformers for image recognition at scale」を参照)。ビデオ圧縮ネットワークは、高次元のビデオデータをパッチに変換することで機能します。まずビデオを低次元の潜在空間に圧縮し、次にそれを時空間パッチに分解します。課題:ビデオ圧縮ネットワークは潜在拡散モデルの VAE に類似していますが、圧縮率を決定し、ビデオの特徴がより適切に保持されるようにする方法については、さらなる研究が必要です。LLMトレーニングと推論の秘密を図解 - パート1 [2]重要なポイント2: 長い動画向けにTransformerをスケーリングするノイズブロックとテキストプロンプトを入力として与えれば、元の「クリーンな」チャンクを予測するように学習されます。重要なのは、Soraがスケーリング可能なTransformerであるということです。Transformerは大規模な言語モデルにおいて優れたスケーラビリティを発揮します。課題:潜在的な課題としては、長いコンテキスト (最長 1 分のビデオ) のサポート、複雑なエンティティのデコーダーの一貫性、ビデオ条件、画像条件、テキスト条件のマルチモーダル サポートなどが挙げられます。ポイント3:ビデオの要約動画要約/動画キャプション生成はマルチモーダル学習のサブタスクであり、動画コンテンツに基づいて1つ以上のテキスト説明を生成することを一般的な目標としています。生成されたキャプションは、後続の動画検索に使用できるだけでなく、エージェントや視覚障害者が現実世界の状況を理解するのにも直接役立ちます。この高品質のトレーニングデータにより、テキスト(プロンプト)と動画データ間の高度な整合性が保証されます。SoraはDALL·E 3再キャプション技術も使用して、ビジュアルトレーニングデータに対して非常に説明的なキャプションを生成します。これにより、Soraは生成された動画内でユーザーのテキスト指示に忠実に従うことができ、OpenAI独自の利点である長いテキストをサポートできます。生成フェーズでは、SoraはOpenAIのGPTモデルに基づいてユーザーのプロンプトを書き換え、高品質で非常に説明的なプロンプトを生成し、これを動画生成モデルに送り込んで生成プロセスを完了します。 画像キャプションのトレーニングデータは不足しています。従来の画像テキスト記述はあまりにも単純すぎる場合が多く(例:COCOデータセット)、背景、物体の位置と数、画像内のテキストなど、他の多くの情報が無視され、主題のみが記述されているケースがほとんどです。一方、テキストと画像間のマッピングをトレーニングするための現在の画像テキストペアデータセット(例:LAIONデータセット)はWebページからクロールされており、画像テキスト記述は基本的に代替テキストですが、広告など無関係な情報が含まれていることがよくあります。 技術的ブレークスルー:画像キャプション生成器は、画像キャプションを合成するように訓練され、合成キャプションと元のキャプションのブレンド比率を95%:5%に達成します。しかし、合成された長いキャプションを95%のみで訓練すると、長いキャプションへの過剰適合につながり、標準的な短いキャプションを使用した場合のパフォーマンスが低下する可能性があります。この問題に対処するため、OpenAIはGPT-4を使用してユーザーキャプションをアップサンプリングします。以下は、GPT-4がこの最適化を実行し、ユーザー入力に関係なく長いキャプションを生成する様子を示しています。 課題:技術自体は新しいものではありませんが、経験の蓄積が困難です。合成データであっても、専門家による広範なアノテーションと評価が必要です。課題としては、大規模なモデル、高い計算能力、そして膨大なデータ量などが挙げられます。
生成プロセスにはまだ多くのバグがあるため、カードを引いて錠剤を精製し続けてください。 1. 物理的相互作用のロジックエラー:Soraは物理的に非論理的な動作を生成することがあります。Soraモデルは、ガラスの破損などの基本的な物理的相互作用をシミュレートする上で十分な精度を備えていません。これは、モデルのトレーニングデータにそのような物理的イベントの十分な例が不足しているか、モデルがこれらの複雑な物理プロセスの基本原理を完全に学習・理解できないことが原因である可能性があります。 2. 物体の状態変化の不正確さ:食べ物を食べるといった物体の状態の大きな変化を伴うインタラクションをシミュレーションする場合、Soraはこれらの変化を常に正確に反映しない可能性があります。これは、物体の状態変化の動的プロセスの理解と予測において、モデルに限界がある可能性があることを示しています。 3. 複雑なシーンでの精度の低下: 複数のオブジェクトとキャラクター間の複雑な相互作用をシミュレートすると、非現実的な結果が生じる可能性があります。長時間のビデオ サンプルの不整合:長時間のビデオ サンプルを生成する場合、Sora は一貫性のないプロットや詳細を生成することがあります。これは、モデルが長期間にわたってコンテキストの一貫性を維持するのが難しいことが原因である可能性があります。オブジェクトの突然の出現:オブジェクトが明白な理由もなくビデオに表示されることがあり、これはモデルの空間的および時間的連続性の理解を改善する必要があることを示しています。 1. マジックキーを使用して ChatGPT Web サイトにアクセスします。 2. Plus メンバーシップを有効にし、アクセスできるようになるまで待ちます。 SORAモデルは、数千カロリーから数万カロリー(数百カロリー)の大規模AIクラスタートレーニングを必要とするLLMとは異なり、10バイト未満のパラメータを持つことが期待されています。OpenAIはSORAの商用化タイムラインをまだ発表しておらず、ビデオ生成が成熟するまでにはまだまだ時間がかかります(6ヶ月未満)。入力コンテンツの制御の一貫性などの技術的な問題はまだ解決する必要があり、推論コンピューティング能力が完全に爆発的に向上するまでには依然としてタイムラグがあります(6ヶ月以上)。現在、その推論コンピューティング能力はSDやSDXLよりも2/3桁大きく、AIトレーニングクラスターまたはAI推論クラスターの組み合わせが必要です。 GPT4Vトークン計算方法を参照:2048 * 4096画像詳細 = 1105トークン 1080P動画を例に挙げると、30FPSの動画は1920×1080(ピクセル)×3(RGBチャンネル)×30(FPS)×60(再生時間)となります。これで1分間の動画の価格を計算できます。
適切なプロンプトを書くことはまだ重要ですが、重要なのは、蓄積された知識を持ち、それをフレームワークとワークフローに変換できることです。 ソラの公式動画のスクリーンショット 公式説明:コーヒーカップの中を航行しながら互いに戦う 2 隻の海賊船を映したリアルなクローズアップ ビデオ。 - コンテキスト: 一杯のコーヒーの中にあるミニチュアの世界。 -ペルソナ: 海賊船2隻。 -目標: コーヒーカップの中に海賊船のリアルな戦闘シーンを再現します。 -制約: ビデオでは、海賊船の詳細とダイナミクス、および背景としてのコーヒーの質感を強調する必要があります。 手順: コーヒーが入ったカップを舞台に、コーヒーの表面が海を表現しています。 海賊船の描写:精巧に作られた2隻の海賊船がコーヒーの「海」を航行し、戦いを繰り広げます。クローズアップのハイライト:クローズアップの視点を用いて、海賊船の躍動感とコーヒーの質感を捉えます。戦闘の細部を描写:海賊船同士の銃撃戦と、船上の海賊たちの行動。 テンプレート: cssコードをコピー 【シーン説明】ワインが注がれたグラスの中で、コーヒーの表面が小さな海のように波打っています。 【キャラクター説明】 装備の整った二隻の海賊船がコーヒーの海を航海し、激しい戦闘を繰り広げます。 【目的】コーヒーカップの中で海賊船同士が戦う壮大なシーンを、リアルなクローズアップショットで表現する。 【制約】海賊船のディテールや躍動感、背景のコーヒーの質感やうねりを捉えることに注意を払います。 公式説明:温かみのあるネオンライトと躍動感あふれる街の看板で彩られた東京の街を、スタイリッシュな女性が歩いている。黒いレザージャケットに赤いロングスカート、そして黒いハンドバッグ。サングラスと赤い口紅を合わせている。自信に満ちながらも気取らない様子で歩いている。通りは湿っぽく、光が反射し、薄暗い照明の下で鏡のような効果を生み出している。多くの歩行者が行き交っている。 -文脈:活気あふれる東京の夜景は、ネオンとアニメーションの看板が織りなす光のリボンのように、明るく輝きます。小雨で濡れた路面は、色とりどりの光に照らされ、まるで鏡のように美しく映えます。きらめく夜空に、多くの歩行者が行き交います。 -ペルソナ:スタイリッシュな女性が黒いレザージャケットに鮮やかな赤のマキシスカート、黒いブーツを合わせ、黒いハンドバッグを持っています。サングラスをかけ、赤い口紅を塗り、自信に満ちたさりげない雰囲気で歩いています。 -目標: 東京のネオンが輝く夜の中で、スタイリッシュな女性の自信と魅力を披露する。 -制約: ビジュアルは、夜のネオンライトを強調し、濡れた通りのきらめきを反映し、キャラクターのファッショナブルな服装、自信に満ちた歩き方、カジュアルな歩き方を強調する必要があります。 手順: 舞台はネオンが輝く東京の夜景。 キャラクターの説明: 黒い革のジャケット、赤いロングスカート、黒いブーツを履き、黒いハンドバッグを持ち、サングラスをかけ、赤い口紅を塗ったスタイリッシュな女性。 テキストでは、キャラクターの自信に満ちた歩き方とカジュアルな歩き方が強調されています。 環境の説明: 濡れた道路は光を反射し、周囲には歩行者がいます。 例: 同様のシナリオの効果を示す説明または画像を提供します。テンプレート: css コードをコピー: 【シーン解説】 賑やかな通りに、色とりどりのネオンの光が波打つ、まるで小さな夜の海。 【キャラクター説明】 スタイリッシュな女性が、街灯の下で目立つ黒いジャケットと赤いスカートを着て、自信満々にこの通りを歩いています。 【目的】ネオンライトの下でファッショナブルな女性たちの自信とスタイルを、生き生きとした情景描写を通して紹介する。 [制約] キャラクターの服装のディテールやダイナミクス、背景の濡れた道路の質感や反射を捉えることに重点を置きます。 これは、映画制作者、ビデオ制作者などのコンテンツ制作者、およびビデオ広告業界、特にビデオ広告主にとってメリットとなります(ビデオコンテンツの産業化とカスタマイズ、および SEO ニーズに基づいたビデオの作成により)。一般人にとって、これは空き時間にできる仕事でしょうか?コンテンツ制作、特に収益化可能なレベルに到達することへの参入障壁が依然として高いのは驚くべきことです。だからこそ、AGI時代の一般人にとって、これはより普遍的な問いなのです。かけがえのない競争優位性とは何でしょうか?鋭い機会への感覚+様々なツールの効果的な活用+包括的な知識基盤。イノベーションは、真に興味のある分野でのみ起こります。情熱を見つけ、それを追求し続ければ、いつかテクノロジーを真に楽しみ、クリエイターとして経済的自由を獲得できる日が来るでしょう。 結局のところ、AI業界では明日はまた別の年です... 1. 野心を持ちつつも地に足のついた目標を掲げる:投資家によると、AIインフラ市場全体に必要な資金は1兆元に達し、市場規模は巨大です。一方、OpenAIの継続的なブレークスルーは技術ロードマップを明確にし、多くの機会を生み出しています。壮大な野心を語る前に、まず5~10%の効率向上を達成しましょう。たとえ観客席のチケットであっても、まずは入場券を確保することが土台です。オープンソース:クローズドソースモデルは完璧ではありません。弱点を最適化することで成功を収めることができます。オープンソースのLCMとLDMの比較がその好例です。LDMは20段階の拡散ステップを経てグラフを生成しますが、LCMは1段階の拡散ステップでグラフを生成するため、効率性を大幅に向上させる可能性があります。アプリケーション: モデル市場とアプリケーション市場は徐々に分離しており、成熟したユーザー プラットフォーム、インフラストラクチャ ミドルウェア、データ エンジニアリングもコア コンピテンシーとなっています。 2. コールドスタート戦略をいかに解決し、経験を積み重ねてデータフライホイールを形成するかが、あらゆるAIビジネスの成否を左右する鍵となります。例えば、一流の専門的アノテーションへの強力な統合と投資(例えば、合成データとAI評価の潮流の中で、OpenAIの多くのアノテーションと評価作業は研究者によって行われています)。汚れ仕事には戦略的な決断が必要です。 インターネットから
参考リンク:
[1]https://www.modelscope.cn/headlines/article/346 [2]https://zhuanlan.zhihu.com/p/671203641 [3]https://zhuanlan.zhihu.com/p/662745543 |