HUOXIU

テキストからビデオへのフォーマットにより仮想と現実が融合し、中国の学術界全体に響き渡るソラの衝撃波が生まれます。

この記事は「Chao News Client」、記者:張雲山からのものです

「すべてがあまりにも急激に起こったため、我々は依然として注視しています」と、ロキッドのCEOであるムサ・チュー氏は述べた。同社はまた、ソラによる衝撃波の規模についても注視している。

2月16日早朝、OpenAIはテキスト動画変換モデル「Sora」を正式にリリースしました。そのリアルな視覚効果は瞬く間に話題となり、1年前にChatGPTで世界を震撼させたあのシーンを再び再現しました。

 

Soraはビデオのスクリーンショットを生成します

Pika、Runway、SVDといった従来のテクスチャ動画編集ソフトウェアと比較すると、Soraはデビューと同時に世界を驚かせました。OpenAIはまだSoraの一般公開版をリリースしていませんが、すでに公開されている40本以上のデモ動画には、驚くほど精細なシーン、複雑なカメラワーク、そして感情に訴えかける数々のキャラクターが登場しています。OpenAIは、Soraは物理世界における物体の存在を理解し、小道具を正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成できると主張しています。

Soraには3つの主な利点があります。第一に、「60秒の超長尺動画」を制作できることです。これまで、大規模なテキスト動画変換モデルはAI動画の4秒連続という壁を突破することができませんでしたが、Soraは60秒の連続動画を直接実現します。第二に、1本の動画を複数の角度から、あるいはワンテイクで撮影できるため、シーン内の照明関係、オブジェクト間の物理的な遮蔽や衝突関係、そして滑らかで変化に富んだカメラワークを効果的に表現できます。第三に、Soraによって合成されたコンテンツは物理世界の法則に準拠しており、つまり、世界の客観的法則に反する視覚情報は含まれていません。OpenAIはSoraを単なる動画モデルとしてではなく、「世界シミュレーター」として扱っています。人間と同じように、Soraは戦車が大きな衝撃を与え、車を破壊できることを理解しますが、「車が戦車を破壊する」ような状況を再現することはありません。これが「世界モデル」の力です。

要約すると、 Soraは、様々な長さ、解像度、アスペクト比の動画や画像で学習された拡散モデルです。また、Transformerアーキテクチャを採用しているため、「拡散型Transformer」となっています。

Sora は、モデリングの世界の基盤となるモデルにおける大きな進歩を表しています。

Sora の動作原理は正確には何ですか?

浙江大学コンピュータサイエンス学院党書記兼人工知能研究所所長の呉飛氏は、潮報に対し、 Soraはコンテンツ合成においてテキスト領域から画像領域、そして動画領域へと飛躍的な進歩を遂げたと語った。その基本原理は、「文脈的関係に基づき、合成コンテンツ内の最小単位を意味的に組み合わせる」ことである。例えば、文脈次元における複数の単語の意味的な組み合わせで記事を合成し、空間レイアウト次元における一連の視覚的サブブロックの意味的な組み合わせで画像を合成し、時空間結合における一連の視覚的サブブロックの意味的な結合で動画を合成することができる。これを実現するために、自己注意、拡散モデル、トランスフォーマーニューラルネットワークが組み合わせて用いられている。Soraの技術原理はまだ公表されていないが、一部の外部専門家は、動画生成モデルの学習にはこれらの技術が依然として利用されていると推測している。

ウー・フェイ教授は、 Soraはニュートンの法則、乱流方程式、量子力学といった物理世界の法則を一つ一つ明示的に列挙し、モデルに実装することに苦労していると述べた。しかし、膨大なデータから学習することで、客観的な法則を暗黙的に表現している。これはおそらく、ニューラルネットワークモデルの創発力によるものだろう。ニューラルネットワークの創発力とは、量的変化がもたらす質的飛躍を指す。数十億もの非線形写像関数を組み合わせることで、ニューラルネットワークは予期せぬ結果を生み出し、かつて世界に類を見ないコンテンツを合成することができる。これこそが、「データ、モデル、そして計算力」という3つの柱によって推進される、この一連の人工知能開発の真髄なのだ。

浙江大学コンピュータ科学技術学院CAD・CG国家重点実験室の副所長兼博士課程指導教員である陳偉氏は、潮報に対し、Soraは「テキストベースの動画生成」における画期的な進歩であると語った。動画が長くなるほど、コンテンツの信憑性を確保することが難しくなるためだ。SoraはAGIの世界モデリング研究の進展において重要な役割を果たしている。Soraはテキストベースの動画を生成できるだけでなく、より重要な点として、(まだそうではないが)世界の根底にある物理法則のモデルと見なすことができる。世界の法則に従った動画を生成できるため、大量の動画を「読む」ことで、次の瞬間の世界(特定のシーンにおける視覚的な意味で)の見え方を予測し、世界の根底にある物理法則の一部を学習したと言える。しかし、現状では、ソラのこの分野における能力は依然として著しく不足しており、宙に浮いた椅子、バスケットボールがフープを通過する、狼の数が変動するなど、物理法則に従わない大量のビジュアルコンテンツを生み出している。

ソラは今年末までに1時間のテキストベースのビデオを制作する予定だ。

人工知能の急速な進歩は、テキストベースの動画の将来への関心も呼び起こしています。陳偉教授は、 Soraが今年末までに1時間のテキストベースの動画を制作できる可能性があると考えています。「数秒から数分のテキストベースの動画を生成するのは困難ですが、数分から数時間に短縮するのは比較的容易かもしれません。なぜなら、大規模な言語モデルであれば、1時間のテキスト生成はもはや難しくないからです。今年末か来年には、1時間の妥当なテキストコンテンツが実現できると予測しています。」陳教授は、1時間の動画は人間と機械の共同制作の成果でなければならないと述べました。そうでなければ、動画には無数の矛盾が生じるでしょう。

ウー・フェイ教授は、 OpenAIが公開したSORA合成動画のプロンプトが見事に書かれており、細部まで鮮明に表現されている点にも言及しました。そのため、質問力、コンテンツ設計、ツール活用のスキルは、情報化時代からデジタル時代へと移行する中で、私たちが継続的に強化していくべき能力です。「練習すればするほど、より多くのことを学び、知識が深まるほど、練習の効果は高まります!」

将来のテキストベースのビデオ モデルは間違いなくマルチモーダルになります。

「テキスト変換ビデオ分野における中国と他国との格差は再び広がった」と陳偉氏は考えている。中国の学界と産業界はテキスト変換コンテンツを生成する能力を持ち、10秒以内にビデオを制作できる可能性もあるものの、ビデオ全体の意味的一貫性の確保に苦労したり、特定のシナリオに限定されたりしている。これは過去の国際的な進歩と同様だ。しかし、Soraと比較すると、その差は大きい。「この差は、基本的に大規模言語モデル(LLM)とマルチモーダル大規模モデルにおける中国と他国の差を直接反映しています。Soraを支える技術はLLMと根本的に似ています。LLMは広範な読解に依存しているのに対し、Soraは広範な画像(ビデオ)読解に依存し、多数の「ビュー・テキストペア」サンプルから学習することでテキスト変換ペアの生成を実現し、テキスト変換ビデオを実現しています。まさに、私たちは再び遅れをとってしまったのです!」

もちろん、世界モデルとしてのSoraにもいくつかの問題点があります。例えば、「人間」と同様に、広範な「グラフ読解」を通して世界を支配する法則を学ぶことは理にかなっていますが、単に「目を開いて世界を見る」だけでは、ニュートンの法則のような物理学から推論できる世界の法則を学ぶことはできません。世界モデルはマルチモーダルである必要があり、Soraは最終的に「ニュートンの法則」のような記号的知識とどのように整合させ、一般化された推論を行うかという課題に直面するでしょう。

国内外を問わず、テクノロジーの世界は活気に満ちている。

ソラの突然の出現は学界にセンセーションを巻き起こし、多くの著名人が声を上げた。

最近、 360の創設者である周紅一氏はWeiboに投稿し、SORAの誕生はAGIの実現が10年から2年程度に短縮される可能性があると述べた。「大規模モデル技術を基盤とし、人間の知識の導きと組み合わせることで、様々な分野でスーパーツールを開発できる」と述べている。

Mobvoiの創設者であるLi Zhifei氏は、自身のWeChat Momentsで次のように述べています。 「ChatGPT(大規模言語モデル)は思考の仮想世界のシミュレーターであり、LLMに基づく動画生成モデルであるSoraは物理世界のシミュレーターです。物理世界と仮想世界の両方がモデル化されているのに、現実とは一体何なのでしょうか?」

Lepton AIの創設者である賈陽青氏は、Soraの登場がOpenAIに取り組む企業に買収の波をもたらす可能性があると考えています。彼はこれを「FOMO」(取り残されることへの恐怖による買収)と呼んでいます。賈氏は、大規模モデル市場は長期的に寡占状態が続き、オープンソースの大規模モデルが追いつくにはまだ時間を要すると予測しています。また、Soraのようなテキストベースの動画大規模モデルの登場は、AIインフラの需要を間違いなく急増させるだろうと述べています。

ニューヨーク大学のサイニン・シェ助教授(古典的ネットワークアーキテクチャResNeXtの第一著者)は、Soraが動画生成の分野全体を書き換えるだろうと明言しました。シェ氏は、SoraはDiT拡散トランスフォーマーをベースに構築されている可能性が高いと分析しています。簡単に言うと、DiTはトランスフォーマーをバックボーンとする拡散モデルであり、[VAEエンコーダー + ViT + DDPM + VAEデコーダー]です。シェ氏は、Soraにはそれほど多くの高度な追加機能は組み込まれていない可能性が高いと推測しています。動画圧縮ネットワークに関しては、SoraはおそらくVAEアーキテクチャ(深層生成モデル)を採用しており、生の動画データでトレーニングされている点が異なります。VAEは包括的な用語であるため、DiTは技術的にはハイブリッドモデルです。また、シェ氏はSoraには約30億のパラメータがあるのではないかと推測しています。

 

LLM(大規模言語モデル)画像提供:Visual China

OpenAIの評価額は800億ドル

Soraが世界的な注目を集めるにつれ、OpenAIの評価額も急上昇し、世界で3番目に価値の高いテクノロジー系スタートアップとなった。

最新の株式公開買い付けの完了により、 OpenAIの評価額は正式に800億ドルに達し、ByteDanceとSpaceXに次ぐ規模となった。

この取引はベンチャーキャピタルのThrive Capitalが主導し、外部投資家は一部の従業員から株式を購入することができます。OpenAIは2023年初頭に同様の取引を完了しており、当時の評価額は290億ドルでした。

Sora のリリースに続いて、GPT-4 Turbo はレート制限を大幅に削減し、TPM (1 分あたりの最大トークン数) を増加させ、以前のバージョンと比べて 2 倍の改善を達成しました。