HUOXIU

画像生成は拡散モデルに終止符を打ち、OpenAIの「一貫性モデル」が勝利!GANはワンステップ画像生成速度最大18FPSを実現。



   新知源報道

出典: 同期

編集者: ピーチは眠い

【新情報まとめ】 OpenAIの画期的な研究プロジェクト「一貫性モデル」がオープンソース化されました。このモデルは、ワンステップで瞬時に画像を生成するだけでなく、画像編集も可能で、最も強力な拡散モデルさえも凌駕しています。

ChatGPT と Midjourney の人気により、その基盤となる技術普及モデルが「生成 AI」革命の基盤となりました。
業界の研究者からも非常に求められており、その人気はかつて復活したGANをはるかに上回っています。
拡散モデルが最も効果的だったちょうどその時、あるネットユーザーが突然注目を集める発表をした。

拡散モデルの時代は終わりました!一貫性モデルが王座に輝きました!

いったい何が起こっているのでしょうか?
OpenAI は 3 月に「Consistency Models」と呼ばれる重要かつ高品質の論文を発表し、本日そのモデルの重みを GitHub で公開したことが判明しました。

論文リンク: https://arxiv.org/abs/2303.01469

プロジェクトアドレス: https://github.com/openai/consistency_models
「一貫性モデル」は、拡散モデルのトレーニング速度に革命をもたらし、 「ワンステップ生成」を可能にし、単純なタスクを拡散モデルよりも桁違いに速く完了しながら、計算量を 10 ~ 2000 倍削減します。
それで、それはどれくらい速いのでしょうか?
一部のネットユーザーは、これは 256x256 の解像度の画像を 64 枚、約 3.5 秒で生成すること、つまり1 秒あたり 18 枚の画像を生成することに相当すると述べています
さらに、最新モデルの主な利点の 1 つは、「敵対的トレーニング」なしで高品質のサンプルを実現できることです。
この研究は、チューリングの三大巨頭の一人でありAlexNetの主要な推進者でもあるヒントンの弟子イリヤ・スツケヴァー氏によって執筆されたもので、DALL-E 2を開発した中国人学者マーク・チェン氏とプラフルラ・ダリワル氏も参加している。その研究内容がいかにハードコアなものかは想像に難くない。
一部のネットユーザーからは、「一貫性モデル」こそが今後の研究方向だとさえ言われており、将来は必ず普及モデルが笑いものになるだろうと信じている。
では、拡散モデルも時代遅れだということでしょうか?

より速く、より強く、対立の必要はない


現在、この論文はまだ草稿段階であり、研究は継続中です。
2021年、OpenAIのCEOサム・アルトマン氏は、ムーアの法則をあらゆる分野にどのように適用すべきかを議論するブログ記事を執筆しました。
アルトマン氏は最近、Twitterで人工知能が「リープフロッグ」成長を達成すると公に発言した。「ムーアの法則の新たなバージョンが間もなく出現するかもしれない。宇宙の知的生命体の数は18ヶ月ごとに倍増するだろう」と述べた。
他の人にとっては、アルトマンの楽観主義は根拠がないと思われるかもしれない。
しかし、OpenAIの主任科学者であるイリヤ・スツケバー氏とそのチームが行った最新の研究は、アルトマン氏の主張を強力に裏付けている。
2022 年は、多くの新しいモデルが拡散モデルに基づいているため、AIGC 元年と呼ばれることがよくあります。
拡散モデルの人気は徐々にGANに取って代わり、業界で最も効果的な画像生成モデルとなりました。例えば、DALL.E 2やGoogle Imagenなどが拡散モデルです。
しかし、新たに提案された「一貫性モデル」は、拡散モデルと同等の品質のコンテンツをより短時間で出力できることが示されています。
これは、この「一貫性モデル」が GAN に似た単一ステップの生成プロセスを使用するためです。
対照的に、拡散モデルは反復的なサンプリングプロセスを採用して、画像内のノイズを徐々に除去します。
この方法は効果的ですが、良好な結果を得るには数百から数千の手順が必要であり、運用コストがかかるだけでなく、処理速度も遅くなります。
拡散モデルの継続的な反復生成プロセスは、「一貫性モデル」よりも 10 ~ 2000 倍多くの計算を消費し、トレーニング プロセス中の推論速度も低下します。
「一貫性モデル」の強みは、必要に応じてサンプルの品質と計算リソースのバランスをとることができる点にあります。
さらに、このモデルは、画像の修復、着色、ブラシガイドによる画像編集などのゼロショット データ編集タスクを実行できます。

LSUN Bedroom 256^256 で蒸留によってトレーニングされた一貫性モデルを使用したゼロショット画像編集。
「一貫性モデル」は、数式を使用するときにデータをノイズに変換し、類似のデータ ポイントの出力が一貫していることを保証して、それらの間のスムーズな遷移を実現することもできます。
このようなタイプの方程式は、「確率フロー常微分方程式」(ODE) と呼ばれます。
この研究では、これらのタイプのモデルは入力データと出力データ間の一貫性を維持するため、「一貫性のある」モデルと名付けられています。
これらのモデルは、蒸留モードまたは分離モードのいずれかでトレーニングできます。
蒸留モードでは、モデルは事前トレーニング済みの拡散モデルからデータを抽出し、1 ステップで実行できるようになります。
分離モードでは、モデルは拡散モデルから完全に独立しており、完全に独立したモデルになります。
どちらのトレーニング方法でも「敵対的トレーニング」が排除されることは注目に値します。
敵対的学習によって確かにより強力なニューラルネットワークが生成されることは認めざるを得ませんが、そのプロセスはかなり回りくどいものです。敵対的学習では、誤分類された敵対的サンプルのセットを導入し、正しいラベルを用いて対象のニューラルネットワークを再学習させるという手順を踏むことになります。
したがって、敵対的トレーニングによってディープラーニング モデルの予測精度がわずかに低下する可能性があり、ロボット工学アプリケーションでは予期しない副作用が生じる可能性もあります。
実験結果によれば、「一貫性モデル」のトレーニングに使用される蒸留技術は、拡散モデルに使用される蒸留技術よりも優れていることが示されています。
「一貫性モデル」は、CIFAR10 画像セットと ImageNet 64x64 データセットでそれぞれ 3.55 と 6.20 という最先端の FID スコアを達成しました。
これは、拡散モデルの品質と GAN の速度の完璧な組み合わせです。
2月に、スツケバー氏は次のことを示唆するツイートを投稿した。

AIの大きな進歩には必ず新しい「アイデア」が必要だと多くの人が考えています。しかし、それは間違いです。AIにおける偉大な進歩の多くは、まさにこの形で実現されています。つまり、このありふれた、控えめなアイデアが、うまく実行されれば、驚くべき成果を生み出す可能性があるのです。

最近の研究では、古い概念に基づいた微調整によってすべてが変わる可能性があることが証明されています。

著者紹介

OpenAI の共同設立者兼主任科学者であるIlya Sutskeverについては説明の必要はありません。この「トップリーダー」たちの集合写真を見れば一目瞭然です。

(右端の画像)

楊松(ヤン・ソン)

論文の第一著者であるソン・ヤン氏は、OpenAIの研究科学者である。
清華大学で数学と物理学の学士号を取得し、スタンフォード大学でコンピュータサイエンスの修士号と博士号を取得しました。また、Google Brain、Uber ATG、Microsoft Researchでインターンシップを経験しました。
機械学習研究者として、複雑で高次元のデータのモデリング、分析、生成のためのスケーラブルな手法の開発に注力しています。彼の関心は、生成モデリング、表現学習、確率的推論、AIセキュリティ、科学のためのAIなど、多岐にわたります。

マーク・チェン

マーク・チェンは、OpenAI のマルチモーダルおよびフロンティア研究グループの責任者であり、米国コンピュータサイエンスオリンピックチームのコーチでもあります。
彼は以前、MIT で数学とコンピュータサイエンスの学士号を取得し、Jane Street Capital を含むいくつかの自己勘定取引会社で定量トレーダーとして働き、株式および先物取引用の機械学習アルゴリズムを構築していました。
OpenAI入社後、DALL-E 2の開発チームを率い、GPT-4にビジョン機能を導入しました。さらに、Codexの開発を主導し、GPT-3プロジェクトに参加し、Image GPTを開発しました。

プラフルラ・ダリワル

プラフルラ・ダリワルはOpenAIの研究科学者であり、生成モデルと教師なし学習に取り組んでいます。それ以前は、MITで学部生としてコンピュータサイエンス、数学、物理学を専攻していました。
興味深いことに、拡散モデルは画像生成の分野で GAN よりも優れた性能を発揮することができ、これは彼が 2021 年の NeurIPS 論文で提案したものです。

ネットユーザー:ついにOpen AIをやってみました!

OpenAI は本日、一貫性モデルのソースコードを公開しました。
ついに、Open AI に戻りました。
毎日、信じられないほどの進歩や発表が数多くある中、ネットユーザーは「休憩を取るべきか、それとも進歩を加速させるべきか」と疑問を抱いている。
これにより、拡散モデルと比較して、研究者がモデルをトレーニングするコストが大幅に削減されます。
一部のネットユーザーは、「一貫性モデル」の将来的な使用例として、リアルタイム編集、NeRF レンダリング、リアルタイム ゲーム レンダリングなどを提案しています。
まだデモは公開されていませんが、画像生成速度を大幅に向上させることができる人が常に勝者になると言っても過言ではありません。
ダイヤルアップからブロードバンドに直接アップグレードしました。
脳コンピューターインターフェースと、ほぼリアルタイムで生成される超現実的な画像、まさにマトリックスのようです!
参考文献:
https://arxiv.org/abs/2303.01469
https://github.com/openai/consistency_models