|
最近、百度検索のチーフアーキテクトである天宝氏は、著名なテクノロジーメディアInfoQの対談番組「Geek Chat」に招待され、司会者や聴衆と、百度検索の応用シナリオ、関連技術への考察、検索ビジネスシナリオへの応用・実装経験など、画像生成技術について深く議論しました。 この記事ではインタビュー内容を詳しく記録します。 ハイライト: 1. これは大きな変化であり、ユーザーがインターネット全体で画像を検索するという従来の慣習を、画像検索と画像生成を組み合わせることで、ユーザーのより具体的なニーズを満たすものへと変革します。これにより、ユーザーはより積極的に真のニーズを表現するようになります。 2. モデルが中国語をよりよく理解できるようにするには、中国語の意味に関連するコーパスを準備してクリーンアップすることが重要です。 3. 低品質のサンプルを削除し、価値の高いサンプルを構築する機能は、画像とテキストの位置合わせに不可欠です。 4. Baidu Searchは、コンテンツとスタイルの面でユーザーの多様なニーズを満たす必要があります。現在、Baidu Searchは数千種類の画面スタイル定義をサポートしています。 5. 美的基準を遵守し、独自の美的理解を構築する。全体的なモデル構築やアルゴリズムの最適化など、関連するガイダンスと評価のために、これらの高度な基準に従う必要があります。 オタクトーク 01 文勝図の技術開発プロセス 質問 AIGCは昨年9月に発足して以来、次々と新しいモデルや企業が誕生しています。当初は安定拡散法を用いてシンプルな画像を生成していましたが、その後は他の手法を用いて画像生成編集を行い、さらにはAdobe Photoshopによる自然言語による画像編集もサポートするなど、AIGCのテキスト生成における成果以外にも、多くの興味深い応用が期待されています。画像生成だけでなく、動画や音声も生成できます。最近では、驚くべき動画生成製品もいくつか見かけました。本日は、TianBao氏をお招きし、テキスト画像化技術の最新動向について、詳しくお話しいただきたいと思っています。 TianBao : 2022年はテキストベースの画像制作元年と言えるでしょう。大きく分けて、Stable Diffusionに代表されるオープンソース系と、Midjourney、Adobe Firefly、Dall-E 3に代表されるクローズドソース系の2つのカテゴリーに分けられます。元年と言われる理由は、Disco Diffusionにあります。Disco Diffusionは主に風景などの情景画像制作を対象としています。風景シーンは比較的扱いやすく、視覚的に印象的な色彩と相まって、高度な芸術性を実現しています。これは2021年末から2022年初頭にかけて行われた、大胆かつ驚くべき試みでした。 2022年2月、Midjourneyはバージョン1をリリースしました。バージョン1の全体的な効果は非常に印象的でしたが、ポートレート生成機能はまだ若干の不足がありました。同年7月中旬になってようやく、Midjourney v3で標準的なポートレートを安定して生成できるようになりました。8月には、作品「スペースオペラ」がMidjourney v3で生成され、Photoshopによる後処理によって、Midjourneyは大きな反響を呼びました。 Stable-Diffusionバージョン1.5もほぼ同時期にオープンソース化されました。このオープンソース化は画期的な出来事でした。なぜなら、それ以降、C-siteのような多くのユーザーが分散型モデルや最適化分野に集まるようになったからです。オープンソース技術の発展に伴い、下流アプリケーションを含むエコシステム全体が爆発的な成長と台頭を遂げました。その後も、技術の進歩と下流アプリケーションの開発は相互に強化し合ってきました。 02 質問 AIGCは昨年9月に発足して以来、次々と新しいモデルや企業が誕生しています。当初は安定拡散法を用いてシンプルな画像を生成していましたが、その後は他の手法を用いて画像生成編集を行い、さらにはAdobe Photoshopによる自然言語による画像編集もサポートするなど、AIGCのテキスト生成における成果以外にも、多くの興味深い応用が期待されています。画像生成だけでなく、動画や音声も生成できます。最近では、驚くべき動画生成製品もいくつか見かけました。本日は、TianBao氏をお招きし、テキスト画像化技術の最新動向について、詳しくお話しいただきたいと思っています。 安定拡散は当初、あまりうまく機能しなかったと漠然と覚えています。例えば、肖像画を生成しようとすると、人物が3本足だったり、目が複数あったりと、歪んだ結果が多く表示されました。しかし、時間が経つにつれて、技術は徐々にリアルになっていきました。同時に、CivitaiのようなAI技術が登場し、人気ゲーム「原神」シリーズのように、自分の画像に基づいて様々なシーンを作成できるようになりました。こうした画像生成技術の発展は、多くのアプリケーションを生み出しました。例えば、ガチャゲームでは、イラストレーターはこの技術を使ってゲームコンポーネントを作成できます。百度検索のような国家レベルのアプリケーションでは、テキストベースの画像をどのようにシーンに統合できるのでしょうか?当初は、ユーザーがキーワードを入力して関連画像を検索する検索ボックス内かもしれないと理解していましたが、今後はもっと革新的なアプローチが出てくると思います。 オタクトーク 03 文生イメージの実践と課題 質問 これは非常に興味深い応用シナリオですね。例えば、PowerPointプレゼンテーションを作成する際に、クライアントが特定の業界の製品や写真を使用しているなど、想定するシナリオに合う画像を探す必要があることがよくあります。しかし、著作権を侵害したり、画像の出所をめぐる紛争に巻き込まれたりするのは避けたいものです。このような場合、画像を検索した上で、インペインティング修正、境界線補完、さらには超解像処理を実行できる機能は、実は非常に実用的な応用です。 外部の方から見ると、私たちがサポートしているのは画像生成と編集の基本的な機能、つまり生成、簡単な編集、枠線の拡張、高解像度画像の完成といった機能だけだと思われるかもしれません。しかし、私の理解では、この技術は中国の文脈では非常に難しいものです。特に中国の文化や意味のシナリオを考慮すると、ほとんどのモデルは通常、英語ベースの環境で学習され、元のコーパスも主に英語です。しかし、中国の検索エンジン分野の巨人である百度は、中国語と英語の両方、さらにはいくつかの方言を扱う必要があります。この課題にどのように対処しているのでしょうか? 質問 大規模画像生成モデルでは、学習段階では高品質なデータセットを準備し、強固な基盤を構築する必要があります。一方で、ユーザーはモデルを使用する際に、多種多様な複雑な説明をする可能性があります。例えば、カップを説明する際に、ユーザーは「背が高い」「透明」「青い」「コオロギが入っている」など、多くの形容詞を追加する可能性があり、標準モデルでサポートされているトークン長を超える可能性があります。特に中国語の文脈では、ユーザーの説明はさらに長くなる可能性があります。例えば、先ほどおっしゃった「猫が帽子をかぶり、山頂に立っていて、北西の風が吹き、背後に雪が降っている」といった説明です。このような場合、多数の形容詞や形容詞を含む画像の処理は難しいでしょうか? オタクトーク 04 画像の美的魅力の評価 質問 確かに、このプロセスの複雑さは想像以上に大きいですね。先ほど、低品質の画像を削除し、高品質の画像を残すことの重要性についておっしゃいましたが、低値や高値というのは画像の品質のことを指しているのでしょうか?画像を生成する際に、猫を作りたい場合、まず猫であること、そして美的感覚に合致していることが条件となります。猫の形、というか犬の形に合致している必要があり、美的感覚は非常に主観的な問題です。例えば猫でも、丸くてふっくらとして毛が豊かな猫が好きな人もいれば、ボールのような形が良いと考える人もいます。しかし、猫は猫らしく、頭、足、首といった猫の特徴がはっきりとしているべきだと考える人もいます。この場合、百度は猫の見た目はどうあるべきかという問題にどのように対処しているのでしょうか? 質問 先ほどコンテンツの一貫性についてお話されましたが、この概念について詳しく説明していただけますか? オタクトーク 05 文勝図プロンプトプロジェクト 質問 シナリオや用途によって、美的要件は異なります。帽子とサングラスをかけた猫を例に挙げると、ユーザーは日本のコミックやアメリカのコミックなど、視覚体験が大きく異なる異なるスタイルのコミックを生成したいと考えるかもしれません。アメリカのコミックは通常、色彩豊かで輪郭がはっきりしていますが、日本のコミックは主に白黒で、視覚的なインパクトが強いです。Baiduはどのようにしてユーザーのプロンプトから関連情報を取得し、コンテンツの一貫性を保ちながら、異なるアートスタイルの生成をサポートしているのでしょうか? Baidu 検索は現在、数千種類の画像スタイル定義をサポートしています。 例えば、猫を水墨画や漫画、アルミ製の工芸品や彫刻など、様々な素材を使って表現できます。 さらに、モーションブラー、タイムラプス効果、魚眼レンズや広角ビューなど、様々な視点を選択することもできます。 幅広いスタイルとカテゴリーをカバーしているため、より具体的なスタイル要件がある場合は、プロンプトに該当するスタイルを入力するだけで、期待通りのスタイルを持つ画像を取得できます。 質問 スタイルオーバーレイについてもう一つ質問があります。この操作はサポートされていますか?例えば、魚眼広角レンズと伝統的な中国の水墨画スタイルを同時に画像に適用することはできますか?一方はアートスタイル、もう一方は遠近法に関するものなので、伝統的な中国の水墨画スタイルと漫画スタイルを組み合わせたい場合もサポートされますか? TianBao : モデルの観点から言えば、複数のスタイルをサポートすることは実現可能です。新しいスタイルのアイデアが生まれる可能性があるからです。しかし、私たちが直面しているもう一つの課題は、コンテンツの一貫性を維持しながら、複数のスタイルを効果的に統合・調整することです。異なるスタイル間の違いは大きい場合があり、相互に制約が生じることもありますが、これによりユーザーにはより多くの実験と探求の機会が与えられ、様々なスタイルの組み合わせを試すことで、より広い創造空間を実現できるようになります。 質問 最終的な主題を表現するために複数のスタイルキーワードがある場合、最終的な画像とキーワードの位置はどの程度関連しているでしょうか?例えば、水墨画風と漫画風の猫と、漫画風と水墨画風の猫は、同じ効果を生み出すでしょうか? 質問 Baiduは数千ものスタイルをサポートしているとおっしゃっていましたが、これらの数千ものスタイルは手動で選ばれたのでしょうか、それともモデルクラスタリングによって自動生成されたのでしょうか?ユーザーにとって、これほど多くのスタイルから選べると、最初は圧倒されて選ぶのが難しくなるかもしれません。 質問 おっしゃる通り、アートスタイルは数千種類あります。プロではない人や美術学生でも、スケッチや水墨画など、1つか2つのスタイルしか知らない人がほとんどです。実際には、これほど多くの異なるスタイルを深く理解し、優れたプロンプトを書ける人はごくわずかです。では、ユーザーがプロンプトの書き方にあまり慣れていない場合はどうすればよいでしょうか?例えば、初めてBaiduを使うユーザーは、誰かに教えられない限り、Baiduが数千ものスタイルをサポートしていることに気づかないかもしれません。このような場合、どのように対応し、Baiduの様々なスタイルや書き込める他のプロンプトについてもっと学んでもらうように導いていくべきでしょうか? 質問 より具体的な問題について議論が必要です。それは、プロンプトの書き換えに関するものです。例えば、プロンプトを犬の説明から、帽子をかぶって怒って身振りをしている犬の描写に変更する場合、ユーザーは書き換えられた部分を実際に見ることはできません。書き換えが毎回同じになるように保証できるでしょうか、それとも毎回少しずつ内容が異なってもよいのでしょうか?例えば、1回目は帽子をかぶった犬、2回目は眼鏡をかけてビーチに横たわっている犬といった具合です。このプロセスはランダムなのでしょうか、それとも毎回固定されているのでしょうか? TianBao :プロンプトの書き換えに関しては、ユーザーにより多様で豊富な結果を提供したいと考えています。例えば、犬を例に挙げると、対象は犬であり、品種は様々かもしれませんが、服装や登場シーンは様々かもしれません。これにより、人によって結果が異なり、期待値も高まります。そのため、モデルレベルでは、プロンプトの書き換えと最適化を通じて、より多様な選択肢を提供できるようになり、実際のユーザーからのフィードバックに基づいて、ユーザーがどのようなスタイルやタイプのコンテンツシナリオに興味を持っているかを把握し、より高い事後フィードバックを得られるようになることを期待しています。これは、プロンプト書き換えモデル全体にデータドリブンな効果をもたらすでしょう。
オタクトーク 06 フィードバックと評価 質問 先ほど、モデルを反復的に改良するためにユーザーからのフィードバックを収集し、書き換えるプロセスについて触れました。これはRLHF(Reinforcement Learning from Human Feedback)と呼ばれるプロセスです。ここでの最大の課題は、人間のフィードバックは不安定だということです。なぜなら、主観的な意見は人によって大きく異なるからです。人間のフィードバックに頼ってモデルを反復改良するのは非常に困難です。さらに、モデルの評価に関して、Baiduはどのようにしてバランスを取り、画像生成プロセスを評価しているのでしょうか? TianBao : 事後フィードバックに関してまず考慮すべき点は、フィードバックデータが真に人間の事後フィードバックを反映しているかどうかです。そのため、フィードバックの質に対する要求はより高くなります。 したがって、この点を製品設計全体やユーザーインタラクションと統合することで、より肯定的なユーザー行動フィードバックを収集することができます。例えば、ユーザーが何かに興味を持った場合、画像をクリックして拡大表示し、その後ダウンロードなどのアクションを実行する可能性があります。これらはすべて肯定的なフィードバックです。ユーザーが画像に「いいね!」やコメントを付けることも、直接的なフィードバックとなります。こうしたフィードバックはユーザーの好みを真に反映するものであるため、フィードバックシステム全体を通してより効果的に収集することを目指しています。曖昧なフィードバックについては、より代表的なデータを集めるためには、より大きなサンプルサイズが必要です。 質問 従来、従来の統計的機械学習と標準的な深層学習モデルはどちらも教師あり学習が主流であり、F1スコア、IQZ、VCRなどの指標を計算するにはサンプルや教師データが必要でした。しかし、GPTシリーズやDall-Eなどの生成モデルの場合、生成と評価に使用できる標準的なベンチマークデータセットが存在しません。一方、生成モデルは、人手による観察に頼るよりも効率的な評価手法を必要とします。この分野において、人手による観察に頼るよりも効率的な評価方法はあるのでしょうか? オタクトーク 07 将来の展望 質問 さて、少し先の未来を見ていきましょう。とはいえ、それほど遠い未来の話ではありません。最近、多くのスタートアップ企業や関連企業がこの分野に進出しているのを目にしています。アニメーションを例に挙げましょう。アニメーションとは、基本的に複数のフレームの画像を重ね合わせることです。通常、アニメーション映画は1秒あたり24フレームまたは16フレームで再生されます。静止画の編集にとどまらず、AIGC分野では、3秒、7秒、8秒といった短い動画や短い動画の生成といった技術開発が継続的に進められています。Runwayチームは以前、テキストベースの画像を使った動画生成のコンテストを開催しました。AIによって完全に生成された映画や映画が登場するまで、どれくらいの時間がかかるとお考えですか? |