HUOXIU

文勝図の大規模実用化:百度検索AIGC描画ツールの裏話を公開!

出典: Baidu Geek Talk
著者 | 天宝

導入
導入
2023年以降、AIGCテクノロジーは人工知能の新たな波を巻き起こしています。大規模モデルの最も注目を集める応用分野の一つであるAIペイントも、近年大きな進歩を遂げています。AIペイントシステムは、ユーザーの入力やプロンプトに基づいて様々なスタイルの画像を生成することができ、アーティスト、デザイナー、クリエイターに強力なツールを提供し、デジタルクリエイティブ分野に新たな可能性をもたらしています。

最近、百度検索のチーフアーキテクトである天宝氏は、著名なテクノロジーメディアInfoQの対談番組「Geek Chat」に招待され、司会者や聴衆と、百度検索の応用シナリオ、関連技術への考察、検索ビジネスシナリオへの応用・実装経験など、画像生成技術について深く議論しました。

この記事ではインタビュー内容を詳しく記録します。


全文は 10,034 語から成り、読むのに 26 分かかると推定されます。


ハイライト:

1. これは大きな変化であり、ユーザーがインターネット全体で画像を検索するという従来の慣習を、画像検索と画像生成を組み合わせることで、ユーザーのより具体的なニーズを満たすものへと変革します。これにより、ユーザーはより積極的に真のニーズを表現するようになります。

2. モデルが中国語をよりよく理解できるようにするには、中国語の意味に関連するコーパスを準備してクリーンアップすることが重要です。

3. 低品質のサンプルを削除し、価値の高いサンプルを構築する機能は、画像とテキストの位置合わせに不可欠です。

4. Baidu Searchは、コンテンツとスタイルの面でユーザーの多様なニーズを満たす必要があります。現在、Baidu Searchは数千種類の画面スタイル定義をサポートしています。

5. 美的基準を遵守し、独自の美的理解を構築する。全体的なモデル構築やアルゴリズムの最適化など、関連するガイダンスと評価のために、これらの高度な基準に従う必要があります。


オタクトーク

01

文勝図の技術開発プロセス

質問

AIGCは昨年9月に発足して以来、次々と新しいモデルや企業が誕生しています。当初は安定拡散法を用いてシンプルな画像を生成していましたが、その後は他の手法を用いて画像生成編集を行い、さらにはAdobe Photoshopによる自然言語による画像編集もサポートするなど、AIGCのテキスト生成における成果以外にも、多くの興味深い応用が期待されています。画像生成だけでなく、動画や音声も生成できます。最近では、驚くべき動画生成製品もいくつか見かけました。本日は、TianBao氏をお招きし、テキスト画像化技術の最新動向について、詳しくお話しいただきたいと思っています。

TianBao 2022年はテキストベースの画像制作元年と言えるでしょう。大きく分けて、Stable Diffusionに代表されるオープンソース系と、Midjourney、Adobe Firefly、Dall-E 3に代表されるクローズドソース系の2つのカテゴリーに分けられます。元年と言われる理由は、Disco Diffusionにあります。Disco Diffusionは主に風景などの情景画像制作を対象としています。風景シーンは比較的扱いやすく、視覚的に印象的な色彩と相まって、高度な芸術性を実現しています。これは2021年末から2022年初頭にかけて行われた、大胆かつ驚くべき試みでした。

2022年2月、Midjourneyはバージョン1をリリースしました。バージョン1の全体的な効果は非常に印象的でしたが、ポートレート生成機能はまだ若干の不足がありました。同年7月中旬になってようやく、Midjourney v3で標準的なポートレートを安定して生成できるようになりました。8月には、作品「ス​​ペースオペラ」がMidjourney v3で生成され、Photoshopによる後処理によって、Midjourneyは大きな反響を呼びました。

Stable-Diffusionバージョン1.5もほぼ同時期にオープンソース化されました。このオープンソース化は画期的な出来事でした。なぜなら、それ以降、C-siteのような多くのユーザーが分散型モデルや最適化分野に集まるようになったからです。オープンソース技術の発展に伴い、下流アプリケーションを含むエコシステム全体が爆発的な成長と台頭を遂げました。その後も、技術の進歩と下流アプリケーションの開発は相互に強化し合ってきました。


オタクトーク

02

百度のテキストベース画像処理における探求と成果

質問

AIGCは昨年9月に発足して以来、次々と新しいモデルや企業が誕生しています。当初は安定拡散法を用いてシンプルな画像を生成していましたが、その後は他の手法を用いて画像生成編集を行い、さらにはAdobe Photoshopによる自然言語による画像編集もサポートするなど、AIGCのテキスト生成における成果以外にも、多くの興味深い応用が期待されています。画像生成だけでなく、動画や音声も生成できます。最近では、驚くべき動画生成製品もいくつか見かけました。本日は、TianBao氏をお招きし、テキスト画像化技術の最新動向について、詳しくお話しいただきたいと思っています。

安定拡散は当初、あまりうまく機能しなかったと漠然と覚えています。例えば、肖像画を生成しようとすると、人物が3本足だったり、目が複数あったりと、歪んだ結果が多く表示されました。しかし、時間が経つにつれて、技術は徐々にリアルになっていきました。同時に、CivitaiのようなAI技術が登場し、人気ゲーム「原神」シリーズのように、自分の画像に基づいて様々なシーンを作成できるようになりました。こうした画像生成技術の発展は、多くのアプリケーションを生み出しました。例えば、ガチャゲームでは、イラストレーターはこの技術を使ってゲームコンポーネントを作成できます。百度検索のような国家レベルのアプリケーションでは、テキストベースの画像をどのようにシーンに統合できるのでしょうか?当初は、ユーザーがキーワードを入力して関連画像を検索する検索ボックス内かもしれないと理解していましたが、今後はもっと革新的なアプローチが出てくると思います。

TianBao: 初期の頃、BaiduもAIGC画像生成にいくつか試みていました。先ほどお話ししたように、テキストから画像への変換技術は、当初は使い物にならなかったものの、徐々に使えるようになり、想像力を解き放ち、印象的な視覚効果をもたらしました。
以前は、ユーザーが画像を探す場合、通常はテキスト検索を行っていました。例えば、サングラスと帽子をかぶり、怒った仕草をしている猫の画像(ユーザーが思い描いていた画像)は、インターネット上に既に存在する、視覚的に分かりやすいコンテンツの中からしか見つけることができませんでした。しかし、より具体的なシナリオ、例えば怒った仕草をしていて、特別な服を着ている猫などの場合、インターネット上でそのような画像を作成している人がいなければ、ユーザーのニーズを満たすことは限定的になります。その結果、ユーザーのニーズは単に怒った猫を探すというレベルに落ち込み、最終的には、自分のニーズを満たすために、似たような怒った猫の画像がオンラインでないか確認するという、ブラウジング的なニーズへと変化していきます。
しかし、生成技術の急速な発展により、ユーザーの頭の中にあるイメージを具体的に表現し、ニーズに応えることができるようになりました。ユーザーの検索ニーズを画像検索と画像生成の組み合わせへと転換することで、より具体的なユーザーニーズを満たすとともに、ユーザーがより積極的に真のニーズを表現することを促しています。 製品面では、ユーザーは百度アプリで「怒った猫を描く」や「何かを描く」などと検索し、文生图の関連機能ページにアクセスすることで、誰でも実際に体験することができます。
画像を見つけることは検索の最初のステップです。 画像処理の分野では、多くのクリエイターはまず、自分のニーズに合った画像を見つける必要があります。そして、その画像をプロフィール写真、素材、あるいは作品に利用するかもしれません。 そのため、インペインティングやアウトペインティングといった編集プロセスが生成プロセスに組み込まれています例えば、画像に帽子をかぶった猫が写っている場合、自然言語によるインタラクションを通して猫を犬に置き換えることで、画像の再利用性を高めることができます。 この処理には通常、画像編集用のテキストベースの画像に基づいた大規模な事前学習済みモデルが使用されます。
全体として、プロセスは、最初の画像の検索から「画像の検索」と「画像の生成」の組み合わせへと進化し、その後、画像の分野におけるユーザーのニーズを満たすために画像の目的に焦点を当てた第 2 段階へと進化しました。


オタクトーク

03

文生イメージの実践と課題

質問

これは非常に興味深い応用シナリオですね。例えば、PowerPointプレゼンテーションを作成する際に、クライアントが特定の業界の製品や写真を使用しているなど、想定するシナリオに合う画像を探す必要があることがよくあります。しかし、著作権を侵害したり、画像の出所をめぐる紛争に巻き込まれたりするのは避けたいものです。このような場合、画像を検索した上で、インペインティング修正、境界線補完、さらには超解像処理を実行できる機能は、実は非常に実用的な応用です。

外部の方から見ると、私たちがサポートしているのは画像生成と編集の基本的な機能、つまり生成、簡単な編集、枠線の拡張、高解像度画像の完成といった機能だけだと思われるかもしれません。しかし、私の理解では、この技術は中国の文脈では非常に難しいものです。特に中国の文化や意味のシナリオを考慮すると、ほとんどのモデルは通常、英語ベースの環境で学習され、元のコーパスも主に英語です。しかし、中国の検索エンジン分野の巨人である百度は、中国語と英語の両方、さらにはいくつかの方言を扱う必要があります。この課題にどのように対処しているのでしょうか?

天宝 中国最大の検索エンジンである百度は、中国語特有の要素、慣用表現、方言など、中国語の理解において大きな優位性を持っています。 モデルが中国語をより深く理解できるようにするには、中国語の意味に関連するコーパスの準備とクレンジングが不可欠なステップであることは明らかです。
私たちは、インターネット全体で最も包括的な中国語コーパスにアクセスできるという、検索分野における自然な優位性を有しています。しかし、モデル全体のセマンティクスをより深く理解するためには、サンプルのクリーニング、より包括的な知識カバレッジの達成、そしてより多様で高品質なサンプルの取得も必要です。さらに、モデルが高品質の画像を生成できるようにするには、画像品質と美的要素、例えば画像内の物体の特徴的な特徴やその美的スタイルの正確な表現を考慮する必要があります。さらに、重複排除も必要であり、これらすべてに基本的なオペレータ機能のサポートが不可欠です。
したがって、画像クリーニングにおいては、基本的なオペレータの基盤となるインフラストラクチャの構築も重要なタスクです。Baiduは長年にわたり、画像の基礎レベルでの特性評価の経験を積んできました。そのため、データの優位性を活かし、様々なモデルの目的に合わせてサンプルを迅速に整理・フィルタリングすることができます。例えば、より優れたセマンティックサンプルが必要な場合は、サンプルのバランスを取り、肖像画や特定のIPコンセプトなど、品質や美的レベルの異なるサンプルを蓄積する必要があります。これらのサンプルから迅速に学習し、モデルに適用します。

質問

大規模画像生成モデルでは、学習段階では高品質なデータセットを準備し、強固な基盤を構築する必要があります。一方で、ユーザーはモデルを使用する際に、多種多様な複雑な説明をする可能性があります。例えば、カップを説明する際に、ユーザーは「背が高い」「透明」「青い」「コオロギが入っている」など、多くの形容詞を追加する可能性があり、標準モデルでサポートされているトークン長を超える可能性があります。特に中国語の文脈では、ユーザーの説明はさらに長くなる可能性があります。例えば、先ほどおっしゃった「猫が帽子をかぶり、山頂に立っていて、北西の風が吹き、背後に雪が降っている」といった説明です。このような場合、多数の形容詞や形容詞を含む画像の処理は難しいでしょうか?

TianBao : 素晴らしい質問ですね。 画像とテキストのペアリングの質は非常に重要です。 現在、主な焦点となっているのはオープンソースのLaion-5bです。これは50億サンプルの英語モデルで、主に英語のデータセットに基づいており、中国語のデータは比較的少ないです。しかし、このデータセットには、おそらく背景ノイズの影響で、関連性のない画像とテキストのペアも多数含まれています。そのため、関連性モデリングアルゴリズムを用いて、これらの関連性のないペアを除外する必要があります。
Laion-5bのような中国語を含むデータセットの場合、比較的迅速な方法としては英語から中国語への翻訳が挙げられます。しかし、この方法は、特に中国語と英語の表現間で多くの言語的曖昧性や、中国語特有の意味的特徴をもたらす可能性があります。例えば、「transformer(変成器)」を中国語に翻訳すると「変形」(biànshì)となる可能性があり、アバターを指す場合は英語で「阿凡达」(āfándá)となる可能性があります。これらの状況は、中国語コーパスの構築が不十分であり、中国語の理解能力が不十分であることに起因しています。前述の画像とテキストの関連性に関する問題については、低品質の画像とテキストのペアをフィルタリングするには、従来のCLIPScoreと同様の手法を用いて画像とテキストの関連性を測定する必要があります。
もう一つの方向性は、高品質なデータセットの構築です。 結局のところ、画像は数百語で詳細に説明できますが、インターネット上ではそのような詳細な説明は比較的稀です。現在のインターネット上の説明は通常、数十個かそれ以下のタグしか含まれていない簡潔なものです。したがって、高品質なデータセットを構築するには、高品質な画像と、それを補完する力強くニュアンス豊かなテキストによる説明を組み合わせる必要があります。人々は画像の主題や雰囲気を説明することが多いですが、背景、オブジェクトの数、基本的なエンティティの説明を見落としてしまう可能性があります。したがって、画像とテキストの理解を適切に整合させることは、テキストベースの画像を構築する上で非常に重要です。
したがって、高品質なサンプルを提供するという課題に対しては、キャプション生成モデルなど、画像生成タスクに適したモデルが必要になる可能性があります。Baiduはこの分野で一定の経験を積んでおり、低品質のサンプルを除去し、価値の高いサンプルを構築するなど、画像とテキストのアライメントにはこれらの機能が不可欠です。

オタクトーク

04

画像の美的魅力の評価

質問

確かに、このプロセスの複雑さは想像以上に大きいですね。先ほど、低品質の画像を削除し、高品質の画像を残すことの重要性についておっしゃいましたが、低値や高値というのは画像の品質のことを指しているのでしょうか?画像を生成する際に、猫を作りたい場合、まず猫であること、そして美的感覚に合致していることが条件となります。猫の形、というか犬の形に合致している必要があり、美的感覚は非常に主観的な問題です。例えば猫でも、丸くてふっくらとして毛が豊かな猫が好きな人もいれば、ボールのような形が良いと考える人もいます。しかし、猫は猫らしく、頭、足、首といった猫の特徴がはっきりとしているべきだと考える人もいます。この場合、百度は猫の見た目はどうあるべきかという問題にどのように対処しているのでしょうか?

天宝 先ほども申し上げたように、美意識は主観的な認識であり、人によって異なります。美に対する理解は人それぞれ異なるかもしれません。しかし、私たちは、大多数の人々の美的理解に基づいた、美学の定義をいくつか提示したいと考えています。
例えば、美学の定義には、画像の構成、写真全体の構造、彩度、コントラスト、全体的な配色といった色の適用、そして写真スタジオの照明設定といった光の感覚、そして様々なシーンに適した最適な照明の作り方などが含まれます。視覚的な色の定義に加えて、画像の内容も美学を反映します。例えば、コンテンツの豊かさや物語性といった要素です。これらはすべて、画像内のコンテンツによって構成されます。したがって、これらの要素は、より普遍的な美学の基準を形成します。
私たちはこれらの美的基準を遵守し、独自の美的理解を構築しています。これらの高度な基準は、モデル構築全体とアルゴリズムの最適化の両方において、ガイダンスと評価に活用されています。 美的要素に加えて、画像の鮮明さも全体的な質感に影響を与えます。 同時に、コンテンツの一貫性も非常に重要です。例えば、 猫が3本足の場合、コンテンツの一貫性の欠如は欠陥につながり、画像の使いやすさと美的要素に間接的な影響を与えます。

質問

先ほどコンテンツの一貫性についてお話されましたが、この概念について詳しく説明していただけますか?

天宝 コンテンツの一貫性とは、大まかに言って、コンテンツの品質または使いやすさを指します。 例えば、手が描かれているにもかかわらず、その手が変形していたり​​歪んでいたりする場合、それは私たちが通常抱いている「手」の概念とは合致しません。これは手の物理的な表現に不一致をもたらし、品質の問題とみなすことができます。


オタクトーク

05

文勝図プロンプトプロジェクト

質問

シナリオや用途によって、美的要件は異なります。帽子とサングラスをかけた猫を例に挙げると、ユーザーは日本のコミックやアメリカのコミックなど、視覚体験が大きく異なる異なるスタイルのコミックを生成したいと考えるかもしれません。アメリカのコミックは通常、色彩豊かで輪郭がはっきりしていますが、日本のコミックは主に白黒で、視覚的なインパクトが強いです。Baiduはどのようにしてユーザーのプロンプトから関連情報を取得し、コンテンツの一貫性を保ちながら、異なるアートスタイルの生成をサポートしているのでしょうか?

天宝 テキスト画像生成の現在の応用シナリオを見てみましょう。現在主流のインタラクティブな手法では、漫画風や水彩画風など、明確に定義されたスタイルの選択肢が提供されることが多いです。しかし、ユーザーを過度に制限すべきではありません。例えば、サイバーパンク風の猫を生成したい場合、漫画風ではニーズを満たせません。つまり、 ユーザーは生成された画像に表示される猫などのコンテンツだけでなく、希望するスタイルも表現できるということです。 そのため、百度検索はコンテンツとスタイルの両面でユーザーの多様なニーズに応える必要があります。

Baidu 検索は現在、数千種類の画像スタイル定義をサポートしています。 例えば、猫を水墨画や漫画、アルミ製の工芸品や彫刻など、様々な素材を使って表現できます。 さらに、モーションブラー、タイムラプス効果、魚眼レンズや広角ビューなど、様々な視点を選択することもできます。 幅広いスタイルとカテゴリーをカバーしているため、より具体的なスタイル要件がある場合は、プロンプトに該当するスタイルを入力するだけで、期待通りのスタイルを持つ画像を取得できます。

質問

スタイルオーバーレイについてもう一つ質問があります。この操作はサポートされていますか?例えば、魚眼広角レンズと伝統的な中国の水墨画スタイルを同時に画像に適用することはできますか?一方はアートスタイル、もう一方は遠近法に関するものなので、伝統的な中国の水墨画スタイルと漫画スタイルを組み合わせたい場合もサポートされますか?

TianBaoモデルの観点から言えば、複数のスタイルをサポートすることは実現可能です。新しいスタイルのアイデアが生まれる可能性があるからです。しかし、私たちが直面しているもう一つの課題は、コンテンツの一貫性を維持しながら、複数のスタイルを効果的に統合・調整することです。異なるスタイル間の違いは大きい場合があり、相互に制約が生じることもありますが、これによりユーザーにはより多くの実験と探求の機会が与えられ、様々なスタイルの組み合わせを試すことで、より広い創造空間を実現できるようになります。

質問

最終的な主題を表現するために複数のスタイルキーワードがある場合、最終的な画像とキーワードの位置はどの程度関連しているでしょうか?例えば、水墨画風と漫画風の猫と、漫画風と水墨画風の猫は、同じ効果を生み出すでしょうか?

TianBao : これは先ほど述べた制御可能性と関係があります。猫の例のように、最も基本的なレベルでは、生成されるコンテンツ、特にスタイルをどのように制御するかに関係しています。実際、制御可能性は全体的なプロンプトスタイルに関連しています。なぜなら、異なるプロンプトスタイルは異なる結果をもたらす可能性があるからです。2つの異なるスタイルを並べて入力するなど、簡潔なプロンプトを提供する人もいれば、シーンの説明、特定のスタイルの指定、生成における特定のスタイルの重み付けなど、より詳細なプロンプトを好む人もいます。これらはすべて、生成されるコンテンツの生成方法に影響を与える可能性のある、異なるプロンプトスタイルです。
この制御性に関して、現在の秩序にはいくつかの偏りがあります。 例えば、安定拡散プロンプトシステムもこの点に触れており、プロンプトの書き方、先頭に置くべきか末尾に置くべきかといった問題があります。本質的には制御性の問題であり、理想的にはそのような偏りがあってはなりません。 もちろん、最も理想的な状況は、ユーザーが頭の中にあるイメージをより正確に表現できるように誘導できることです。

質問

Baiduは数千ものスタイルをサポートしているとおっしゃっていましたが、これらの数千ものスタイルは手動で選ばれたのでしょうか、それともモデルクラスタリングによって自動生成されたのでしょうか?ユーザーにとって、これほど多くのスタイルから選べると、最初は圧倒されて選ぶのが難しくなるかもしれません。

TianBaoスタイルについてですが、先ほど申し上げたように、私たちはインターネット全体のコンテンツについて非常に幅広い認識を持っているため、ネットワーク全体に存在する様々なスタイルデータを認識することができます。次に、画像に対する理解にも頼っています。集約アルゴリズムであれ、スタイルの美学の説明であれ、まずデータが必要であり、その後、データのフィルタリングと認識機能によって、これらのスタイルが自然に提示されます。 これが私たちがスタイルを定義する方法です。
前述の通り、現在数千種類のスタイルをサポートしていますが、ユーザーがそれらに慣れるにはまだ時間がかかるかもしれません。それぞれのスタイルは、アート志向のユーザーにとって大きな驚きとなる可能性があります。 例えば、私たちが見慣れているものとは大きく異なり、強い視覚的インパクトを持つスタイルもあります。 そのため、既存のスタイルをユーザーに適切に伝え、理解してもらい、ニーズに合わせてクリエイティブな作品に適用できるようにするには、製品全体と技術全体のガイダンスが必要です。

質問

おっしゃる通り、アートスタイルは数千種類あります。プロではない人や美術学生でも、スケッチや水墨画など、1つか2つのスタイルしか知らない人がほとんどです。実際には、これほど多くの異なるスタイルを深く理解し、優れたプロンプトを書ける人はごくわずかです。では、ユーザーがプロンプトの書き方にあまり慣れていない場合はどうすればよいでしょうか?例えば、初めてBaiduを使うユーザーは、誰かに教えられない限り、Baiduが数千ものスタイルをサポートしていることに気づかないかもしれません。このような場合、どのように対応し、Baiduの様々なスタイルや書き込める他のプロンプトについてもっと学んでもらうように導いていくべきでしょうか?

TianBao芸術的なスタイルや創造性について言えば、「旅の途中」というキーワードがよく出てきます。これは、想像力をゼロから刺激していくプロセスを説明するのに良い例です。運用とプロモーションの初期段階では、一部のリソースはプロンプトの最適化があまり行われていませんでした。多くの場合、「犬」のような比較的シンプルなプロンプトが提供されていました。しかし、これはディスココミュニティを基盤としており、すべてのユーザーが参加できるものでした。毛むくじゃらの犬を表現するプロンプトに変更しようとするユーザーもいれば、レーザーアイを持つ犬のようなSFテーマを好むユーザーもいました。継続的な実験を通して、異なるプロンプトの方がより魅力的で興味深い効果を生み出すことができることを発見しました。これは相互学習につながり、他のユーザーがどのようにコンテンツを生成し、どのようにプロンプ​​トを設定し、それがどのような効果を生み出すかを観察することで、プロンプトの最適化が徐々に普及していきました。これは、Baidu SearchやWenshengtuを含む業界全体に共通する課題です。
平均的なユーザーにとって、テキストベースの画像を作成するというシナリオは比較的馴染みのないものです。初めてのユーザーの場合、猫や犬を描こうとすることが多いため、比較的シンプルなユーザー環境でより良い結果を得るにはどうすればよいかという疑問が生じます。
これには、プロンプトの拡張または書き換えが含まれます。2 つのアプローチがあります。1 つは、コンテンツの充実やストーリー性の追加と同様に、画像のコンテンツを拡張することです。たとえば、前述のように、帽子をかぶって怒っているジェスチャーをしている犬を追加すると、画像がより具体的になります。これは基本的に、プロンプトの最適化が行うことです。同様に、スタイルを拡張できます。このコンテンツに対してほとんどの人が好むスタイルを理解し、このプロンプトを使用してより多くのスタイルに拡張することができます。前述のコンテンツとスタイルの多様化により、画像のコンテンツの豊かさ、ストーリーテリング、スタイルと美観を大幅に最適化できます。したがって、これは、シンプルで表現力豊かなプロンプト入力を、最適化を通じてモデルのパフォーマンスが向上する一連のプロンプトに変換する方法を伴います。

質問

より具体的な問題について議論が必要です。それは、プロンプトの書き換えに関するものです。例えば、プロンプトを犬の説明から、帽子をかぶって怒って身振りをしている犬の描写に変更する場合、ユーザーは書き換えられた部分を実際に見ることはできません。書き換えが毎回同じになるように保証できるでしょうか、それとも毎回少しずつ内容が異なってもよいのでしょうか?例えば、1回目は帽子をかぶった犬、2回目は眼鏡をかけてビーチに横たわっている犬といった具合です。このプロセスはランダムなのでしょうか、それとも毎回固定されているのでしょうか?

TianBao :プロンプトの書き換えに関しては、ユーザーにより多様で豊富な結果を提供したいと考えています。例えば、犬を例に挙げると、対象は犬であり、品種は様々かもしれませんが、服装や登場シーンは様々かもしれません。これにより、人によって結果が異なり、期待値も高まります。そのため、モデルレベルでは、プロンプトの書き換えと最適化を通じて、より多様な選択肢を提供できるようになり、実際のユーザーからのフィードバックに基づいて、ユーザーがどのようなスタイルやタイプのコンテンツシナリオに興味を持っているかを把握し、より高い事後フィードバックを得られるようになることを期待しています。これは、プロンプト書き換えモデル全体に​​データドリブンな効果をもたらすでしょう。


オタクトーク

06

フィードバックと評価

質問

先ほど、モデルを反復的に改良するためにユーザーからのフィードバックを収集し、書き換えるプロセスについて触れました。これはRLHF(Reinforcement Learning from Human Feedback)と呼ばれるプロセスです。ここでの最大の課題は、人間のフィードバックは不安定だということです。なぜなら、主観的な意見は人によって大きく異なるからです。人間のフィードバックに頼ってモデルを反復改良するのは非常に困難です。さらに、モデルの評価に関して、Baiduはどのようにしてバランスを取り、画像生成プロセスを評価しているのでしょうか?

TianBao事後フィードバックに関してまず考慮すべき点は、フィードバックデータが真に人間の事後フィードバックを反映しているかどうかです。そのため、フィードバックの質に対する要求はより高くなります。 したがって、この点を製品設計全体やユーザーインタラクションと統合することで、より肯定的なユーザー行動フィードバックを収集することができます。例えば、ユーザーが何かに興味を持った場合、画像をクリックして拡大表示し、その後ダウンロードなどのアクションを実行する可能性があります。これらはすべて肯定的なフィードバックです。ユーザーが画像に「いいね!」やコメントを付けることも、直接的なフィードバックとなります。こうしたフィードバックはユーザーの好みを真に反映するものであるため、フィードバックシステム全体を通してより効果的に収集することを目指しています。曖昧なフィードバックについては、より代表的なデータを集めるためには、より大きなサンプルサイズが必要です。

質問

従来、従来の統計的機械学習と標準的な深層学習モデルはどちらも教師あり学習が主流であり、F1スコア、IQZ、VCRなどの指標を計算するにはサンプルや教師データが必要でした。しかし、GPTシリーズやDall-Eなどの生成モデルの場合、生成と評価に使用できる標準的なベンチマークデータセットが存在しません。一方、生成モデルは、人手による観察に頼るよりも効率的な評価手法を必要とします。この分野において、人手による観察に頼るよりも効率的な評価方法はあるのでしょうか?

TianBaoより効率的な手法は、実際には人間と機械の連携をより多く必要とします。先ほど述べた画像評価のように、いくつかの予備的な機械指標を通してこれを観察することができます。
全体的な関連性や美的品質に焦点を当てる場合、特定の機械指標を用いて画像を特徴付けることができます。 しかし、2つの画像の違いを正確に評価する必要がある場合、これらの機械指標はあまり意味をなさない可能性があり、人間の判断がより重要になります。 前述の予備的な機械評価は、人間による初期スクリーニングを支援し、人間による評価の労力をいくらか削減します。

オタクトーク

07

将来の展望

質問

さて、少し先の未来を見ていきましょう。とはいえ、それほど遠い未来の話ではありません。最近、多くのスタートアップ企業や関連企業がこの分野に進出しているのを目にしています。アニメーションを例に挙げましょう。アニメーションとは、基本的に複数のフレームの画像を重ね合わせることです。通常、アニメーション映画は1秒あたり24フレームまたは16フレームで再生されます。静止画の編集にとどまらず、AIGC分野では、3秒、7秒、8秒といった短い動画や短い動画の生成といった技術開発が継続的に進められています。Runwayチームは以前、テキストベースの画像を使った動画生成のコンテストを開催しました。AIによって完全に生成された映画や映画が登場するまで、どれくらいの時間がかかるとお考えですか?

TianBao画像生成について簡単に振り返ると、2022年初頭は特に理想的な結果ではありませんでしたが、2022年7月から8月にかけて、全体的に実現可能性が高まりました。技術動向を踏まえると、アニメーション画像や動画の生成は、近い将来、急速な技術進歩が見込まれます。動画生成に関しては、制御生成に基づく手法や、Runwayのような短いクリップを生成する手法など、近年多くの研究が行われています。短いクリップの場合、最後のフレームを次のセグメントの最初のフレームとして使用することで、より一貫性のある長い動画を実現しています。しかし、 動画生成は空間的な効果だけでなく時間的な一貫性も確保する必要があり、新たな次元を導入し、より高い技術基準を要求するため、より大きな課題に直面しています。動画生成の継続的な研究により、今後1~2年以内にStable Diffusionのような革命的な瞬間が起こると予想されます。