HUOXIU

デューク大学は、低品質でピクセル化された画像を高解像度の画像に瞬時に変換する AI アルゴリズムを提案しています。


スーパーニューロン


シナリオ説明:ピクセル化されたモザイク状のヘッドショットを高解像度画像に変換するとどうなるでしょうか?デューク大学のAIアルゴリズムは、ピクセル化を除去するだけでなく、シワや髪の毛の1本1本まで正確に検出できます。試してみませんか?


キーワード:低解像度、高解像度 GAN



ハイビジョン画質を追求する時代では、画質の悪さに対する許容度はますます低くなっています。


Zhihu で「低解像度」や「画質が悪い」と検索すると、「低解像度の写真を救済するには」や「画質が悪い写真を保存するには」など、さまざまな質問が表示されます。


では、ピクセル化された低解像度の画像を瞬時に高解像度に変換するとどうなるのでしょうか?デューク大学の研究者がAIアルゴリズムを使って解説します。


GitHub リンク: https://github.com/adamian98/pulse


前例のない「モザイク」が瞬時に高解像度に


デューク大学の研究者は、PULSE (Photo Upsampling via Latent Space Exploration) と呼ばれる AI アルゴリズムを提案しました。


このアルゴリズムは、ぼやけて認識できない顔画像を、これまでよりも洗練されたリアルなディテールを持つコンピューター生成画像に変換できます。


システムは入力された低解像度画像に基づいて、一連の高解像度画像を生成します。


古い方法を使用する場合、ぼやけた顔写真を鮮明にするためにできる最大のことは、写真を元の解像度の 8 倍に拡大することです。


しかし、デューク大学のチームは、わずか数秒で16×16ピクセルの低解像度(LR)画像を64倍に拡大し 1024×1024ピクセルの高解像度(HR)画像に変換できる新しい手法を提案しました。


彼らのAIツールは、元の写真には存在しない特徴を想像」することができます例えばLightroomの元の写真では見えなかった毛穴、小じわ、まつ毛、髪の毛、無精ひげなどのディテールです。アルゴリズムによる処理後、これらのディテールがはっきりと見えるようになります。


具体的な例を見てみましょう。


左の画像は元の低解像度画像、右の画像はシステムによって作成された高解像度画像です。


「これほど少ないピクセル数で、これほど詳細な超解像度画像を作成できたのは、これまでなかった」と、チームを率いたデューク大学のコンピューター科学者、シンシア・ルーディン氏は語った。


実際の応用に関して、共著者のサチット・メノン氏は「これらの研究では、概念実証として顔のみを使用しました」と説明した。


しかし理論的には、この技術は多用途であり、医療や顕微鏡検査から天文学や衛星画像まで、さまざまな分野で画像品質を向上させるために使用できます。


従来の方法から脱却して最適な結果を達成します。


低解像度画像を高解像度に変換する同様の手法はこれまでにも数多く存在したが、64倍というピクセル拡大を実現したのは業界初となる。


従来の方法: ピクセルマッチング、バグが発生しやすい。


従来の方法を使用してこの種の問題に対処する場合、通常は LR 画像を取得した後、必要な追加ピクセル数を「推測」し、以前に処理された HR 画像の対応するピクセルを LR 画像に一致させようとします。


この単純なピクセル マッチングの結果、髪の毛や肌の質感などの領域ではピクセルの不一致が発生します。


さらに、この手法ではHR画像における光感度などの知覚的詳細が考慮されていないため、滑らかさや光感度に問題が生じ、ぼやけた画像や非現実的な画像が生成されます。


以前の方法のいくつかは、いくぶん奇妙な結果を生み出しました。


新しい手法:低解像度画像を繋ぐ


デューク大学のチームが提案した新しい方法は、新たな思考の道を開いたと言える。


PULSEシステムは、LR画像を取得した後、新しい詳細をゆっくりと追加するのではなく、AIによって生成されたHR画像を反復処理し、対応するLR画像と元の画像を比較して、最も近い画像を見つけます。


例えると、 LR 画像で「マッチング ゲーム」をプレイし最も類似した LR バージョンを見つけ、そこから逆方向に作業を進めると、その LR 画像に対応する HR 画像が最終出力になります。


オリジナルのLR画像(上)、PULSEによるHR画像出力(中央)

HR画像に対応するLRチャート(パート2)


研究チームは、同じ写真データセットでトレーニングされた 2 つのニューラル ネットワーク (ジェネレーターとディスクリミネーター) で構成される生成的敵対的ネットワーク (GAN) を使用しました


ジェネレーターはトレーニング済みのシミュレートしてAI 生成の顔を提供し、一方、ディスクリミネーターは出力を受け取り、それが人を騙すのに十分リアルかどうかを判断します。


ジェネレーターが経験を積み重ねるにつれて、ジェネレーターはどんどん改良され、最終的には識別器が違いを区別できなくなります。


彼らは実際の画像を使用して実験を行い、その結果が以下の画像に示されています。


上の行は実際の画像を示し、真ん中の行は実際の画像からダウンサンプリングされた LR 画像を示しています。

下の行は、LR 画像から PULSE によって生成された HR 画像を示しています。


生成された高解像度の画像は元の画像とは多少異なりますが、以前の方法よりもはるかに鮮明です。


評価: 他の方法よりも優れており、スコアは実際の写真に近いです。


研究チームは、有名な高解像度の顔データセット CelebA HQ でアルゴリズムを評価し、64 倍、32 倍、8 倍のスケーリング係数で実験を行いました。


研究者たちは、PULSEと他の5つのスケーリング手法を用いて生成された1,440枚の画像のうち1枚を40人に1~5の評価で評価してもらいました。PULSEは最も優れた結果を示し、実際の高品質な写真とほぼ同等のスコアを獲得しました。


HR は実際の高解像度の人物ポートレート データセットであり、そのスコアは PULSE よりわずか 0.14 高いだけです。


チームメンバーによると、PULSEは、ノイズが多く低品質な入力画像からでも、目や口さえ判別できないほど粗悪な画像であっても、リアルな画像を作成できるという。これは他の手法では不可能なことだ。


他の方法と比較して、 PULSE は詳細をよりリアルにレンダリングします。


しかし、このシステムはまだ本人確認には利用できない。研究者らは、「防犯カメラで撮影されたピンボケで認識できない写真を、実在する人物の鮮明な画像に変換することはできません。実在しないのに非常にリアルに見える新しい顔を生成するだけです」と述べている。


具体的な応用分野としては、前述の医療や天文学への応用に加え、一般の人々にとってこの最先端技術は、何年も前の高解像度写真を再現できることを意味します。編集者にとっては、高解像度画像を探す手間が省けるため、大きなメリットとなります。


「ひどい画質」とはおさらばです!


お知らせ:研究者らは、現在開催中のCVPR 2020(コンピュータビジョンとパターン認識に関する会議)でもこの手法を発表する予定ですので、どうぞお楽しみに。


http://cvpr2020.thecvf.com/program/tutorials


論文の宛先:

https://arxiv.org/pdf/2003.03808.pdf


参考文献:

https://www.sciencedaily.com/releases/2020/06/200612111409.htm