HUOXIU

ビリビリのヒット曲「ダメ男」は顔の交換がテーマで、5分で覚えられます。


スーパーニューロン


概要: AIによる顔交換技術は絶えず進化を続けており、世代を重ねるごとに進化を続けています。最近では、NeurIPs 2019で発表されたAIによる顔交換のための一次モーションモデルが人気を集めており、その表情変換効果は同分野の他の手法を凌駕しています。この技術は最近、Bilibiliで新たなトレンドを巻き起こしました…


キーワード:画像アニメーション表現転写



最近、 Bilibiliでは非常に「陽気な」スタイル(面白くて夢中にさせるものを意味する Bilibili のスラング)のビデオの波が出現し、視聴回数が数百万回に達することもあり、かなり人気になっています。


高度なスキルを持つコンテンツクリエイターが、 「一次モーションモデル」 AI 顔交換プロジェクトを使用して、さまざまなユニークで風変わりなビデオを生成しました。


例えば、ジャッキー・チュン、杜甫、唐三蔵、パンダの頭の絵文字を使って「ダメダネ」や「Unravel」を感情豊かに歌わせるなど…そのシーンはこんな感じでした。



GIF を見るだけでは物足りない場合は、すぐにビデオを見てみましょう。


キャッチーな曲「ダメ男」の涙猫バージョン。

現在までに211万3000回視聴されている。

出典:ビリビリUpマスター、太い髪の胡チュチュ


ちょっと中毒性があると言わざるを得ません... Bilibiliで他の作品を検索して視聴することもできます。


これらの動画は、数え切れないほどのネットユーザーを刺激し、チュートリアルを求めるコメントを残しました。次に、この顔交換効果を実現する技術(諸悪の根源)である一次モーションモデルについて学びましょう。


Bilibili(Bilibiliは中国の動画共有サイトです)では、リップシンクに関するチュートリアルが複数提供されています。


現在までに、同様の顔交換やリップシンクの技術が次々と登場し、それぞれが顔交換ブームの波を巻き起こしてきました。


一次モーション モデルは、顔の特徴や唇の動きを最適化する際に優れたパフォーマンスを発揮し、学習が容易で、実装が効率的であるため、人気があります。


Bilibiliのコンテンツクリエイターはすでに多くのチュートリアルをアップロードしています。


例えば、記事冒頭の「ダメ男」動画の顔を入れ替えるだけなら、ほんの数十秒しかかからず、5分もあれば習得できます。


Bilibili(中国の動画共有サイト)のコンテンツクリエイターの多くは、チュートリアルにGoogle DriveとColabを使用しています。VPNへのアクセスの難しさを考慮し、これらのクリエイターの一人が作成した、国産の機械学習コンピューティングコンテナサービス( https://openbayes.com )を使用したチュートリアルを選択しました。現在、無料のvGPUが提供されており、週単位での利用時間が提供されているため、チュートリアルを簡単に完了できます。


5分もかからずに自分だけの「ダメダネ」が完成します。


このチュートリアル動画では、ステップバイステップで解説しているので初心者でも簡単にフェイススワッピングのテクニックを習得できます。アップローダーにはノートブックも付属しています。  プラットフォームにアップロードされているので、ワンクリックでクローンを作成し、直接使用できます。


しかし、多くの技術系コンテンツ制作者は、動画制作は娯楽目的であると同時に技術交流の場でもあるため、悪意を持って悪用されないことを望んでいると述べている。



上記のビデオチュートリアルは、次の場所にあります。

https://openbayes.com/console/openbayes/public/containers/BwZQj5wr3Jp


元のプロジェクトのGitHubアドレス:

https://github.com/AliaksandrSiarohin/first-order-model


もう一つの顔交換アプリですが、何がそんなに便利なのでしょうか?


一次モーション モデルは、イタリアのトレント大学と Snap 社が共同で執筆し、トップ カンファレンス NeurlPS 2019 で発表された「イメージ アニメーションのための一次モーション モデル」という論文から生まれました。


論文リンク: https://arxiv.org/pdf/2003.00196.pdf


タイトルが示すように、本論文の目的は静止画像に命を吹き込むことです。元画像と運転中のビデオが与えられた場合、元画像内の画像を運転中のビデオ内の動きと同期させて動かすことを目指します。言い換えれば、あらゆるものを動かすことです。


効果は以下の画像に示されています。左上は運転中の映像、残りは元の静止画です。



モデルフレームワークの構成


要約すると、この 1 次モーション モデルのフレームワークは、主にモーション推定モジュールと画像生成モジュールの 2 つのモジュールで構成されます。


動き推定モジュール:自己教師学習により対象物体の外観情報と動き情報を分離し、特徴表現を行います。


画像生成モジュール:このモデルは、ターゲットの移動中に発生する遮蔽をモデル化し、指定された有名人の画像から外観情報を抽出し、それを以前に取得した特徴表現と組み合わせてビデオ合成を実行します。


方法の概要


従来のモデルに比べてどのような利点がありますか?


これが従来のAIによる顔交換手法とどう違うのか疑問に思う人もいるかもしれません。著者はその理由を説明しています。


これまでの顔交換ビデオ操作では、次の手順が必要でした。


  • 通常、顔交換に関与する両者の顔画像データを事前にトレーニングする必要があります。

  • 対応するモデルをトレーニングする前に、ソース イメージ内のキー ポイントに注釈を付ける必要があります。


しかし、現実には個人の顔データは限られており、十分な学習時間も確保できません。そのため、従来のモデルは特定の個人に対しては良好なパフォーマンスを示すものの、一般の人々を対象とした場合の品質保証は難しく、失敗する可能性が高くなります。


以前の方法では、表現の伝達が不正確になることがありました。


したがって、本論文で提案する手法は、データ依存性の問題を解決し、生成効率を大幅に向上させます。表情や動作の転送を実現するには、同じカテゴリの画像データセットのみで学習すれよいことになります。


たとえば、顔の表情の転送を実現するには、誰の顔を使用しているかに関係なく、顔データセットでトレーニングするだけで済みます。また、太極拳の動きの転送を実現するには、太極拳のビデオ データセットでトレーニングできます。


トレーニングが完了したら、対応する事前トレーニング済みモデルを使用して、ソース画像を運転ビデオに合わせて動かすことができます。


同じデータセットにおけるこの手法と他の手法のトレーニングパフォーマンスの比較

2 列目と 3 列目の方法では、人間の動きの伝達に関して偏りが生じる可能性があります。


著者らは、この分野の最先端手法であるX2FaceおよびMonkey-Netと本手法を比較しました。その結果、本手法は同一データセットにおいて全ての指標において性能向上が見られました。また、2つの顔データセット(VoxCelebとNemo)においても、本手法は顔生成用に提案されたX2Faceを大幅に上回りました。