|
8月3日、世界的なソーシャルメディアおよびテクノロジーの巨人であるMeta(Facebook、Instagramなどの親会社)は、テキストから音楽を生成するモデルであるAudiocraftのオープンソースリリースを発表しました(オープンソースアドレス:https://github.com/facebookresearch/audiocraft)。 Audiocraftは、MusicGen、AudioGen、EnCodecを組み合わせたハイブリッドモデルです。テキストのみを使用して、鳥の鳴き声、車のクラクション、足音などのバックグラウンドオーディオから、より複雑な音楽までを生成できます。ゲーム開発、ソーシャルメディア、ビデオダビングなどのビジネスシナリオに適しています。 MusicGen の論文: https://arxiv.org/abs/2306.05284 AudioGen 論文: https://arxiv.org/abs/2209.15352 高忠実度デコーダー論文: https://arxiv.org/abs/2210.13438 Meta氏は、ChatGPTによって巻き起こった大規模言語モデルのブームは世界中の様々な業界で熱狂的に受け入れられ、テキスト、画像、動画を自動生成するための大規模モデルが数多く開発されていると述べた。しかし、音声分野のモデルは比較的少なく、オープンソースモデルはさらに少なく、音声モデリングは複雑な分野である。 そこで、Meta は長年培ってきた AI テクノロジーとトレーニング データの蓄積を組み合わせて、現在入手可能な最も強力なオープンソース音楽モデルの 1 つである Audiocraft を立ち上げました。 Audiocraftの簡単な紹介 Audiocraft は、MusicGen、AudioGen、EnCodec の 3 つのモデルで構成されています。 MusicGenは、テキストから音楽を生成する自己回帰言語モデルです。約40万件のテキスト記述とメタデータの録音、合計2万時間分のライセンス音楽を用いて学習されています。ロック、ポップ、ヘビーメタル、RPAなどのジャンルの音楽をテキストから自動生成できます。 AudioGenは、テキストから音声を生成するための自己回帰言語モデルです。背景ノイズ、音声、物体からの音を識別するなどの音声分離機能を備えています。これにより、テキストのみから音声を生成する際に、ユーザーが求める音楽に、より正確にマッチさせることができます。 EnCodecは、高品質のオーディオモデルを作成する上で不可欠な、最小限のファイルサイズで元の音楽を可能な限り正確に再現できる、高忠実度のオーディオおよび音楽コンプレッサー/デコンプレッサーです。EnCodecは、エンコーダー、量子化器、デコーダーの3つの主要部分で構成されています。 1) エンコーダは非圧縮データを受け取り、それを高次元、低フレームレートの表現に変換します。2) 量子化器は、エンコーダによって生成された「表現」をターゲットサイズに圧縮しながら、元の信号を再構築するために最も重要な情報を保持します。 3) デコーダーは、圧縮された信号を元の信号に可能な限り近い波形に変換します。低ビットレートでは完全な復元は不可能であるため、生成されるオーディオサンプルの品質を向上させるために、識別器が使用されます。 オーディオクラフトのケーススタディ Metaは、Audiocraftがテキストから様々な音声や音楽を自動生成する能力を実証しています。その品質は、元の音楽とほとんど区別がつかないほどです。以下はその一例です。 サイレンの音とエンジンの轟音が近づいてきて、通り過ぎていった。 |