HUOXIU

バーチャルシンガー羅天依とAI音声のシンフォニー

出典: Bilibili Technology


2023年7月12日午後7時12分、ビリビリ動画配信サービス「ビリビリ」で20万人以上の視聴者とファンの祝福を受け、世界初の中国バーチャルシンガー、羅天依(ルオ・ティエンイー)が11歳の誕生日を迎えました。温かく癒しを与える歌声に加え、観客とのインタラクションにおける生き生きとした流暢な歌声もファンの注目を集めました。

羅天依はデビュー以来、音声合成エンジンか人間の声優によって制作されてきました。誕生日ライブ配信での非常に流暢なスピーチは、視聴者からAI音声チューニングの高度な技術の証として広く認識されました。しかし、多くの人が知らないのは、今年の誕生日コンサートで羅天依が披露した声は全く新しい手法、つまり人工知能音声技術を用いて作成されたということです。天依を支える「舞台裏チーム」と、彼らがどのようにしてバーチャルシンガーの自然な発声能力の向上を支援したのかを探ってみましょう。



中国初のバーチャルシンガー、羅天依(ルオ・ティエンイー)のユニークで癒し効果のある歌声は、ファンをはじめ広く支持されています。今年、VsingerとビリビリのMing Labは共同で、羅天依のためにカスタムAI音声ライブラリを開発しました。業界標準のAI音声とは異なり、天依のAI音声は、彼女特有の声質を忠実に再現するだけでなく、電子的で機械的な質感と、自然で人間的な質感を巧みに融合させています。この画期的な設計により、天依の個性的な声質は維持され、バーチャルシンガーとしての特性とより調和したAI音声を実現しています。



一般的なAI音声ライブラリの制作プロセスとは異なり、Bilibili Ming Labのソリューションは、自然発生的な人間の声ではなく、テクノロジーによって生成された音声を使用します。そのため、多くの音声カスタマイズソリューションのように、単にデータを収集するだけでカスタマイズすることはできません。

羅天依の音声を得るには、彼女のボーカルライブラリとVocaloidなどの音声合成ソフトウェアを利用し、人間の発話のリズムルールに従って、一般的にイントネーションと呼ばれる音声を手動で抽出することができます。この方法は音色を再現できますが、多くの制限があります。このアプローチには、イントネーション調整の専門知識を持つ高度なスキルを持つ講師が必要であり、それでも自然で流暢な音声を生成することは通常困難であり、大量生産も困難です。

話し声と歌声の音色を高いレベルで維持し、自然で流暢な話し声を実現するために、ビリビリのMing Labは一連の最適化を実施しました。まず、羅天依のボーカルライブラリを徹底的に調査・分析し、カスタマイズされたAI音声モデルを開発しました。このアプローチは、コンテンツの完全性とオーディオの自然さを確保しながら、音色、ピッチ、そして意味情報をより適切に分離します。これらの要素を分離することで、羅天依の独特な歌声特性をより効果的に捉え、彼女の声を高いレベルで再現することが可能になります。

ビリビリのMing Labは、モデルの学習において、羅天依の歌声データベースを主要なデータソースとして使用しました。モデルの汎化性と適応性を高めるため、複数の音色ベースの話し声と歌声データを採用し、モデルが異なる話者間の音色、意味、歌唱スタイルの違いや関係性を学習できるようにしました。これにより、モデルの話し声と歌声の理解と変換能力が向上し、羅天依の歌声を維持しながら、流暢で自然な発話表現が可能になりました。

このシステムは、ビリビリが独自に開発した音声認識モデルを活用し、意味情報を提供するだけでなく、呼吸音などの非意味情報も取り入れることで、効果を高めています。話し声と歌声の音色の高い一貫性を確保すると同時に、イントネーション、スピード、トーンを必要に応じて柔軟に調整できるため、より自然で生き生きとした音声を実現します。さらに、より高品質な洛天依の声を出力するために、2つの異なる識別器を導入し、合成音とターゲット音色の類似性をさらに向上させ、合成音全体の音質を向上させています。



同様に、2023年にBMLとBWで行われた洛天依のオフライン公演でもAI音声ライブラリが使用されました。洛天依に加え、Vsinger所属のバーチャルシンガー、ヤン・ホーも、今年のビリビリ10周年記念ライブ放送中に、ビリビリ明ラボの技術サポートを受け、AI音声によるコミュニケーションでデビューを果たしました。今後、皆様とインタラクトできるコンテンツが増えていくことが期待されます。

羅天依のAI音声を例に挙げると、人工知能(AI)音声技術がバーチャルシンガーにリアルな歌唱力を与える様子を目の当たりにしました。将来的には、AI音声がさらに無限の創作の可能性を解き放ち、聴衆にさらに大きな聴覚的インパクトを与え、より多くの感情と共鳴を呼び起こすようになるかもしれません。


本日のシェアはこれで終了です。ご意見やご質問がありましたら、コメント欄でお気軽にお寄せください。このエピソードが気に入っていただけたら、「いいね!」を押してください!