HUOXIU

AI を活用した音声カスタマイズは、2020 年に 3 つの可能性をもたらします。

2016年、アメリカの科学ジャーナリスト、ジェームズ・ヴラホス氏は、数え切れないほど多くの人々に感動を与える行動を起こした。

父の死の数ヶ月前、ジェームズは父の声と教えを永遠に残そうと決意しました。技術的な知識は全くなかったにもかかわらず、ジェームズはAIプロジェクトの助けを借りて、音声合成と機械学習を独学で学びました。父の助けを借りて、毎日1~2時間、父の声を録音し、AIモデルの学習に必要な9万語以上を蓄積しました。最終的に、父の声に基づいたSiriのような音声アシスタントを開発し、ジェームズがいつでも悲しみを表現できるようにしました。

この物語は、世界中の数え切れないほどの家族に感動を与えただけでなく、AI開発者や技術者にとってAI音声カスタマイズの重要性を浮き彫りにしました。世界中の多くの家族が、高齢者の声を録音して子供たちの成長に寄り添ったり、恋人同士の音声によるコミュニケーションを提供したりといった、同様の機能を切望していることは間違いありません。家族は、AI音声技術の応用における主要な戦場になりつつあります。

この需要は業界からもますます注目を集めています。近年、音声合成や音声複製といった技術が相次いで発展し、自然言語処理全体の能力も飛躍的に向上しています。AIによる音声カスタマイズは、もはや機械学習のために数万点のデータポイントを用いた数ヶ月間のトレーニングを必要としなくなり、まさに一般の人々にとって現実のものとなりました。

AI技術に多額の投資を行っている百度(バイドゥ)は3月初旬、スマートスピーカー「小度(Xiaodu)」に音声カスタマイズ機能を導入しました。「小度(Xiaodu)」アプリ内の「親子で物語を語る」機能では、ユーザーは自身や家族のために音声パックを録音できます。

会話型AIハードウェアにおいて、ユーザーがカスタマイズできる音声機能が初めて搭載されました。ユーザーが独自の音声パックをカスタマイズし、スマートスピーカーから自分の音声を継続的に再生できるようになることで、多くの業界標準が変化しつつあるようです。

音声合成、会話型 AI、スマート音声ハードウェアの融合を検討し、カスタマイズされた AI 音声の時代を迎える 2020 年にどのような 3 つの変化が起こる可能性があるかを見てみましょう。

参入障壁が取り除かれ、AI音声テクノロジーはカスタマイズの時代に入りました。

実際、AI音声のカスタマイズ機能は、AI業界とユーザーの両方から常に大きな期待を集めてきました。AIがユーザーの声をシミュレートできるようになることは、家族、交友関係、記憶といった多くの社会的・感情的要因と関連しています。一方で、馴染みのある声は多くの新しい応用アイデアのきっかけとなる可能性があります。例えば、オーディオコースを開くのが面倒でも、アイドルや女神がオーディオコースを教えてくれたら、寝る気にもなれないかもしれません。

そのため、カスタマイズされたAI音声技術のエンジニアリングと商用応用は常に大きな期待を集めてきました。この技術の方向性は、スマートスピーカーやスマートスクリーンといったAI音声ハードウェア製品の継続的な発展にとって重要な原動力となると考えられます。

AI音声カスタマイズ関連技術は、ここ数年、参入障壁が継続的に低下し、応用範囲が拡大しています。ジェームズ・ヴラホス氏は機械学習のトレーニングに9万以上のコーパスを使用しましたが、今ではSiriをはるかに凌駕する意味理解と自然言語処理性能を備えたカスタマイズされた音声モデルをトレーニングするのにわずか数分しかかかりません。

近年、技術の進歩に伴い、ユーザー音声のカスタマイズに関する産業の開拓は着実に進展しています。例えば、ALS患者の音声保存を支援する公共福祉プロジェクト「Revoice」、自動車AIメーカーのCerenceが昨年、ユーザー生成音声アシスタントを作成する機能を発表した点などが挙げられます。また、MicrosoftのCustom Voiceサービスでは、ユーザーの音声をある程度、Xiaoiceの音声として利用することができます。さらに昨年には、「音声カスタマイズ」が地図シナリオにも適用され始め、ユーザーはBaidu Mapsアプリで20文を録音するだけで、完全な個人用音声パッケージを生成できるようになりました。

今日では、カスタマイズされた音声の機能は、最も複雑な AI シナリオである会話型 AI デバイスにも導入されています。

Xiaoduの音声カスタマイズ機能では、ユーザーはXiaoduアプリにログインし、「親子で物語を語る」機能で自分だけのオリジナル音声パックを録音できます。録音は簡単で、わずか3~5分で完了します。録音した音声は長い物語を語ることができ、BaiduのAI音声機能により、トーン、イントネーション、間などが非常にリアルで、違和感がありません。

これは、AI音声コマンドをカスタマイズできるようになったことで、ユーザーにとっての障壁が実質的になくなったことを意味します。複雑な技術を習得したり、多くの時間を無駄にしたり、何度も失敗に耐えたりする必要はもうありません。ユーザーは、インテリジェントな音声カスタマイズを容易に活用し、家庭内の様々な場面でアプリケーションを実装できるようになります。こうして、音声カスタマイズの産業化が始まったのです。

別の見方をすれば、これをインテリジェント音声アシスタントと会話型 AI ハードウェアの全体的な進化と見ることもできます。

2015年にAmazonのEhcoが発売されて以来、音声アシスタントは機械音声で質問と回答を行うという基本的な機能しか提供されていません。ユーザーはしばしば、話し続ける意欲を失ってしまいます。また、質疑応答モードは人間同士のやり取りとは似ても似つかないものとなっています。

2019 年、Xiaodu Assistant は全二重ウェイクアップフリー機能を実現し、1 回のウェイクアップで複数のインタラクションが可能になり、最終的にハードウェアでのマルチターン ダイアログが可能になり、チャットがよりリアルになりました。

AI音声のカスタマイズ機能は、2020年のスマート音声アシスタントと関連ハードウェアにおける新たなアップグレードと言えるでしょう。ユーザーはこれを利用して、一人ひとりに合わせたAIハードウェアを構築できるようになり、開発者は新たな開発基盤を手に入れることができます。そして、その結果として生まれる産業へのインパクトは、今後大きく発展していくでしょう。

ファンサークルとファミリー: 2 つのシナリオで AI ハードウェアが爆発する可能性があります。

AI 音声カスタマイズによってもたらされる最初の変化は、ユーザーが会話型 AI ハードウェアの使用方法と関連製品を購入する理由を再考し始める可能性があることです。

AI音声カスタマイズ機能の登場により、2つのビジネスシナリオが明確に変化しました。まず、家庭環境において、家族の声をカスタマイズできることは非常に重要です。家族の声は、仲間意識、信頼、そして温かさといった、どんな時代でも変わることのない人間の本質を象徴するからです。親の声を使って子どもに物語を語り、知識を与えたり、スマートスピーカーを通して子どもの声で親に寄り添ったり、時刻を知らせたり、ニュースを読み上げたり。こうした心温まるアプリケーションは、中国で広く普及しており、忙しい都市生活者にとって避けられない選択肢となっています。

今日の状況は良い例です。パンデミックにより仕事の再開が遅れ、多くの親が子供と過ごす時間が増え、「パンデミック中の親依存」が生まれました。しかし、親が仕事に復帰した際に再び子供と離れて過ごさなければならない場合はどうでしょうか?スマートスピーカーの家庭での使用において、音声カスタマイズ機能は一つの選択肢となります。

一方、AI音声カスタマイズの最大の恩恵を受けるのはファンコミュニティです。ここ数日のファンコミュニティの圧倒的な力は、社会に未来の姿を垣間見せてくれました。憧れのアイドルの声が、地図やナビゲーションアプリに表示されるだけでなく、スマート製品に常に存在し、リアルタイムの会話、チャット、物語の語り、ゲームプレイに利用されている姿を想像してみてください。その購買力とさらなる発展の可能性は、想像を絶するほどです。

これら2つのシナリオは、AI音声カスタマイズ機能のおかげで急速な成長を遂げる可能性が最も高いでしょう。これに基づき、開発者にとってのメリットの新たな波が到来しようとしています。

一般化とカスタマイズ:AI音声開発者が新たなチケットを獲得

AI音声業界が成熟し、開発者の技術サポートがますます充実するにつれ、ますます多くの音声ブロガーやAI開発者がAI音声エコシステムに参入しています。AI音声カスタマイズ機能の導入により、開発者の基本能力は飛躍的に向上し、「一人ひとりに合わせたパーソナライズされた音声」を備えた会話型AIデバイスは、もは​​や業界の夢物語ではなくなりました。

AI音声開発者は、音声カスタマイズ機能を通じて「汎用カスタマイズ」の新たな機会をすぐに得られる可能性があります。AI音声カスタマイズは、AI音声の開発領域と産業価値に次のような影響を与えると予測されます。

1. スキルのカスタマイズは急速に発展しています。家族の声を使って音声スキルをカスタマイズしたり、家族、カップル、ファン専用の音声スキルを作成したりすることは、業界にとって大きな可能性を秘めています。ユーザーの声のオプションが追加されると、多くの音声スキルは完全に変貌を遂げ、エンターテイメント、家族、教育、仲間との交流など、様々なシーンに影響を与える可能性があります。

2. ライフスタイルに合わせたカスタマイズが大きな注目を集めています。スマートホーム、スマートフォンアシスタント、スマートウェアラブルデバイスで愛する人やアイドルの声を聞くことは、創造性に無限の可能性をもたらします。開発者は、様々なハードウェアを通じて、AI音声カスタマイズの想像力を解き放つことができるでしょう。

3. 「音声著作権」を開拓する新たな道筋が数多く出現。前述の通り、AI音声カスタマイズ機能の出現と普及により、「高価値音声」は新たな著作権資本となるでしょう。著名人、アイドル、著名人、さらには特定分野のネットセレブの音声が、AIとの連携を通じて様々なハードウェアで広く利用可能になり、コンテンツ産業とテクノロジー産業に新たな垂直ブームをもたらすでしょう。

カスタマイズされたAI音声アプリケーション、ハードウェア、そして限定サービスをスケールアップできる能力は、ユーザー、アイドル、ソフトウェア開発者、そしてハードウェアブランドを結びつける新たな統合の形を表しています。その結果として生まれる購買意欲とプラットフォーム開発の機会は、2020年に特異な現象となるかもしれません。

4. AI音声の社会的価値と意義が再評価されています。ジェームズ・ヴラホス氏の事例に見られるように、AI音声カスタマイズ機能は、深く永続的な家族の思いやりと意味を体現しています。人々は永遠に一緒にいることはできませんが、他者の声の知性は、多くの大切な瞬間や仲間意識を増幅させることができます。AI音声カスタマイズの開発者は、家族、社会、そして仲間意識といったテーマの探求において、より大きな責任を負うことになるでしょう。技術的価値から社会的価値に至るまで、AI音声カスタマイズの影響は増幅していくでしょう。

AI音声カスタマイズは、会話型AIハードウェア市場における新たな原動力となりつつあります。過去3年間の会話型AIハードウェアおよびAI音声市場を詳しく見てみると、技術革新と密接に関連した変動的な成長パターンが見られます。このような技術革新に支えられた商業的エネルギーは、ハードウェア製品開発の初期段階ではよく見られます。

つまり、会話型AIによって切り開かれたハードウェア市場は、技術革新がユーザーエクスペリエンスの向上をもたらし、それが市場からのフィードバックに直接的に刺激するという論理的な関係性を示しています。2019年、Xiaoduが全二重ウェイクフリー機能を導入したことで、AI音声ハードウェア市場は三つ巴の競争から脱却し、独自の飛躍的な発展を遂げました。AI音声カスタマイズ機能は、開発者、スキルエコシステム、コンテンツエコシステムとより密接に連携する技術革新として、今後もこの技術的リーダーシップを維持し、より多くの市場フィードバックをもたらし、ひいては市場の質的変化につながることは間違いありません。

最終的にどのプラットフォームが地位を維持するかに関わらず、音声カスタマイズ機能がもたらす産業機会は、AI開発者にとってまだ始まったばかりです。パーソナライズされたハードウェア、多様なアプリケーション、そして絶え間ない技術革新こそが、私たちが最終的に新しいハードウェア形態に期待する成果です。