コエステ、個人向けに声を音声合成技術で再現し保存できるサービス提供開始 エイベックスのスタジオで収録する音源から声の特徴を学習

ビジネス

個人向けサービス「デジタルボイス・プレミアム」

エイベックス子会社のコエステは、40年以上にわたる研究開発により培われた音声合成技術をもとに、エイベックスのスタジオで収録する音源から個人の声の特徴を学習し、いつでも音声出力できるようになる「デジタルボイス・プレミアム」を9月8日より提供開始する。価格は50万円+税。

このサービスは、自分の声をさまざまな分野で広く活用したい、もしくは病気などの事由で今の声を残しておきたいと考える個人に向けたもので、収録した音声からその特徴を抽出した声の分身=「コエ」を作成しておくことで、テキストを入力するだけでその人の声色や喋り方を再現した合成音声をいつでも生成することができるようになる。

活用できるシーンは多岐にわたり、たとえば忙しい経営者に代わって本人不在の場でも広く講演やプレゼンテーションを行ったり、創業者の「コエ」で何代にもわたって従業員に新しいメッセージを届けたりできるようになる。また自身の葬儀や大切な人の冠婚葬祭などで、生前の「コエ」でメッセージを送ることや、もし病気や怪我などで声を失っても、自身の「コエ」でリアルタイムにコミュニケーションを取り続けることなどが可能になる。また今後は、SNSメッセージを送信者本人の「コエ」で送ったり、スマートスピーカーの音声を身近な人の「コエ」で出したりなど、各種サービス企業との連携実現を目指している。

音声合成とは、人間の音声を人工的に作り出す音声情報処理の一分野で、昨今IoTの普及などで音声インタフェース(Voice UI)の重要性が高まり、スマートスピーカーの音声や動画のナレーションなど活用される場が急速に広がっている。一般的にはロボットのような無機質な機械音のイメージが大きい音声合成だが、同社が提供する「コエステーション」は、収録音声の音色や抑揚、リズムなどの特徴を合成音声に最適に反映する技術や、統計的な学習に基づく滑らかなパラメーターを生成するコア技術により、人間に近い自然な発話が可能で、その再現性の高さが特徴だ。

今後IoT化が加速し、音声インタフェースを持つサービスやデバイスがさらに広がっていく中、特定の個人や有名人の「コエ」による音声出力へのニーズは高まっていくことが予想される。同社は「コエ」を活用できる可能性のある多方面の分野における各種サービス企業との連携を進めており、同サービスが活用できるシーンはこれからさらに広がっていきそうだ。