ソケッツ開発の同期歌詞情報自動生成システム デモンストレーションを取材
――本日は6月5日に発表された歌詞同期技術を実際に我々の目の前でデモンストレーションしていただけるということで参りました。宜しくお願いいたします。
今から同期歌詞の自動生成の技術について解説をします。
同期歌詞とは歌詞を楽曲の再生タイミングに合わせて表示させる技術の事を指します。カラオケのディスプレーで楽曲に合わせて歌詞の色が変わったりするサービスをイメージしていただけるといいかと思います。
従来まではこれを実現するためには、実際に楽曲を聞いて歌詞の出現する場所を時間に置き換えて入力するという大変手がかかる作業により実現していました。ソケッツではこれを最新の音響解析技術と独自開発のAIにより自動化することを可能にしました。
実際に生成する過程を見ていただきたいと思います。
本日はわかりやすくするためにリアルタイムで生成してみます。生成対象の楽曲は本日ミュージックマンネットさんでご用意いただいた楽曲を使って行っていきます。
生成プロセスは大きく分けて4つになります。
まず楽曲を音響解析しボーカル、つまり歌詞にあたる文字列を抜き出します。次に上記で抜き出した文字列に楽曲の出現位置にあたる時間情報を付与します。そのうえで同期歌詞として見やすいように歌唱が休みの部分、たとえば間奏や適歌詞の区切りとなる改行位置を独自のAI技術で調整します。そのうえで歌詞データとのマッチングを行います。
この歌詞データは当社が歌詞専門作成会社に入力を依頼して作成しているデータとなります。
まずはご用意いただいた楽曲を音響解析エンジンにかけボーカルを分離して歌詞の元となる文字列を抜き出します。
通常の楽曲からボーカルにあたる部分が分離されたのを確認いただけるかと思います。この分離されたボーカルの音声信号をいくつかのプロセスを介して文字化します。この段階では文字のかたまりであり時間情報を持っていません。
次のプロセスで文字のかたまりの特徴的な部分を見つけ出し楽曲と同期させるための文字のかたまりに時間情報を付与します。
この技術はこれまでソケッツが多くの歌詞を分析してきた学習データと独自開発のAIを利用します。
ここまででほぼ楽曲と歌詞、ここでは文字のかたまりの同期は出来たことになりますが、この段階では改行位置や歌詞の区切り、たとえばAメロやサビのかたまりなどが表現されていません。
そこで次のプロセスとして適度な位置で改行もしくは空行を自動的に挿入します。
この改行や空行の挿入を自動で行う技術は音響解析技術で得たビート、小節情報や歌唱の休符位置などを分析して行います。また表示するデバイスの画面の大きさに合わせ、1行の適正文字数を重視した改行位置もダイナミックに生成することが出来ます。
ここまでのプロセスで楽曲ファイルから生成した同期歌詞としてのデータは完成したことになりますが、最後のプロセスとしてさきほど申し上げた当社が歌詞専門作成会社に入力を依頼して作成しているデータマッチングを行い完成となります。それらの過程で、文字化けなどが起こった場合、文字化け補正を学習データから行うこととなります。
本日はミュージックマンネットさんでお持ち頂いた楽曲を使いましたが、ソケッツの同期歌詞自動生成の技術では商品としてレコーディングされた音源はもとより、例えばライブやイベントの録音データや個人のオリジナル楽曲などからも同期歌詞を生成することが出来ます。
以上、これらのプロセスにより従来難しいとされていた同期歌詞の自動生成の仕組みが完成しました。そしてこの仕組みを活用して同期歌詞のみならずたとえばカラオケデータの自動生成など、応用範囲を広げていきたいと考えています。
またこの仕組み上の独自音響解析技術による音声情報と演奏情報の分離は日本語と英語までを対応しているので、世界市場に向けて今後提案していきたいと考えています。
――本日はありがとうございました。
デモンストレーションを見ての感想は、正直なところデモ環境のせいなのか思ったよりは時間がかかるんだなと感じた。なお、完成した歌詞データ自体の精度まではわからなかった。
また、ソケッツの公式プレスリリースを読んで、音楽ファイルから自動的に歌詞が生成されて出てくるというイメージを持っていたが、実際には音楽ファイルに加え、最終段階で参照すべき正確な歌詞データの準備が事前に必要とのことであった。
つまりこの技術は音楽ファイルのみから歌詞を自動生成するところまでは至っていないということである。
しかしながら、この先現在のものとはまるで違うステージに飛躍的な進化を遂げていくとのこと。今後の展開に注目したい。
(取材・担当:屋代卓也、山浦正彦)