次世代の音楽体験を実現する空間オーディオの可能性を探る〜ドルビーアトモス7.1.4ch環境のスタジオを建設したCRI・ミドルウェアインタビュー
映像・音声・ファイルシステム・音声認識などの分野でミドルウェアの開発・販売・サポートを行うCRI・ミドルウェアが2月2日、3つのサウンドスタジオ建設を発表。そのうち1つはドルビーアトモス7.1.4chスピーカーを設置した立体音響に対応した仕様になっており、メタバース、AAAのゲームタイトル、映画、そのほか音にこだわった映像作品のMA、ミックス、マスタリングまで行える設備となっているという。今回はスタジオ建設を記念して、スタジオ建設の経緯から空間オーディオの現状と今後について、同社 広報 嶋森由香氏、同社 音響エンジニアリング マネージャー 本間清司氏、同社 取締役CTO 櫻井敦史氏、関連会社のツーファイブ エンジニア ディレクター太田将義氏に話を伺った。
ゲーム開発を縁の下で支えるCRI・ミドルウェア
ーーまずCRI・ミドルウェアさんとはどのような会社なのか、お伺いしたいのですが
嶋森:弊社は、音声や映像を専門としたミドルウェアを開発している会社です。例えばサウンドミドルウェアについて簡単にご説明すると、ゲームにサウンドを組み込むときに便利なツールやソフトのことで、そういった製品を開発しています。ですから、弊社のミドルウェアを使う対象はサウンド制作者さんやゲーム開発者さんが中心になります。
弊社の歴史は長く、1990年から音声・映像に関する研究開発をやっておりまして、セガさんの家庭用ゲーム機「セガサターン」の音声用ミドルウェアを提供してまいりました。そして、2001年に独立し、そこから他のゲーム機やスマートフォン、UnityやUnreal Engineといったゲームエンジン系などにミドルウェアの提供範囲を広げ、今に至っています。
ーー具体的にどのようなソフトを作っているのですか?
嶋森:ゲームのサウンドを組み込むときに使うCRI ADX(以下、ADX)や、特殊なムービー再生を行う際に使うCRI Sofdec、あとは自分の喋った音声を解析して、今話題のメタバースにおける分身であるアバターとのリップシンクを簡単にできるミドルウェアなど提供しています。採用事例としてはアニプレックスさんの「鬼滅の刃 ヒノカミ血風譚」や、アトラスさんの「ペルソナ」シリーズ、またCygamesさんの「ウマ娘 プリティーダービー」にも弊社のミドルウェアが採用されています。
ーー御社のミドルウェアを使うと、ゲームの音を付けやすくなるということですか?
嶋森:そうですね。ゲームの音声は大きく分けてBGMと声優さんのボイスと効果音になるんですが、弊社のミドルウェアを使うとその音付けや調整がとても簡単にできます。プラス、ゲーム機ってSIEさんのPlayStation®5や、任天堂さんのニンテンドーSwitch、そしてスマートフォンなど端末がバラバラで、本来であればその端末に合わせて、全部仕様を変えて音をつけなくてはならないところを、弊社のミドルウェアを使うと、1つのサウンドデータを作り込んだ上で、各ゲーム機向けに変換・出力できるので、ゲーム開発の手間が大幅に削減されます。
ーーそれは便利ですね。
嶋森:ですから、縁の下の力持ちみたいな立場でゲーム開発のお手伝いをさせていただいております。
ーー今回、作られたスタジオの運営は御社のグループ会社であるツーファイブさんが行うそうですが、こちらはどのような業務を行っている会社なのですか?
太田:一言で言えば、ゲームの音響制作会社です。音楽、音声など音周りに関して全てを請け負っており、クライアントさんは基本的にゲームを作ってらっしゃる会社さんになります。今一番多い業務が、声優さんのブッキングを含めたゲームの音声収録、および編集になりますが、その他効果音制作もしますし、楽曲が必要であれば楽曲制作も行っています。
それに対して、録音が必要であれば録音しますし、ミックス、マスタリングまでワンストップで行っています。ゲームに使う音に関して全てを提供する会社です。元々池袋で20年以上営業していたのですが、去年、渋谷にCRIのグループ会社が集結するということで移転してまいりました。
嶋森:実は、スタジオが稼働したのが去年の10月なんですが、設備が完全にできあがったのが年明けでして(笑)、本当にできたてほやほやの状態です。
ーー音楽の提供は会社・ハードの分け隔てなく行われているんですか?
太田:はい。今出ているあらゆるゲームに関してやっています。最近はスマートフォンアプリ向けのものが多いですね。
ーーちなみに御社の扱うミドルウェアに競合はいるんですか?
嶋森:サウンドミドルウェアでいうと、海外にいくつかあります。国内のスマートフォンアプリは声優さんの音声をたくさん使うものが多いのですが、弊社はその音声を圧縮する・容量を小さくすることに関する技術が強みで、そこでご採用いただいていることが多いですね。
太田:最近は中国で作られているゲームも非常に多く、日本の声優さんもたくさん起用されています。そういったゲームにはADXの採用事例が多いですね。
ドルビーアトモスのリファレンス環境の必要性からスタジオ建設
ーーどうして今回ドルビーアトモス環境を備えたスタジオ建設することになったんでしょうか?
太田:弊社のスタジオは立体音響のスタジオであり、もちろんドルビーアトモスに対応したスタジオではあるんですが、音楽に特化しているわけではなくて、どちらかというとゲームがメインになります。ゲームの方も今ドルビーアトモスに対応している作品が増えていますので。
ーーゲームや映画とか増えていますよね。
太田:その中でADXのドルビーアトモス対応を進めているんですが、今まではリファレンスの環境がなかったんですね。ADXの開発チームもスピーカーを工夫して置いたりしてなんとかやっていたようです。でも、やっぱりソフトを作っている側としてリファレンスの環境は必要なんじゃないか?というところから、このドルビーアトモスに対応したスタジオを作ることになったんです。
本間:実は、弊社は2006年にサンフランシスコにアメリカ支社を立ち上げ私もそこからジョインしておりまして、ドルビーはじめ、Apple、Google、facebook、SONYのエンジニアとランチなど通して、いろいろとコミュニケーションをとってきたんですね。ドルビーさんともドルビーアトモス発表前から、オブジェクト・オーディオなどいわゆる没入型の音響というものをゲームの方で実装したいというディスカッションを行なっておりました。その当時、サラウンドは5.1chが世間では認知されていましたが、マーケット的にはアメリカではまだしも、日本の狭い住環境の中で、そんなスピーカーを6つも置いたりできないので、そんなに普及しないのでは? という意見が多くすぐに立体音響のリファレンス環境を作るのが難しかったんです。
ーー確かに当時のサラウンドは「そこまで普及しないのでは?」という予測でしたよね。
本間:弊社でもドルビーアトモス対応を始めた当時、天井にスピーカーを設置するのではなく、地上にあるスピーカーの上に、天井に向けたスピーカーを置いて、みたいなところから始め、いよいよADXがドルビーアトモスに対応してからは、「ゲームのミドルウェアを作っている会社さんには、もっとドルビーの技術を広めてほしい」とドルビーさんからご相談を受けるようになりました。やはり、ADXはゲームのコンテンツを作られる会社さんが使うツールとして、いわゆるゲーム業界のPro Toolsみたいな立ち位置なので、何が本物か判断できる環境が必要なのではないかと考えスタジオを作ることになりました。
イマーシブオーディオのフォーマットはいくつかあり、ドルビーアトモスに関しては、NetflixやAppleさんとかが去年6月に起爆剤となって、世間の認知度を一気に広めたかと思うんですが、弊社はもともと、ゲーム向けにドルビーアトモスやヨーロッパ系でしたらAuro-3D、あとはDTS:Xとかも含めて、あらゆるフォーマットに取り組まなくてはいけないという事情もあったので、スタジオを作るのだったら普通の2chじゃなくて、空間音響対応のスタジオにしようと決めました。
ーーすでにそれだけの需要が見込まれているんですね。
本間:ええ。ちなみに弊社のスタジオは、NetflixやAppleがドルビーアトモスの最低要件としている、スピーカーが天井に4つ、地上に7つという「7.1.4」というレイアウトにしているのですが、今後もしAuro-3DやDTS:Xなど他のフォーマットのニーズが高まってきたら、そちらにも対応できるようなマージンは残してあります。
ーースタジオを作った段階ではドルビーアトモスに合わせたと。
本間:そうです。日本とアメリカで一番需要が大きいドルビーアトモスの「7.1.4」というところに最低限対応させましょうと。もともと音楽向けのドルビーアトモスというのは、収録からバイノーラルで収録するのか、それともマイクをいっぱい立てて収録をするのかとか、すでに2ch向けのトラックをもう一回ドルビーアトモス向けにミックスダウンし直すのか、みたいなところは、他のミュージシャンの方も試行錯誤されている状況です。どの音をどういう風に配置して、オブジェクトをどう動かして、例えばプラグインは何を使ったらいいのかとか、リバーブはかけたらいいのかとか、割と実験的なところはあるので。このスタジオではコンテンツの作り方や、もちろんソフトもそうですが、そういったところの研究開発も加速させられればな、と思っています。
まだ誰も正解がわからないイマーシブミックス
ーーApple MusicやAmazon Musicで空間オーディオを色々聴いてみたんですが、音源によって出来不出来が激しいと感じたので、あるエンジニアの方に伺ったんですよ。そうしたら「まだ人間側の技術が追いついていないんじゃないか?」とおっしゃっていたんですね。つまり2ch録音は歴史があって、色々な手法や技術的なセオリーが蓄積されているけれど、空間オーディオに関しては、どれが正解なのかまだ誰もわかっていないんじゃないかと。
本間:やはりスピーカーが2つのとき、いわゆるステレオ時代というのはある程度、良いものに対して共通の認識が持てたんですが、イマーシブになった途端に空間も含めて正しい音場の認識がまだ統一されていないが故に、今おっしゃったようにクオリティの差が出てくるところはあるかと思います。
技術的に言いますと、人間の鼓膜が震えて、脳が「音の方向」を認識する部分って実は100%解明されていないんですよ。そこに、多大な影響を与えているHRTF(頭部伝達関数)というものがありまして、人間の耳たぶの形とか、人間が音を認識する上で非常に重要な要素なんですが、この特性が1人1人違うんですね。
ソニーさんの360 reality audioとかは、スマホでその人の耳の形を撮影してその人独自のHRTFをダウンロードして、簡単にいうとイコライザーカーブみたいなものなんですが、そのカーブを1人1人出して、それで初めて正しく制作者が意図した音を聴くことができるみたいなことをしているんです。
ーーなるほど…個人差があるわけですね。
本間:そうですね。360度の音を認識する仕組みが1人1人違うがゆえに、作った本人は「これで完璧だろう」と思ったイマーシブミックスが、他の人が聴いたら「なんじゃこれ」という風になったりするのは起こり得ることなんです。ただ、今後はそういったイマーシブミュージックも含めて、7割くらいのリスナーが制作者の意図した音を認識できるような音作りを、今みんなが試行錯誤しているような段階なのかなと私は認識しています。
櫻井:みんながみんな開発段階からリアル7.1.4chとかで聴けていれば、まだ目指す形は見えると思うんですが、全員がその環境をお持ちではないので。結局はスピーカー、ヘッドフォンでバーチャルにサラウンド化したものを聴いてしまうというところが、今、本間が言っていた個人差が出てしまうという一番難しいところかなと思いますね。
本間:特に人の背面方向の表現が非常に難しいんです。今までのバーチャルサラウンドですと、ちょっと位相を誤魔化して、「なんちゃってバーチャルサラウンド」的なやり方をしていたのが、今HRTFの研究が進むにつれて、よりリアルに後ろの方から聞こえるようになっているんですね。ですから、以前は奥行きを出すためにリバーブかけたりイコライザーいじったりとかしていたわけですが、イマーシブミックスでやるときに果たしてリバーブはどこまで使っていいのかとか、それこそ例えばHRTFに最適なものを持ってきて、響きをシミュレートするというか、いろいろ実験をしなければいけないような状況かなと思います。
櫻井:この間、ドルビーさんと話していたときに、ドルビーアトモスという規格で、あらかじめ作り込んでデータ化したものを聴く場合、できればリアルスピーカーで確認してくださいとおっしゃっていました。ヘッドホンで調整するのは非常に難しいとおっしゃっていて、なぜかというとAndroidの機種やiPhoneの機種とかデバイスによっても最後にステレオ化する部分が違う実装になっている可能性があって、全部の端末で必ず同じ音になる保証がないということでした。あるAndroid端末ですごくいい感じに聴こえるように調整したものが、iPhoneで同じように聴こえるとは限らないので、ヘッドホンで調整するのは難しいということですね。
ーーでも現実はヘッドホンで聴くことが多いというか、ほとんどそれしかないんじゃないですか?(笑)
櫻井:そうなんですよね(笑)。良い悪いと感じるところというのは、個人差だけじゃなくて端末差もあるんだとドルビーさんがおっしゃっていて「なるほどな」と思いました。
空間オーディオの未来予想
ーーレコーディングスタジオに限らず、音楽制作に携わる多くの人たちは、今後、空間オーディオが普及して近々に対応していくようになるのか、それともそこまで普及しないのか気になっていると思うんですよ。また、いずれ普及するにしても、まだまだ長い時間が必要なのか、そういったことに関してはどうお考えですか?
本間:ご質問は、いわゆる空間オーディオがビジネス的に今後成功するかどうかみたいなことですか?
ーーいや、もっと極端に言うと、例えば今5歳の子が大人になったときに「え、昔って2chステレオミックスというのを聴いていたの?」みたいな時代になるのか、ならないのかと。
本間:まずステレオ2chはなくならないと思います。ステレオの表現力って非常に高くて、うまく制作すれば空間を表現できます。例えばピンク・フロイドが1970年代にホロフォニクスという、ダミーヘッドの耳に入れたマイクで録音した作品があり、ヘッドホンで聴くと、あたかも本当にそこで鳴っているかのようなイマーシブサウンドの先駆けのようなことをステレオで実現していたんですね。
ですから今後、聴く側がスピーカーをたくさん用意しなくてもヘッドホンで気軽に聴けるような環境、もしくは、PCなり自分が持っているデバイス以上に投資をしなくても聴ける環境が整い、敷居が下がってきたらイマーシブミックスのコンテンツは増えていくとは思うんですが、基本はステレオミックスありきなのかなと思いますね。
ーーなるほど。
本間:あくまで2chステレオがあった上で、加えてイマーシブ、ミックスもあるという状況になるのかなというのが私の認識しているところです。
ーー音楽によっては「2chの方がいいよな」と思うものもありますし、でも空間オーディオで聴いた方が明らかに気持ちいいなってものもありますよね。
本間:ありますよね。デジタルネイティブじゃないですが、もう産まれたときからYouTubeを観て、スマホ触ってという子たちが最初に触れた音楽が空間オーディオだったとしたら、もしかしたら先ほどおっしゃったように「2chというのもあったんだ」みたいな世の中になるかもしれないです。我々も空間オーディオの大きな可能性を実感し始めています。