静音化した車内で高まる音楽鑑賞ニーズ
~オーディオ評価ツール MDAQS

車載オーディオ、ホームオーディオ、ヘッドホン等、専任のエキスパートが製品の音づくりを行っています。しかしこれは、聴感評価とパラメターチューニングを繰り返しながらアルゴリズムを最適化するという、大変労力のかかるプロセスですし、専門的な経験とスキルをもった特定の個人に依存しなければならず、大きな負担が集中してしまうという課題もあります。
HEAD acousticsは、この音評価の部分をツールで置き換えることにより現場の負担軽減を図ることを目的にMDAQSを開発しました。MDAQSはリスナーの聴感印象をモデル化し、音の評価ツールとして製品化したものです。
MDAQSは被験者による主観評価データと、これを数値的に裏付ける為の(聴感テストで用いた音楽信号の)の客観的解析データがベースとなっています。以下、その内容につき説明します。
1 聴感テストとモデル化
聴感評価メソッド
モデル化に際しては、人がどのようにオーディオ品質を知覚するかを理解する必要がありますので、その為に先ず聴感テストデータの収集を行いました。弊社は様々な音声品質のリスニングテストメソッドで豊富な経験と知見がありますが、検討の結果、この目的の為に比較範疇尺度法 (CCR)を採用しました。同一の楽曲信号を異なるオーディオシステム間で1対1の試聴比較をしました。
音質属性
また、リスナーが重要視する音質属性について、被験者へのヒアリング結果や学術的知見をもとに、音質の判定基準を①音色、②歪量、③音響シーンへの没入感、④全体品質の4つに絞り、これらをCCRで7段階評価しました。
聴感テスト
実際の聴感テストでは、6つのオーディオ製品と、ロック、ポップ、ジャズなどジャンルの異なる6つの音楽信号を用い、90通りの比較データを収集しました。被験者には、音の専門家ではなく、一般の人、即ち潜在的なカスタマーを採用しました。被験者はランダムに流れてくるテスト信号を個別に自分のペースで評価しました。


聴感テスト結果のモデル化
そして、聴感テスト結果のモデル化を行いました。モデル化の目的は、音色、歪、没入感という3つの属性から数学的に全体品質を導き出すことです。その為に線形回帰手法を用いて3つの因数を最適化し、一般リスナーの全体印象を導く数式を作りました。その結果、下のグラフのように聴感テスト結果(横軸)と予測モデル(縦軸)を0.991と高精度で対応させることができました。ここでは簡単化して説明していますが、製品としてのMDAQSはより多くのマシン学習でモデルを鍛えて、回帰分析、非線形性の確認等、洗練されたアプローチを用いて性能面の検討をより詳細に行っています。


2 音楽信号の解析
MDAQSの信号解析方法
次にMDAQSの信号解析方法についてです。解析は聴感テストで用いた音楽信号の聴感品質を定量化するのが目的です。

MDAQSに2つの信号;聴感テストで用いたものと同じ音楽信号と20Hz~2kHzのスイープ信号を入力します。両者は先ず、サンプリングレートの調整、レベル調整を経たあと、3つの品質属性ごとに異なる分析ステージにかけられます。
音色に関しては以下の5種類の分析が用いられています。
- ①目標とするF特との差:聴感テスト結果から導き出したリスナー好まれるF特をアルゴリズムに用い、評価対象オーディオのF特をこれと比較し、評価結果の値を出力します。
- ②スペクトラルフラックス分析:測定対象オーディオの再生信号のパワースペクトル、即ち、周波数帯ごとのパワーの時間変化量を分析します。
- ③低域:50-250 Hzでの比較分析
- ④中高域:2-4 kHzでの比較分析
- ⑤ヒアリングモデル(聴覚モデル)分析
歪に関しては以下の5つの分析が用いられています。
- ①目標F特との差
- ②高調波歪
- ③スイープ測定による低域のスペクトル分析
- ④スイープ測定による高域のスペクトル分析
- ⑤変調スペクトル(歪の時間特性)分析
没入感に関しては以下の5つの分析が用いられています。
- ①目標F特との差
- ②スペクトラルフラックス:時間差が音源の到来方向の印象に影響する為、空間印象に重要です。
- ③中高域の周波数帯の分析
- ④バイノーラルヒアリングモデルに基づいた2つの分析
以上のうち、特に、2つの項目について下記に説明を加えます。
目標F特との差の分析
音色、歪、没入感に共通し、最重要な分析が、聴感テストにより特定した被験者の好みである目標F特との差の分析です。目標F特は厳密にはアプリケーション(ヘッドホン、車載オーディオ等)により異なるかも知れませんが、MDAQSで用いているのはすべてのシナリオを包含した平均的な目標F特カーブです。F特に関しては、スイープ測定によるF特分析も同時に行って、聴感テストに用いた音楽信号とのあいだの紐付けを行います。
没入感の分析に用いられるバイノーラルヒアリングモデル
HATSで取得した両耳の信号が、人の聴覚特性を考慮した聴覚モデル(ガンマトーンフィルターという聴覚フィルターと有毛細胞の応答モデル)に入力され、ここで処理されたニューラル信号は、次に36の周波数帯ごとに、左右の信号間の相互相関の分析(タイムラグや振幅差の分析)が行われます。この分析結果はさらに、人の聴感印象に対応させる為に定位軸と周波数軸で重み付けがされたあと、すべての周波数帯の平均化がされ、最終的に聴感印象の空間特性が下図のような 「コレログラム」 で出力されます。



上図左のコレログラムはオリジナルの音楽信号(クラシック楽曲)です。信号は 10 秒で縦軸の上から下方向に時間が流れます。横軸は音の定位、バイノーラル聴感印象を表わします。-0.8msは左90度で+0.8msは右90度とイコールです。
オリジナルの音楽信号は殆どのエネルギーが定位0ms付近に集まっています。信号は基本的に真ん中から出ています。時間構造的には、エネルギーが 2 ~ 3 秒付近と、5 ~ 8 秒付近にみられます。
右の2つは実際の車載オーディオのコレログラムの例です。
車載オーディオ1(真中)は聴感テストで高評価を得た車載オーディオです。空間構造も殆どの信号が真ん中から鳴っているように知覚され、時間構造も良好です。
車載オーディオ2(右)は、エネルギーが左右に散乱していて空間構造が悪く、時間構造も常に変化してしまっています。
3 MDAQS評価結果イメージ
最後にMDAQSが出力する結果の例を下記にご覧に入れます。



MDAQS は、入力された音楽データに対して聴感テストの結果を予測して音質評点を出力します。
MDAQSから出力される結果は、音色、歪、没入感、全体の4つの指標それぞれに MOS値で1~ 5 の評点です。例として、一つ目の小型ポータブルBluetoothスピーカーは空間的な情報に乏しく、没入感と音色の評価結果が悪いです。二つ目の据え置き型スピーカーは、歪があり、没入感・空間印象が不鮮明です。三つ目のハイエンド・ヘッドホンは全体として高評価です。
以上、MDAQSは結果を明確に出力し、属性ごとに強みや弱みを特定できます。製品の詳細につきお問い合せください。