「パラメータの適正な設定」が有意味な CEM値の算出に必要不可欠

SiCECA による音声信号では,埋込み次元(D),埋込み遅延時間(τd),発展時間(τe) 等のパラメータの設定により,同じ音声でもCEM値は大きく変化します。次の図は2013 年時点のSiCECAの実装により算出した「あいうえお(音声資源コンソーシアム提供によるAWA-LTRコーパスのA.CE15 )」音声のCEM値の変化を示したものです。他の誰かの「あいうえお」音声では,プロットの一部分には良く似た傾向も見られると思いますが,異なる部分も 幾つも有ると思います。下図ではτd は 0.46ms と一定にして,τeを20.8 μs (48.0kHzで、サンプリングした場合の時間間隔)のステップで、0.021~1.000msまで 変化させた場合に計算されるCEM値の変化を示しています。52回集録された「あいうえお」音声によるCEM値につき,最小値,最大値,平均値と平均値の 90%,及び95%信頼区間をプロッ卜しています。プロットで、はτeがτdの整数倍の時に特異な変化が見られます。doc-12

下 図は,「あいうえお」と「まみむめも(A.CE16 )」の発話から算出される CEM 値の平均値 の大小関係を示したものです。縦軸は τd を 0.208 ~ 1.000ms まで変化させ,横軸は τe を 0.021 ~ 2.000ms まで変化させ,赤色は「あいうえお」から算出された CEM 値の平均値が 「まみむめも」から算出された CEM値の平均値より大きくなる領域が示されています。doc-13SiCECA による音声処理では,「パラメータの適正な設定」が有意味な CEM値の算出に必要不可欠です。パラメータの適正化は個人差の評価とも係る重要な問題です。