5秒間の発話音声があれば信頼できるCEM値が計算可能

SiCECA により音声データからCEM値を計算した場合,常にCEM値には様々な誤差が含まれています。全く同じ音声信号であってもサンプリングのタイミングが数マ イクロ秒ずれただけでも標準偏差程もの差異が発生することもあり,演算処理精度(パソコンの場合には 倍精度浮動小数点演算で64 ビット, AD変換器は8ビット, 16 ビット或いは 24ビットです。)も誤差の原因となります。 また,音声デーダのサイズ(発話の継続時間)もCEM値の信頼性に影響を及ぼします。2012 年時点では,経験的に発話の継続時聞が5秒程度以上であれば,繰り返しの発話から算出されるCEM値に大きな差異は発生しない様に思っていますが, 例外が存在しない訳では有りません。発話の継続時聞が2秒程度以下であれば,繰り返しの発話から算出されるCEM値のバラツキは大きくなります。 以下は,音声資源コンソーシアム提供による UT-MLコーパスの11ヶ国語で発話された AESOP.WAV(30~50秒の「北風と太陽の話」の朗読)から CEM 値を計算した結果で、す。 SiCECA パラメータの設定は,埋込み次元: 5,埋込み遅延時間: 0.46ms です。 CEM 値の最小値・平均値・最大値・信頼区間は夫々の発話から切出し時間を1秒ずつずらしながら可能な数だけ5秒間分を切出しその全てからCEM値を計算し,統 計処理して算出した値で, CEMWHOLE は発話全体から1つの CEM値を計算した値です。図の上側は男性 による朗読発話 52 種類,下側は女性による朗読発話43 種類を分析した結果です。doc-14

 

男 性で81%、女性で88%の発話で、CEMWHOLE値は95%信頼区間に含まれています。(拡大部分を参照)。5秒間の切り出し音声から算出される CEM値には平均値やCEMWOHLE値とはかなり異なる値が算出されることもありますが(最大値と最小値を参照)、男性の場合も女性の場合も、切り出し 音声CEM値の全ての平均値(男性:1070、女性:999)とCEMWHOLEの平均値(男性:1071、女性:1000)は殆ど同じです。上記におい ては言語による差異よりも、個人差の方が大きいようです。

以上から、5秒間の発話音声が有れば十分に信頼できるCEM値が計算可能だと思われます。現状のSiCECAの実装では、5秒以上の音声データを与えれもCEM値の信頼性の改善はあまり期待できないのかも知れません。