電子航法研究所の発話音声分析技術は、音声信号のカオス性評価

電子航法研究所の発話音声分析技術は、音声信号のカオス性を評価するものです。離散的な時系列信号としてサンプリングされた音声信号を「ターケンス の定理」 に従って位 相空間の埋め込み、ストレンジ・アトラクタを生成(数学的には再構成)します。 下左図中のτは埋込み遅延時間と呼ばれ、信号処理における重要なパラメータです。doc-7

オシロスコープにダイナミック・マイクを繋いで「お山」と声を入力すれば、上の左図の様な信号波形を観測することができ、リサージュ・モードとして Y軸入力にτ遅延させた音声信号を入れれば右 図の様なストレンジ・アトラクタを直接に見ることができます 。

下の図は左端の「お」音の波形に対して、左側からτをそれぞれ 0.25ms, 0.50ms, 0. 75ms, 1.00msと変化させた場合のストレンジ・アトラクタの変化を示したものです。doc-8

カオス論的な信号処理においては τ時間を適正に設定することは最重要課題なのですが, 2013 年時点では,音声信号に対して適正値を決定する手段は未だ見つかっていません。

上 記のストレンジ・アトラクタは、全て2次元の位相空間に再構成されたものですが、現実の音声信号の分析では、τ遅らせたY軸、 2*τ遅らせたZ軸、・・・として、一般的に4次元以上の空間に埋込む必要があります。埋込み位相空間の次元数もτと同様に重要なパラメータですが、音声 信号の場合には, そのフラクタル次元が4なので, 4~6(7 )の間で選べば十分だと考えています。