top of page

音声認識

騒音除去の機能を持ったマイク

我々は今回のソリューション条件に合うマイク選定に複数マイクを候補として試行しました。

その中でも騒音除去の方式はいろいろとあり、現場使用に合った方式を採用しました。その時、もう一つ考慮しなければならないのが、認識の精度とロバスト性の関係です。

 

ロバスト性とは、さまざまな外部の要因によって影響されにくい性質を言い、平均的な安定に重点が置かれる性質ですが、ロバスト性の向上のため騒音除去をした場合、必要のない雑音を消去すると同時に、ある必要な一部の音が消えてしまう場合があります。

この場合、ロバスト性を上げるためにはしかたがないとも言えますが、かなり繊細な音も拾い精度を上げたい場合にネックとなることもあります。

我々は多くの試行からこのロバスト性と精度のバランスを取ることに努めました。

 

下の図形を参照してください。

現場の環境で騒音があるため、Noise-cancelling対応のマイクを選択することが必要でした。しかし今回、“19”などの数字について、認識率が普通のPCマイクより低い結果が出たので、原因を調べました。

相応のスペクトル図形を見ると、Noise-cancelling対応のマイクは、4kHz以上の音声の内容が抑えられたことが分かりました。これは原因の一つと考えました。

そのため、周波数レスポンス性とNoise-cancelling対応の両方の間のバランスが良いマイクであるヘッドセットを再選択する必要があると判断しました。

19の音声.jpg
NoiseReductionMic

音声の特性パラメータのチューニング

今回我々が活用したOSS(Julius)のパラメータは141個ありました。

我々はまず、これらのパラメータの機能研究と特に今回の状況に影響があると分析したものすべてのパラメータについて試行を行いました。

今回、その試行の中で特に改善効果があったパラメータの説明を以下に示します。

 

お客様の案件によっては別のパラメータの調整も必要となるかも知れませんので、ご注意ください。

 

今回のOSSの認識を行う音声の対象は、全て入力した音声波形ではなくて、VADによって音声だと判断されたところから音声が終わったと判断されるところまでの間の波形です。

また、上記範囲に加えて、マージン調整で範囲を多少拡大することもできます。もし範囲が合わないと、音声認識にとって大事な頭のところの一部の音声はなくなる可能性があり、認識率は下がります。

 

上記VAD検出やマージン調整のレベルは、ともにパラメータで決まりますので、パラメータを改善して最適化させる必要があります。

また、これらのパラメータ間のチューニングには相互関係もあり、バランス調整が必要です。

 

今回は主に以下のパラメータを多くの組み合わせ試験により調整しました。

VAD:音声区間検出のパラメータ

 ● VAD (Voice Activity Detection )

認識すべき音声データの開始と終了を正しく検出するためのパラメータです。

また、VADによって検出された箇所の前後にマージンを移動して音声データの範囲を変えることができます。

 ● VAD関連パラメータ

   振幅、ゼロ交差数、開始部のマージン、終了部のマージン、GMM_VAD

その他にチューニングしたパラメータ

 ● フロント・エンド処理関連パラメータ

   直流成分除去、スペクトルサブトラクション、ゼロフレーム自動消去無効化、入力廃棄

 ● 認識アルゴリズム関係パラメータ

   言語重み、挿入ペナルティ、ビーム幅

ParamTune
MapDictionary

音声を語彙とマッピングする辞書

取り込んだ音声を日本語とマッピングするのは辞書の役割となります。入って来た音声に対して一番近い辞書の発音記号をマッピングして何を回答したか判断します。

今回の実験で本来認識率が低い“9”という実際の音声の波形から、後ろの100ms位の波形を意図的に削除して、再認識すると、正しく認識されるという結果がありました。原因は最後尾の長音の長さの違いだと推測しています。

それの証明として、本来認識できなかった“9”という音声にたいして、本来登録されている辞書の「9 ky u:」から「9 ky u u u」に長音を伸ばして変更すると、“9”は正しく認識されました。

人の発音には上記のような原因で、辞書に登録されている通りの発声方法ではない場合も多く、我々はそれらを多くの実験から辞書に再登録し、いくつかの認識されない現象を解決しました。

ModelRebuild

音響モデルの再作成

なぜGMM-HMMとDNN-HMM両方のトレーニングを使用したか

GMM-HMMはこのOSS現在のモデルで、我々が調査した結果、GMM-HMMトレーニングのルートも既に分かりました。現実性がよいアプローチです。

DNN-HMMはより先進的な方法で、文献によりますとGMM-HMMより3%位の認識率向上が可能なので、利用を提案しました。DNN-HMMは資料が少ないので、調査作業はより難しくなりました。

我々は現実性と先進性両方を考え、GMM-HMMとDNN-HMMの両方の再トレーニングを実施する提案をしました。

 

トレーニング用のデータは多いほど良いのですが、まず最低限必要となるデータ:20人(男女含む)で語彙、数字データ(0.01ミリから99.99ミリまで)を各自10回定時的に読み上げて作成しました。

 *ミリは現場で使う単位 

 

GMM-HMMモデル(ガウス混合モデル)

  時系列データの統計モデル

 

DNN-HMMモデル(ディープニューラルネットワークモデル)

  ニューロンの結合パターンとそれによる情報伝搬のモデル

  単純にニューロンモデルとも言う

 

以下にGMM-HMMモデルとDNN-HMMモデルの改善作業概念フローを示します。

技術検証_音声認識_図版_002.png
技術検証_音声認識_図版_003.png
bottom of page