音声認識とは
声で書く、声で動かす。
人と機械の新しいコミュニケーション
多くの人にとって、最も簡単なコミュニケーションの手段は声でのやりとりです。
声を文字に変換する音声認識技術により、キーボード入力やボタン操作などの不自由なコミュニケーションから、
人間本位の自然なコミュニケーションを実現します。
音声認識の基本的な仕組み
私たちは、普段の会話の中で他人の音声を自然に認識して意味を理解しているため、それが難しいことだとは思っていません。 しかし、性別、話し方の癖、言葉遣いなど同じ内容の声でも、人や場面によって大きく様相が異なるため、コンピューターが人の音声を正しく認識することは簡単なことではありません。音声認識は、声の情報と言語の情報を密接に組合せながら、音声を「文字」に変換する技術です。
音響分析
例えば同じ「あ」という音でも、音声の波形は話者の性別や年齢、録音に用いるマイクなどによって変化します。
そのため、音声波形のデータをそのまま認識デコーダに入力するのではなく、音響分析によって音の特徴を数値化し、その数値(特徴量)を認識デコーダに入力します。
認識デコーダ
音響分析で抽出された特徴量を認識デコーダに入力することで、音声認識結果が出力されます。
認識デコーダは、「DNN-HMMハイブリッド型」と「End-to-End型」の2種類に大別できます。「DNN-HMMハイブリッド型」は、「DNN(Deep Neural Network, ディープニューラルネットワーク)」と「HMM(Hidden Markov Model, 隠れマルコフモデル)」を組み合わせた認識デコーダで、「音響モデル」「言語モデル」「発音辞書」の3つのパーツから構成されています。一方で「End-to-End型」は、認識デコーダがニューラルネットワークだけで構成されているというシンプルな構造が特長です。
音響モデル
音響モデルは、音響分析で抽出した特徴量が、どの音素に該当する確率が高いかを表す「音響スコア」を算出します。
一般的な音響モデルは、数千人、数千時間の音声を学習させて作成します。
言語モデル
文字列や単語列が日本語として適切かを評価するために使われます。日本語テキストを多く集め、統計処理したものが言語モデルです。
発音辞書
発音辞書は「哀れ」「哀願」「愛」といった単語とその読み、そして「aware」「aigaN」「ai」といった音素の表記を紐づけています。発音辞書により、単語を音素列(音素の並び)で表すことが可能です。
ディープラーニング技術
ディープラーニングとは、機械が人間の脳の構造をソフトウェア的に模倣し、データの特徴を学習して認識や分類を行う「機械学習」の手法です。
音声認識においては、音響モデルや言語モデルで活用されています。
音声認識の歴史
京都大学が音声タイプライターを開発
統計データに基づく音声認識を開発