ASR overview

by EMCS LABS — on ASR 01 Dec 2016

ASR

ASR이란?

사람이 말소리를 (1) 듣고 (2) 단어를 떠올려서 (3) 문장으로 받아쓸 수 있는 능력을 기계가 모사하는 것.

듣기 능력 = 음향 모델
발음-단어 mapping 능력 = 발음 사전
자연스러운 문장 완성 능력 = 언어 모델

위 3가지 능력을 결합하면 decoder라고 한다.

ASR의 전체 흐름

raw speech signal –> feature vectors –> phone sequence –> word sequence –> natural sentence

ASR의 단계별 설명

raw speech signal –> feature vectors
- 특징 추출. 음소 인식에 필요한 정보만 골라 추출.
- 주로 MFCC 혹은 PLP 사용.
feature vectors –> phone sequence
- 음향 모델의 역할.
- 대표적인 알고리즘으로는 GMM-HMM (전통적), DNN-HMM (고성능), RNN-LSTM (가장 최신의 핫한 기술)이 있음.
phone sequence –> word sequence
- 발음 사전의 역할.
- 키워드는 G2P. 영어는 주로 CMU dictionary 사용.
word sequence –> natural sentence
- 언어 모델의 역할.
- N-gram (Markov model, 전통적), RNN-LSTM (word2vec사용하는 핫한 기술) 등의 알고리즘 사용.

전통적인 음성인식 기술은 Markov assumption을 기반으로 한다.
- 음향모델: Hidden Markov Model
  - hidden state=phone, observation=feature vector
- 언어모델: Markov Model
  - state=word

최신 음성인식 기술은 Neural Network의 시대로 접어들었다.
- 음향모델과 언어모델 모두 RNN으로 훈련.

Decoder 구현을 위해 널리 사용되는 계산 장치는 Weighted Finite State Transducer이다.

Yeonjung Hong

Author

EMCS LABS

koreamatlab@gmail.com

EMCS Laboratories