ASR
ASR이란?
사람이 말소리를 (1) 듣고 (2) 단어를 떠올려서 (3) 문장으로 받아쓸 수 있는 능력을 기계가 모사하는 것.
- 듣기 능력 = 음향 모델
- 발음-단어 mapping 능력 = 발음 사전
- 자연스러운 문장 완성 능력 = 언어 모델
위 3가지 능력을 결합하면 decoder라고 한다.
ASR의 전체 흐름
- raw speech signal –> feature vectors –> phone sequence –> word sequence –> natural sentence
ASR의 단계별 설명
- raw speech signal –> feature vectors
- 특징 추출. 음소 인식에 필요한 정보만 골라 추출.
- 주로 MFCC 혹은 PLP 사용.
- feature vectors –> phone sequence
- 음향 모델의 역할.
- 대표적인 알고리즘으로는 GMM-HMM (전통적), DNN-HMM (고성능), RNN-LSTM (가장 최신의 핫한 기술)이 있음.
- phone sequence –> word sequence
- 발음 사전의 역할.
- 키워드는 G2P. 영어는 주로 CMU dictionary 사용.
- word sequence –> natural sentence
- 언어 모델의 역할.
- N-gram (Markov model, 전통적), RNN-LSTM (word2vec사용하는 핫한 기술) 등의 알고리즘 사용.
- 전통적인 음성인식 기술은 Markov assumption을 기반으로 한다.
- 음향모델: Hidden Markov Model
- hidden state=phone, observation=feature vector
- 언어모델: Markov Model
- state=word
- 음향모델: Hidden Markov Model
- 최신 음성인식 기술은 Neural Network의 시대로 접어들었다.
- 음향모델과 언어모델 모두 RNN으로 훈련.
- Decoder 구현을 위해 널리 사용되는 계산 장치는 Weighted Finite State Transducer이다.
Yeonjung Hong