ASR overview

by EMCS LABS — on

ASR

ASR이란?

사람이 말소리를 (1) 듣고 (2) 단어를 떠올려서 (3) 문장으로 받아쓸 수 있는 능력을 기계가 모사하는 것.

  • 듣기 능력 = 음향 모델
  • 발음-단어 mapping 능력 = 발음 사전
  • 자연스러운 문장 완성 능력 = 언어 모델

위 3가지 능력을 결합하면 decoder라고 한다.



ASR의 전체 흐름

  • raw speech signal –> feature vectors –> phone sequence –> word sequence –> natural sentence



ASR의 단계별 설명

  • raw speech signal –> feature vectors
    • 특징 추출. 음소 인식에 필요한 정보만 골라 추출.
    • 주로 MFCC 혹은 PLP 사용.
  • feature vectors –> phone sequence
    • 음향 모델의 역할.
    • 대표적인 알고리즘으로는 GMM-HMM (전통적), DNN-HMM (고성능), RNN-LSTM (가장 최신의 핫한 기술)이 있음.
  • phone sequence –> word sequence
    • 발음 사전의 역할.
    • 키워드는 G2P. 영어는 주로 CMU dictionary 사용.
  • word sequence –> natural sentence
    • 언어 모델의 역할.
    • N-gram (Markov model, 전통적), RNN-LSTM (word2vec사용하는 핫한 기술) 등의 알고리즘 사용.



  • 전통적인 음성인식 기술은 Markov assumption을 기반으로 한다.
    • 음향모델: Hidden Markov Model
      • hidden state=phone, observation=feature vector
    • 언어모델: Markov Model
      • state=word



  • 최신 음성인식 기술은 Neural Network의 시대로 접어들었다.
    • 음향모델과 언어모델 모두 RNN으로 훈련.



  • Decoder 구현을 위해 널리 사용되는 계산 장치는 Weighted Finite State Transducer이다.

Yeonjung Hong