word2vec

by EMCS LABS — on Machine Learning , NLP 30 Nov 2016

word2vec

개념

word2vec은 one hot coded된 단어 representation을 기반으로
t 시점의 단어와 t-2, t-1, t+1, t+2 시점의 단어 사이의 mapping (e.g. you –> I love so much) 을 ANN으로 훈련하여 얻는 각 단어의 hidden 값.

Input - Hidden - Output

이때 훈련에 쓰이는 input과 output의 dimension은 1xV (V: vocabulary size) –> 1x4V. (e.g. I love <you> so much)
Hidden 층은 단어 하나를 표기하기 위한 dimension인 V 보다 훨씬 낮은 차원을 사용할 수 있다. (보통 300 정도 설정)
결국 300차원 정도의 vector space에서 의미적, 통사적으로 유사한 단어들이 군집을 이룬다.

Hosung Nam

Author

EMCS LABS

koreamatlab@gmail.com

EMCS Laboratories