Comparison of Embedding Layer and Pretrained Word Embedding

Reference

https://towardsdatascience.com/pre-trained-word-embeddings-or-embedding-layer-a-dilemma-8406959fd76c

Pytorch의 Embedding은 Random하게 초기화되고 학습하면서 그 Embedding을 갖춰간다. 때문에 학습데이터가 부족할 경우에는 Embedding이 완전하게 학습되지 않는 경우가 많다.

그럴 경우에 기학습된 word2vec, glove, fasttext오 같은 Word Embedding Weight를 Embedding Layer에 넣어주는 경우가 많다. 이렇게 되면 Word Embedding만큼은 대용량 코퍼스에서 학습된 Word Embedding을 가지고 있기 때문에 학습데이터가 부족하더라도, 이 부분에서 성능 leakeage가 일어나지는 않는 것!

그렇다면 대용량 데이터가 있을 때, 과연 Pretrained Word Embedding을 사용하는 것이 Embedding Layer을 사용하는 것보다 더 좋은 성능을 보일까? 라는 궁금증이 생겼다.

이론적으로 생각해보았을 때는 학습데이터가 많다면, Random initialized Embedding Layer로도 충분히 word feature를 임베딩할 수 있다는 생각이 들지만,,,, 성능을 비교해보고 싶었다!

마침, 어느 분이 정리를 해놓으셨다!! 구글 만세

Sentiment Analysis

Untitled

Question Classification

Untitled

Task마다 차이가 있지만, 일반적으로 그냥 Embedding Layer를 사용하는 것보다는 Pretrained Word Embedding을 사용하는 것이 F1-Score 측면에서 더 나은 성능을 보인다.

심지어, Pretrained Word Embedding을 사용했을 때는 해당 Layer를 frezee했음에도 더 나은 성능을 보인다.

이 실험에 끼치는 요소가 이것 외에도 다양해서 무조건 더 성능이 좋다! 라고 보장할 수는 없을 것이다.