https://wikidocs.net/31379
https://nlpinkorean.github.io/illustrated-transformer/
https://medium.com/platfarm/어텐션-메커니즘과-transfomer-self-attention-842498fd3225
Transformer의 전체적인 구조

- Transformer는 완전히 Attention만을 사용한 첫번째 Sequence Model이다.
- 위 구조를 간단하게 도식화하면 아래와 같다.

- Encoder-Decoder구조이며, Encoder와 Decoder는 각각 여러겹의 Stack으로 이루어져있다.
- Encoder 내부는 Self Attention - Feed Forward Neural Network로 이루어져있다.
- Self Attention은 Encoder와 Decoder 모두에서 중요한 역할을 한다.
Encoder
Self Attention