https://wikidocs.net/31379

https://nlpinkorean.github.io/illustrated-transformer/

https://medium.com/platfarm/어텐션-메커니즘과-transfomer-self-attention-842498fd3225

Transformer의 전체적인 구조

Untitled

Transformer는 완전히 Attention만을 사용한 첫번째 Sequence Model이다.
위 구조를 간단하게 도식화하면 아래와 같다.

Untitled

Encoder-Decoder구조이며, Encoder와 Decoder는 각각 여러겹의 Stack으로 이루어져있다.
Encoder 내부는 Self Attention - Feed Forward Neural Network로 이루어져있다.
Self Attention은 Encoder와 Decoder 모두에서 중요한 역할을 한다.

Encoder

Self Attention

Seq2Seq