Seq2Seq Model

Untitled

Untitled

Seq2Seq Model with Attention

Attention(Luong Attention)

  1. t시점의 decoder의 hidden state와 모든 시점의 encoder의 hidden state를 내적하여 attention score를 구한다.
  2. attention score에 소프트맥스 함수를 적용하여 attention distribution을 구한다.
  3. 구해진 attention distribution과 모든 시점의 encoder hidden state 값을 가중평균하여 attention value(=attention output)를 구한다.
  4. attention value를 t시점의 decoder hidden state와 concat하여 y_hat을 구하는데 사용한다.

<aside> 📏 Teacher Forcing Seq2Seq의 Decoder는 T시점의 예측이 T+1시점에 사용되는 구조이다. 하지만 T시점의 예측이 잘못되었다면, T+1 시점의 입력도 잘못되는 상황이 발생한다. 이는 학습과정을 불안정하게 만들기 때문에 학습과정 중에는 T시점의 출력이 잘못되었더라도, T+1 시점에 GT를 입력으로 넣어주는 Teacher Forcing이라는 학습 방법을 사용한다.
학습 과정 전체에서 Teacher Forcing을 하기도 하지만, 학습이 어느정도 진행된 후에는 Teacher Forcing을 사용하지 않은 채 학습하는 방법도 존재한다.(Scheduled Sampling/)

</aside>

Attention의 장점.