https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning
Decoder의 각 Time Step마다 Attention 연산을 수행해야 하기 때문에 For loop가 내부적으로 돌아가는 LSTM 말고 LSTM Cell을 사용
시작하기 전에 training, validataion, testing 파일을 저장해야 함.
create_input_files.py 을 사용해서 가능하다.
doubly stochastic regularization

Early stopping with BLEU
stage별로 따로 학습하는 것을 추천
Validation에도 Teacher-Forcing이 적용되어 있기 때문에 실제 성능을 반영하진 못함.
eval.py : bleu4 score를 측정해주는 파일