VQA Task는 S.antol의 VQA 논문에서 제안되었다.
처음 VQA가 제안된 해당 논문에서는 Model이 자연어로 구성된 Q(Questions)와 I(Image)를 입력으로 받았고, 여기서 얻은 정보로 A(Answer)를 출력으로 내놓았다.
VQA의 Sub Task는 2가지로 나눌 수 있다.
날씨가 어때? 사람이 몇명있어? 등 이미지 내의 정보를 활용하여 A를 만들어 낼 수 있는 것이고,그 샌드위치는 채식주의자 용이야? 개가 문 앞에 있어?등.. 이미지 내에서 얻을 수 있는 정보 외에도 일반 상식에 대한 이해(채식주의자가 뭔지, 공간 관계 등)가 어느 정도 있어야 해결이 가능해지는 Task이다.이를 보완하기 위해 많은 데이터 셋과 모델이 만들어졌다.
Datasets
Models
위처럼 다양한 모델과 데이터셋이 제안되었고, 해당 논문에서는 이러한 것들을 다룬다.
하지만, 우리가 접근하고자 하는 Task는 Dataset이 한정되어 있기 때문에 이 곳에서 정리하는 내용은 크게 Model, Metric 만을 다루고자 함. ← 근데 Model을 전체적으로 survey한 논문이 아니라서 큰 효용이 없음. 생략.
해당 논문에서 Knowledge based datset에 대한 이해를 조금이나마 할 수 있었다.
VQA의 성능을 확인할 수 있는 Metric