A survey on VQA: Datasets and Approaches

VQA Task는 S.antol의 VQA 논문에서 제안되었다.
처음 VQA가 제안된 해당 논문에서는 Model이 자연어로 구성된 Q(Questions)와 I(Image)를 입력으로 받았고, 여기서 얻은 정보로 A(Answer)를 출력으로 내놓았다.
VQA의 Sub Task는 2가지로 나눌 수 있다.
- 하나는 이미지내에서 사실과 관련한 정보를 추출하는 것.
- 다른 하나는 일반상식에 따른 추론이다.
- 예를 들면, 전자는 날씨가 어때? 사람이 몇명있어? 등 이미지 내의 정보를 활용하여 A를 만들어 낼 수 있는 것이고,
- 후자는 그 샌드위치는 채식주의자 용이야? 개가 문 앞에 있어?등.. 이미지 내에서 얻을 수 있는 정보 외에도 일반 상식에 대한 이해(채식주의자가 뭔지, 공간 관계 등)가 어느 정도 있어야 해결이 가능해지는 Task이다.
이를 보완하기 위해 많은 데이터 셋과 모델이 만들어졌다.
Datasets
- video VQA
- Knowledge based Datset
  - Image, Q, A 외에도 일반상식을 위한 지식그래프를 포함한 Dataset
Models
- BERT 기반 Model
- Adversarial Learning 기반 Model
- Multi modal informatio fusion mechanism
위처럼 다양한 모델과 데이터셋이 제안되었고, 해당 논문에서는 이러한 것들을 다룬다.
하지만, 우리가 접근하고자 하는 Task는 Dataset이 한정되어 있기 때문에 이 곳에서 정리하는 내용은 크게 Model, Metric 만을 다루고자 함. ← 근데 Model을 전체적으로 survey한 논문이 아니라서 큰 효용이 없음. 생략.
해당 논문에서 Knowledge based datset에 대한 이해를 조금이나마 할 수 있었다.

Metrics

VQA의 성능을 확인할 수 있는 Metric

Simple Accuracy

multiple choice(객관식) - Simple Accuracy: 맞춘 갯수 / 정답 갯수
open-ended(주관식) 에서도 Simple Accuracy를 적용할 수는 있으나 안함.
- 바다에 있는게 뭐야? 라는 질문이 있을 때 연어가 정답이라고 가정해보자.
- pred가 ‘물고기’여도 False, ‘몰라’여도 False
- ‘물고기’는 연어를 포괄하는 개념임에도 Simple accuracy측면에서는 틀린게 됨.
- 따라서 simple accuracy는 open ended form에서 정확한 metric이 될 수 없다.