VQA가 해결해야할 문제점

Classification with Complex Setting
- Multi-Domain Classification
  - 어떤 여자가 뛰고 있는 사진이 있다고 가정해보자.
  - Object Classification에서는 Answer - Person
  - Action Classification에서는 Answer - Jumping
  - VQA에서는 질문이 어떤 Domain인지 한정되어 있지 않기 때문에 어려운 문제.
- Classification with Input/Output Connection
  - 주어진 사진이 코끼리인가요? Yes / NO
  - 주어진 사진이 무엇인가요? 코끼리
  - 이처럼 같은 이미지임에도 질문에 따라 Label이 달라질 수 있다는 문제가 있음.
- Zero-shot Learning
  - 학습 시에 한번도 못본 Object에는 어떻게 대응할 것인가.
Novel Computer Vision Task
- Reference problem
  - 같은 이미지여도 질문에 따라 정답이 달라짐.
- Spatial relation problem
  - 침대 옆에 뭐가 있지? 와 같은 질문이 주어졌을 때 VQA는 공간 정보를 이해할 수 있어야 함.
- Visual semantic role labeling
  - 남자가 무엇을 던지고 있나요?
  - VQA는 ‘던지다’ 라는 행동을 이해할 수 있어야 함.
- Weakly-supervised learning to count
  - 객체의 수를 세는 것이 어려움.
Data Efficiency Problem
- Operation compositionality
- Image QA task compositionality
Natural Language Understanding
- Extracting operation and inputs from question