- Classification with Complex Setting
- Multi-Domain Classification
- 어떤 여자가 뛰고 있는 사진이 있다고 가정해보자.
- Object Classification에서는 Answer - Person
- Action Classification에서는 Answer - Jumping
- VQA에서는 질문이 어떤 Domain인지 한정되어 있지 않기 때문에 어려운 문제.
- Classification with Input/Output Connection
- 주어진 사진이 코끼리인가요? Yes / NO
- 주어진 사진이 무엇인가요? 코끼리
- 이처럼 같은 이미지임에도 질문에 따라 Label이 달라질 수 있다는 문제가 있음.
- Zero-shot Learning
- 학습 시에 한번도 못본 Object에는 어떻게 대응할 것인가.
- Novel Computer Vision Task
- Reference problem
- Spatial relation problem
- 침대 옆에 뭐가 있지? 와 같은 질문이 주어졌을 때 VQA는 공간 정보를 이해할 수 있어야 함.
- Visual semantic role labeling
- 남자가 무엇을 던지고 있나요?
- VQA는 ‘던지다’ 라는 행동을 이해할 수 있어야 함.
- Weakly-supervised learning to count
- Data Efficiency Problem
- Operation compositionality
- Image QA task compositionality
- Natural Language Understanding
- Extracting operation and inputs from question