• Classification with Complex Setting
    • Multi-Domain Classification
      • 어떤 여자가 뛰고 있는 사진이 있다고 가정해보자.
      • Object Classification에서는 Answer - Person
      • Action Classification에서는 Answer - Jumping
      • VQA에서는 질문이 어떤 Domain인지 한정되어 있지 않기 때문에 어려운 문제.
    • Classification with Input/Output Connection
      • 주어진 사진이 코끼리인가요? Yes / NO
      • 주어진 사진이 무엇인가요? 코끼리
      • 이처럼 같은 이미지임에도 질문에 따라 Label이 달라질 수 있다는 문제가 있음.
    • Zero-shot Learning
      • 학습 시에 한번도 못본 Object에는 어떻게 대응할 것인가.
  • Novel Computer Vision Task
    • Reference problem
      • 같은 이미지여도 질문에 따라 정답이 달라짐.
    • Spatial relation problem
      • 침대 옆에 뭐가 있지? 와 같은 질문이 주어졌을 때 VQA는 공간 정보를 이해할 수 있어야 함.
    • Visual semantic role labeling
      • 남자가 무엇을 던지고 있나요?
      • VQA는 ‘던지다’ 라는 행동을 이해할 수 있어야 함.
    • Weakly-supervised learning to count
      • 객체의 수를 세는 것이 어려움.
  • Data Efficiency Problem
    • Operation compositionality
    • Image QA task compositionality
  • Natural Language Understanding
    • Extracting operation and inputs from question