https://www.youtube.com/watch?v=uY6cWyG0JRQ
위 유튜브 영상을 보고 정리.
VQA란?

- 컴퓨터 비전, 자연어 처리 , Knowledge represntation 의 여러 분야를 모두 접목시킨 Multi-discipline Task
- Input은 Image와 Question / Output은 Answer
- Question은 Image를 참조하지 않으면 대답하기 어려운 질문으로 구성
Type of VQA task
- Open-ended Task
- Multiple Choice Task
-
- Yes 2. No 3. Tennis ....etc..
- 이처럼 이미지가 주어졌을 때 객관식으로 Answer를 반환하는 Task를 Multiple Choice Task라고 함.
Dataset
-
Image Data
- MS COCO와 Abstract Scene Dataset을 사용함.
-
Question data
- 아래의 form을 통해 Question 수집.

- 모든 질문은 이미지를 참고해야만 해결할 수 있도록 질문을 구성.
-
Question Data
-
Open-ended Task

-
Multiple-choice task
Model
