VQA (Original VQA Paper Review) | Notion

https://www.youtube.com/watch?v=uY6cWyG0JRQ

위 유튜브 영상을 보고 정리.

VQA란?

Untitled

컴퓨터 비전, 자연어 처리 , Knowledge represntation 의 여러 분야를 모두 접목시킨 Multi-discipline Task
Input은 Image와 Question / Output은 Answer
- Question은 Image를 참조하지 않으면 대답하기 어려운 질문으로 구성

Type of VQA task

Open-ended Task
- 주관식으로 Answer를 반환하는 Task
Multiple Choice Task
- 1. Yes 2. No 3. Tennis ....etc..
- 이처럼 이미지가 주어졌을 때 객관식으로 Answer를 반환하는 Task를 Multiple Choice Task라고 함.

Dataset

Image Data
- MS COCO와 Abstract Scene Dataset을 사용함.
Question data
- 아래의 form을 통해 Question 수집.
- 모든 질문은 이미지를 참고해야만 해결할 수 있도록 질문을 구성.
Question Data
- Open-ended Task
- Multiple-choice task
  - 생략..

Model

Untitled

모델의 전반적인 구조