CTGAN | Notion

3. Challenges with GANs in Tabular Data Generation Task

Tablular data를 생성하는 것에는 몇가지 문제점이 존재함.
1. 다양한 타입들.(이산형, datetime, 연속형 등)
2. Non-Gaussian 분포
  - 이미지 데이터에서 pixel 값은 대부분 가우시안 분포를 따르기 때문에 min-max normalization 수행해서, 학습에 안정성을 더할 수 있다.
  - 하지만, tabluar data의 연속형 변수는 대부분 Non-Gaussian 분포이기 때문에 min-max normalization의 적용은 vanishing gradient problem으로 이어짐.
    
    → Mode-specific Normalization
3. Multimodal distributions
  - 연구진들이 8개의 real-world dataset의 연속형 변수들을 대상으로 mode의 갯수를 추정한 결과, 123개 중 57개가 multi-mode를 가지고 있음.
  - 또한 한 연구에서는 gan이 이러한 multi-mode를 모델링할 수 없다고 지적함.
  - 그러므로 이 연구에서는 연속형 변수의 multi modal을 해결하고자 노력함.
    
    → Mode-specific Normalization
4. Learning from sparse one-hot-encoded vectors
  - 생성 모델은 확률분포를 사용해서 모든 category를 생성함.
  - 문제는 discriminator가 생성된 category가 진짜 같은지 여부를 판단하는게 아니라, 그냥 덜 나온 category를 가짜라고 구별할 가능성이 커짐.
5. Highly imbalanced categorical columns
  - 데이터 불균형은 mode collapse를 야기함.
  - 또한 minor classes에 대해 충분한 학습 기회를 제공하지 못하기 때문에, 그냥 생성이 안될 가능성이 큼.
    
    → conditional generator and training-by-sampling

Mode-specific Normalization

Tabular data의 continuous column은 GMM(Gaussian Mixture Model) 인 경우가 많음.
기존의 경우에는 GMM임을 고려하지 않고 Min-Max Scaling만을 사용했고, 이는 will lead to vanishing gradient problem.
저자들은 이를 해결하고자 GMM을 고려한 normalization을 수행함.
내 생각에 Mode-specific Normalization이 중요한 이유는 GAN의 성질 자체에 있음.
- GAN은 특정 데이터가 추출되는 분포를 모델링 하여 Sampling하는 생성 모형인데,
- Tabular data가 대부분 GMM임을 감안하지 않고, 하나의 분포로 가정한 채 scaling을 수행하면, 각 value들이 분포에 대한 정보를 담고 있지 못함.
- 그래서 분포를 학습하기 어려워지게 되고, model-collapse가 발생하는 확률이 높아지는 것임.

Untitled

VGM을 사용하여 GMM의 각 분포의 모수(평균, 표준편차 / 기호로는 감마, 파이 인듯? )를 추정한다.
한 column의 하나의 값 cij가 각 mode에서 왔을 확률을 계산함. (p1, p2, p3)
주어진 확률 밀도 함수에서 sampling을 수행하고 해당 mode의 모수를 이용하여 cij를 normalization한다.

Untitled

그리고 a(정규화 값), b(어느 mode에서 sampling 되었는지에 대한 one-hot vector) 등… 을 concat하는데, b가 들어가는 이유는 추후 invers_transform을 위한 것 같긴한데,, 학습 중에 어떤 도움이 되는지는 모르겠음.

Untitled

잘 모르겠는데, generator에 어떤 이산형 변수를 생성해야 하는지에 대한 condition vector와 latent vector z를 함께 입력으로 넣음으로써, generator가 rare한 이산형 값(별로 없는 카테고리)도 잘 생성해 낼 수 있도록 한다는 것 같음.