텍스트 프롬프트란?
컨디션을 같이 줘야 이미지 제너레이션 퀄리티가 좋다?
기존엔 어렵다가 여기선 왜 좀 잘 될까
가장 큰 차이점이 가지 스케일??
데이터셋이나 모델 사이느 문제일 수도 있다고 ㅏㄴ단하고 잏음
기여
데이터 컴퓨터 소스 알고리즘 세박자가 중요한데, 알고리즘 뿐만 아니라 컴츄터 소스와 데이터 도 중요하다는 것을 다시 한 번 보여주는 연구였던거 같아
data collection of 250M Text-to-Image pairs
Learning the Visual Codebook
이미지 사이즈 (ex.256x256) 에 대해서 각 pixel을 flattening 하면, 사이즈가 너무 크고, 학습이 현실적으로 어려움.
→ 이걸 resizing or compession or downsamping 해줄 필요 있음 → VQ-VAE 사용
[ Nueral Discrete Representation Learning (VQ-VAE) ] 작은 feature 들의 모음으로부터 image reconstruction
“ Vector Quantized “ 중간에 있는 code book을 업데이트 시킴
→ Gumbel softmax 를 써서 카테고리컬 한 걸 조금 더 컨티뉴어스하게
mixed precision training distributed optimization
Learning the Prior (Generative model)
mixed precision training distributed optimization
Evaluation
Zero-shot image generation by NL captions
Image to image traslation by NL captions
데이터, 빅모델을 엔지니어링 하는 것, 알고리즘 ,, 모두 중요하다,,