논문 리뷰

High-Resolution Image Synthesis with Latent Diffusion Models 논문 리뷰

금잔디명예소방관 2023. 1. 9. 18:20

A-1. Probability and Likelihood - Machine Learning 강의노트 (wikidocs.net)

What are Stable Diffusion Models and Why are they a Step Forward for Image Generation? | by J. Rafid Siddiqui, PhD | Towards Data Science

 

What are Stable Diffusion Models and Why are they a Step Forward for Image Generation?

An Easy Guide to Latent Diffusion Models

towardsdatascience.com

semantic segmentation의 목적과 대표 알고리즘 FCN의 원리 by 코딩재개발 (bskyvision.com)

 

 

Abstract

 

이미지 생성 과정을 denoising auto encoder의 순차적 응용 프로그램으로 분해하여, DM(Diffusion model)은 이미지 데이터 및 그 이상에서 SOTA를 달성한다. 또한 그들의 공식화는 재학습 없이 이미지 생성 프로세스를 제어하는 guiding machanism을 허용한다. 그러나 이러한 모델은 일반적으로 픽셀 공간에서 직접 작동하기 때문에 강력한 DM의 최적화는 종종 수 백일 동안 GPU를 소모하며, sequential evaluation으로 인해 많은 추론 비용을 요구한다. quality와 flexibility를 유지하며서 제한된 computational resources에 대한 DM훈련을 가능하게 하기 위해, 저자들은 그것들을 강력한 pre-trained auto encoder의 latent space(잠재 공간)에 적용한다. 이전과는 달리 이러한 representation에 대한 DM을 훈련하면 처음으로 복잡성 감소와 세부 표현 보존 사이에서 거의 최적의 지점에 도달할 수 있어 visual fidelity가 크게 향상된다. cross-attention layers를 모델 아키텍쳐에 도입함으로써 DM을 텍스트 또는 bounding box와 같은 일반적인 조건 입력을 위한 강력하고 유연한 생성기로 전환하고, 고해상도 합성이 컨볼루션 방식으로 가능해진다. 저자들이 말하는 LDM(Latent Diffusion Model)은 픽셀 기반에 비해 계산 요구 사항을 크게 줄이면서 image inpainting 및 class-conditional image synthesis을 위한 새로운 SOTA 합성, unconditional 이미지 생성 및 super resolution을 포함한 다양한 작업에서 매우 경쟁력 있는 성능을 달성한다. 

 

1. Introduction

 

Image synthesis는 최근데 아장 눈부신 발전을 이룬 컴퓨터 비전 분야 중 하나이지만, 가장 큰 계산 수요를 가진 분야 중 하나이기도 하다. 특히 복잡하고 자연스러운 scene의 고해상도 합성은 현재 likelihood-based modelsscaling up에 지배되고 있으며, 잠재적으로 auto regressive transformer에 수십억개의 매개변수가 포함되어 있다. 그에 비해, GAN의 유망한 결과는 적대적 학습 절차가 복잡한 multi-modal distribution을 모델링하는 것으로 쉽게 확장되지 않기 때문에 비교적 가변성이 제한된 데이터에 대부분 국한된 것으로 밝혀졌다. 최근 denoising autoencoder 계층 구조로 구축된 DM은 이미지 합성 및 그 이상에서 인상적인 결과를 달성하고, class-conditional image synthesis 및 SR에서 SOTA를 달성했다. 또한 다른 유형의 생성 모델과는 달리 unconditional DM조차도 inpainting과 컬러화 또는 stroke-based synthesis과 같은 작업에 쉽게 적용할 수 있다. Likelihood-based model이기 때문에, 그들은 GAN으로서 mode-collapse와 훈련 불안정성을 나타내지 않으며, 매개변수 공유를 크게 활용함으로서 AR모델에서와 같이 수십억개의 매개 변수를 포함하지 않고 자연 이미지의 매우 복잡한 분포를 모델링 할 수 있다.

scale out & scale up
scale out - 접속된 서버의 대수를 늘려 처리 능력 향상. 수평 스케일, scale within 이라고도 불린다. 개개의 처리는 비교적 단순하지만 다수의 처리를 동시 병행적으로 실시하지 않으면 안되는 경우에 적합한데, 갱신 데이터의 정합성(데이터가 서로 모순없이 일관되게 일치해야 하는 경우) 유지에 대한 요건이 별로 어렵지 않은 경우에 적절하다. 즉 높은 병렬성을 실현하기 쉬운 경우이다.
scale up - 서버 그 자체를 증강하는 것에 의해서 처리 능력을 향상시키는 것이다. 수직 스케일로 불리기도 한다. 더 빠른 속도의 CPU로 변경하거나, 더 많은 RAM을 추가하는 등의 하드웨어 장비의 성능을 높이는 것인데, 성능 확장에는 한계가 있고 일반적으로 비용 부담이 크다. 

 

   1) Democratizing High-Resolution Image Synthesis

 

DM은 likelihood-based model에 속하며, mode-covering behavior으로 인해 데이터의 감지할 수 없는 세부 사항을 모델링하는데 과도한 양의 용량(=계산 리소스)을 소비하기 쉽다. Rewerighted된 variational objective는 초기 denoising step을 과소 샘플링하여 이를 해결하는 것을 목표로 하지만, 이러한 모델을 훈련하고 평가하려면 RGB 이미지의 고차원 공간에서 반복적인 함수 평가(및 그래디언트 계산)가 필요하기 때문에 DM은 여전히 많은 리소스를 요구한다. 예를들어 가장 강력한 DM을 훈련하는데는 종종 수백일(V100에서 150~1000일)이 걸리고, 노이즈가 많은 버전의 input space 렌더링에 대한 반복적인 평가도 비용이 많이 들기 때문에 단일 A100 GPU에서 50k의 샘플을 생산하는데 약 5일이 걸린다. 

이는 연구 공동체와 일반 사용자에게 두가지 결과를 초래한다. 

1} 이러한 모델을 훈련하는데는 극히 일부의 현장에서만 사용할 수 있는 방대한 computational resources가 필요하며, 막대한 탄소 발자국을 남긴다.

2} 이미 훈련된 모델을 평가하는 것은 동일한 모델 아키텍쳐가 많은 단계(25~1000단계) 동안 순차적으로 실행되어야 하기 때문에 시간과 메모리 면에서도 비용이 많이 든다.

 

이 강력한 model class의 접근성을 높이고 동시에 엄청난 양의 리소스 소비를 줄이기 위해서는 training과 sampling 과정 모두에 대한 계산 복잡성을 줄이는 방법이 필요하다. 따라서 성능을 손상시키지 않고 DM의 computational demand를 줄이는 것이 접근성을 향상시키는 핵심이다.

 

   2) Departure to Latent Space

 

이 논문에서 보여주는 접근 방식은 픽셀 공간 안에서 pre-trained된 DM의 분석으로 시작한다. Figure 2는 훈련된 모델의 rate-distortion trade-off를 보여준다. 다른 likelihood-based model과 마찬가지로 학습은 크게 두 단계로 나눌 수 있다. 

1} high-frequency detail을 제거하지만 여전희 semantic variation을 거의 학습하지 않는 perceptual compression 단계

2} 실제 생성 모델이 데이터의 semantic, conceptual 구성(의미론적 압축)을 학습한다. 따라서 저자는 먼저 고해상도 이미지 합성을 위한 DM을 훈련하는, 지각적으로 동등하지만 계산적으로는 더 적합한 공간을 찾는 것을 목표로 한다.

rate distortion : 통신에서 코드 X를 바로 전송하지 않고 압축된 코드 Z로 변환해서 전송하는 소스코딩과 관련된 이론. 
perceptual compression : Perceptual compression은 디지털 이미지와 비디오의 파일 크기를 최대한 이미지의 시각적 품질을 유지하면서 줄이는 데 그 목적을 둔 데이터 압축의 한 종류. 이를 위해 사람의 시각 체계가 이미지와 비디오를 처리하고 감지하는 방식을 모방하는 모델을 사용. 이 모델은 엣지, 텍스처, 색상 등 이미지의 각각의 특징에 대한 감지 차이를 고려하여, 중요한 시각적 특징을 유지하면서 가장 적게 눈에 띄는 혹은 중복되는 정보를 압축한다. 결과적으로 원본 이미지 또는 비디오의 전반적인 시각적 품질과 모양을 유지하면서 파일 크기를 줄일 수 있다. 

 

일반적인 관행에 따라 저자는 훈련을 두 개의 명확한 단게로 구분한다. : 첫 번째로 데이터 공간과 지각적으로 동일한 저차원(그리고 효율적인) 표현공간을 제공하는 auto encoder을 훈련시킨다. 여기서 중요한 것은 이전연구와는 달리, 이 논문에서는 spatial dimensionality와 관련하여 더 나은 스케일링 특성을 나타내는 학습된 잠재 공간에서 DM을 훈련하기 때문에, 과도한 공간 압축(spatial compression)에 의존할 필요가 없다는 것이다. 복잡성 감소는 또한 single network pass로 잠재공간에서 효율적인 이미지 생성을 제공한다. 저자는 resulting model class LDM을 더빙한다.

 

이 접근 방식의 주목할 만한 장점은 universal auto encoding 단계를 한번만 훈련하면 되므로 여러 DM 훈련에 재사용하거나, 완전히 다른 작업을 탐색할 수 있다는 것이다. 이를 통해 다양한 I2I 작업 및 T2I 작업을 위한 많은 DM을 효율적으로 탐색할 수 있다. 후자의 경우는, 논문에서는 트랜스 포머를 DM의 Unet backbone에 연결하고 임의의 유형의 token-based conditioning 매커니즘을 가능하게 하는 아키텍쳐를 설계한다. 

Unet : 매우 적은 수의 학습 데이터로도 정확한 image segmentation 성능을 보여줌. *Unet은 추후에 공부 예정
backbone
: 다양한 네트워크를 상호 연결하는 컴퓨터 네트워크의 일부, 각기 다른 LAN이나 부분망 간에 정보를 교환하기 위한 경로를 제공한다.
token conditioning : target behavior의 체계적 강화를 활용하는 조작자 조건화 (operant conditioning)에 기반한 행동 수정 시스템. "토큰"은 원하는 행동의 수행에 따라 주어지며, 그 후 미리 결정된 economy system 내에서 강화제와 교환될 수 있다. (즉 대상이 조작자가 원하는 행동을 하면 토큰을 주면서 그 행동을 더욱 강화. economy system 내라고 단어가 지정된 것은 이 이론이 기존에는 경제적 이론이기 때문인 것 같다. 강화학습이라고 생각하면 될듯)

요약하자면 이 논문에서 말하는 연구는 다음과 같은 기여를 한다 : 

i) purely transformer-based 접근법과 대조적으로, 이들의 방법은 더 높은 차원의 데이터로 품위를 지키며 확장할수 있고, 따라서 (a) 이전 연구보다 더 충실하고 상세한 재구성을 제공하는 압축 수준에서 작업할 수 있다. (Figure 1 참조) (b)는 메가 픽셀 이미지의 고해상도 합성에 효율적으로 적용될 수 있다.

ii) 계산 비용을 크게 낮추면서 여러 작업(unconditional image synthesis, inpainting, stochastic SR)및 데이터셋에서 경쟁력있는 성능을 달성한다.

iii) 인코더/디코더 아키텍처와 score-based prior을 동시에 학습하는 이전 연구와 달리, 이 논문에서는 재구성 및 생성 능력치에 대한 섬세한 가중치를 요구하지 않는다는 것을 보여준다. 이는 매우 faithful reconstruction을 보장하고 잠재 공간의 정규화를 거의 요구하지 않는다.

iv) SR, inpainting 및 semantic synthesis와 같은 조밀하게 conditioned된 작업의 경우, 이들의 모델이 컨볼루션 방식으로 적용될 수 있고, ~ 1024^2 픽셀의 크고 이관된 이미지를 렌더링 할 수 있다는 것을 발견했다.

v) 또한 cross-attention을 기반으로 general-purpose conditioning mechanism을 설계하여 multi-modal training 을 가능케 한다. 이것을 class-conditional, T2I와 이미지 layout-to-image 모델을 훈련하는데 사용한다.

vi) 마지막으로 DM의 훈련 외에도 다양한 작업에 재사용될 수 있는 사전 훈련된 latent diffusion과 auto encoding model을 출시한다.

Reconstruction : Auto encoder가 입력을 재구성하기 때문에 출력을 종종 reconstruction(재구성)이라고 표현한다.
+ reconstruction loss : 입력과 재구성의 차이를 가지고 계산
Semantic image synthesis(SIS) : 분할 mask에서 사실적 이미지를 합성하는 image to image 변환의 하위 클래스.

 

2. Related Work

 

   1) Generative Models for Image Synthesis

 

이미지의 고차원적 특성은 생성 모델링에 뚜렷한 과제를 제시한다. GAN은 좋은 perceptual 품질로 고해상도 이미지의 효율적인 샘플링을 허용하지만, 최적화하기 어렵고 전체 데이터 분포를 capture하기 어렵다. 이와 대조적으로, likelihood-based 방법은 최적화를 더 잘 수행하도록 하는 good density estimation을 강조한다. VAE와 flow-based model(흐름 기반 모델)은 고해상도 이미지의 효율적인 합성을 가능하게 하지만, 샘플의 품질은 GAN과 동등하지 않다. ARM(Auto Regressive Model)은 밀도 추정(density estimation)에서 강력한 성능을 달성하지만, 계산적으로 까다로운 아키텍쳐와 순차 샘플링 프로세스는 저해상도 이미지로 제한한다. 픽셀 기반 이미지 표현에는 거의 감지할 수 없는 고주파 세부 정보가 포함되어 있기 때문에, 최대 우도 훈련(maximum-likelihood training)은 이미지를 모델링 하는 데 불균형한 용량을 소비하여 훈련 시간이 길어진다. 더 높은 해상도로 확장하기 위해, 몇몇 2-stage 접근법은 원시 픽셀 대신 압축된 잠재 이미지 공간을 모델링하기 위해 ARM을 사용한다. 

flow-based generative model : 잠재 벡터 z의 확률 분포에 대한 일련의 역변환(a sequence of invertible transformations) 을 통해 데이터 x의 분포를 명시적으로 학습하며 이를 간단하게 negative log-likelihood로 해결. 

 

   2) Diffusion Probabilistic Models

 

최근 DM은 밀도 추정과 샘플 품질에서 SOTA를 달성했다. 이러한 모델의 생성력은 기본 neural backbone이 Unet으로 구현될 때 이미지와 같은 데이터의 귀납적 편향에 자연스럽게 맞는 데서 비롯된다. 최상의 합성 품질은 일반적으로 reweighted objective가 훈련에 사용될 때 달성된다. 이러한 경우에 DM은 손실 압축기 (lossy compressor)에 해당하며 압축 기능과 이미지 품질을 교환할 수 있다. 그러나 픽셀 공간에서 이러한 모델을 평가하고 최적화하면 추론 속도가 낮고 훈련 비용이 매우 높다는 단점이 있다. 전자는 고급 샘플링 전략(advanced sampling strategies)과 계층적 접근(hierarchical approches)에 의해 부분적으로 해결될 수 있지만, 고해상도 이미지 데이터에 대한 훈련은 항상 비싼 그래디언트를 계산해야 한다. 저자는 낮은 차원의 압축된 잠재 공간에서 작동하는 제안된 LDM으로 두가지 단점을 모두 해결한다. 이는 training을 계산적으로 더 저렴하게 만들고, 거의 합성 품질의 감소 없이 추론을 가속화한다.

 

   3) Two-Stage Image Synthesis

 

개별 생성 접근법(individual generative approaches)의 단점을 완화하기 위해, 많은 연구가 2-stage 접근법을 통해 서로 다른 방법의 장점을 효율적이고 성능적인 모델로 결함하는 데에 노력했다. VQ-VAE는 ARM을 사용하여 이산화된 잠재 공간에 대한 expressive prior을 학습한다.이산화된 이미지 및 텍스트 표현에 대한 공동 분포를 학습하여 이 접근 방식을 T2I 생성으로 확장한다. 더 일반적으로는 조건부 가역 네트워크 (conditionally invertible networks)를 사용하여 다양한 도메인의 잠재 공간 간의 일반적인 전송을 제공한다. VQ-VAE와 달리 VQ-GAN은 auto regressive transformer을 더 큰 이미지로 확장하기 위해 적대적이고 지각적인 목표를 가진 첫번째 단계를 사용한다. 그러나 수십억 개의 훈련 가능한 매개 변수를 도입하는 실현 가능한 ARM 훈련에서, 높은 압축률은 접근 방식의 전반적인 성능을 제한하고, 더 적은 압축률은 높은 계산 비용이 발생한다. 이 논문에서는 제안된 LDM이 convolution backbone으로 인해 더 높은 차원의 잠재 공간으로 더 부드럽게 확장되기 때문에 이러한 절충을 방지한다. 따라서 높은 충실도의 재구성을 보장하면서 생성 DM에 너무 많은 지각 압축을 남기지 않고, 강력한 첫 번째 단계 학습 사이를 최적으로 중재하는 압축 수준을 자유롭게 선택할 수 있다.

 

공동의, 또는 별도에 대한 접근 방식이 score-based prior과 함께 인코딩/디코딩 모델을 학습하는 것이 존재하지만, 전자는 여전히 재구성과 생성 능력 사이의 difficult weighting을 요구하며 저자의 접근 방식에 의해 능가되면, 후자는 인간 얼굴과 같은 고도로 구조화된 이미지에 초점을 맞추고 있다.

 

3. Method

 

고해상도 이미지 합성을 위한 training diffusion model의 계산상 수요를 낮추기 위해, 저자는 DM이 해당 loss term을 under sampling함으로써 지각적으로 무관한 세부 사항을 무시할 수 있지만, 여전히 픽셀 공간에서 비용이 많이 드는 function evaluation이 필요하며, 이는 계산에서 시간 및 에너니 자원을 크게 요구한다. 

under sampling : 불균형한 데이터 셋에서 높은 비율을 차지하던 클래스의 데이터 수를 줄임으로써 데이터 불균형을 해소. 하지만 학습에 사용되는 전체 데이터 수를 급격하게 감소시킴으로써 오히려 성능이 떨어질 확률이 있음.
over sampling : 낮은 비율 클래스의 데이터 수를 늘림으로써 데이터 불균형 해소. 어떻게 없던 데이터를 생성하냐에 따라 성능 결과가 달라진다.
down sampling : sample의 개수를 줄이는 처리과정. (딥러닝에서는 인코딩할 때 data의 개수를 줄이는 처리과정)

 

저자는 생성 학습 단계에서 압축의 분명한 분리를 도입하여 이러한 단점을 피할 것을 제안했다. (Figure 2 참조.)  이를 위해 이미지 공간과 지각적으로 동일한 공간을 학습하지만, 계산 복잡성을 크게 줄이는 auto encoding model을 활용한다.

 

이러한 접근 방식은 몇가지의 어드밴티지를 제공한다. 

i) 고차원 이미지 공간을 떠나면 샘플링이 저차원 공간에서 수행되기 때문에 계산적으로 훨씬 더 효율적인 DM을 얻는다.

ii) UNet 아키텍쳐에서 상속된 DM의 유도 편향을 활용하여 공간 구조를 가진 데이터에 특히 효과적이며, 따라서 이전 접근 방식에서 요구하는 공격적이고 품질을 낮추는 압축 수준의 필요성을 완화한다. 

iii) 마지막으로, 잠재 공간을 사용하여 여러 생성 모델을 훈련할 수 있고 단일 이미지 CLIP 유도 합성과 같은 다른 downstream 응용 프로그램에도 사용할 수 있는 범용 압축 모델을 얻는다.

 

   3.1) Perceptual Image Compression

 

이 논문에서 지각 압축 모델은 이전 연구를 기반으로 하며 지각 손실과 patch-based adversarial objective의 조합으로 훈련된 auto encoder로 구성된다. 이는 enforcing local realism을 적용하여 재구성이 이미지 매니폴드로 제한되도록 하고, L2 또는 L1 목표와 같은 픽셀 공간 손실에만 의존하여 발생하는 흐릿함을 방지한다.

patch-based approch : 이미지 처리에서 이미지가 작은 패치로 분할 된 다음 각 패치가 개별적으로 처리되는 접근 방식.
adversarial patch
: 의도적으로 특정 대상으로 인식되도록 하는 것. (이 논문에서는 어떤 의미로 등장했는지 모르겟음, 추측하기에는 이러한 의도까지 포함하는 훈련을 학습한듯,,,,,.? 진짜 개인적인 생각)
+ local realism은 뭔가 물리..? 역학쪽에서 나오는 단어 같은데 무슨 뜻인지 모르겠음ㅋㅋ

+ 추가 설명. patch based adversarial objective는 patch gan 논문에서 자세히 볼 수 있다. 이미지 전체를 이용해서 판별하지 않고, 이미지 내의 패치를 특정 단위로 잘라서 true/false를 판단. L1/L2 loss를 사용했을 때 나타날 수 있는 blurriness를 완화할 수 있음. 

( 이후에 수식이 많이 나오는 부분은 캡쳐로 대신. 대략적으로 RGB 공간 내에서 일어나는 내용.)

 

 

임의의 high-variance latent space를 피하기 위해, 저자는 두가지의 다른 종류의 정규화를 실험했다. 

첫번째로 KL-requirements는 학습된 latent에 대한 표준 정규식에 대해 약간의 KL-penalty를 부여하는 방식에서는 VAE와 유사하지만, VQ-regularization은 디코더 내에서 vector quantization layer을 사용한다. 이 모델은 VQ-GAN으로 해석이 될 수 있지만, 디코더에 의해서 흡수된 quantization layer을 함께 사용한다. 이 논문에서의 후속 DM은 학습된 잠재공간 z = E(x)의 2차원 구조와 함께 작동하도록 설계되었기 때문에 비교적 가벼운 압축률을 사용하고 매우 뛰어난 재구성을 달성했다. 이전의 연구는 학습된 공간 z의 임의의 1D ordering에 의존하여 분포를 autoregressively하게 모델링하여 z의 고유 구조를 상당 부분 무시하였는데, 이와는 대조적이다. 따라서 저자의 compression 모델은 x의 세부 사항을 더 잘 보존할 수 있다.

 

   3.2) Latent Diffusion Models

 

1. Diffusion Models

 

DM은 정규 분포 변수를 점진적으로 denoising하여 데이터 분포 p(x)를 학습하도록 설계된 확률론적 모델이다. 길이 T의 fix된 마르코프 체인 의 역과정을 학습하는 것에 해당한다. 이미지 합성을 위해, 가장 성공적인 모델은 denoising score-matching을 반영하는 p(x)의 변동적인 하한의 reweighted에 의존한다. 이러한 모델은 denoising auto encoder e(xt, t) ; t : 1....T 의 동일한 가중치 시퀀스로 해석될 수 있으며, 이는 입력 x의 노이즈가 많은 버전인 xt를 denoisied variant를 예측하도록 훈련된다. 

2. Generative Modeling of Latent Representations

 

E와 D로 구성된, 저자들의 훈련된 지각 압축 모델을 통해 저자들은 이제 고주파의 감지할 수 없는 세부사항이 추상화되는 효율적이고 low-dimensional latent space에 접근할 수 잇다. 고차원 픽셀공간과 비교하자면 이 공간은

i) 데이터의 중요한, semantic bits에 초점을 맞추고

ii) 저차원, 계산적으로 훨씬 효율적인 공간에서 훈련할 수 있기 때문에 likelihood-based pixel space에 훨씬 적합하다. 

 

고도로 압축된 discrete latent space에서 auto regressive, attention - based transformer 모델에 의존했던 이전 연구와는 달리, 저자는 저자들의 모델이 제공하는 image-specific inductive biases를 이용할 수 있다. 여기에는 주로 2D convolutinal 레이어에서 기본 U-Net을 구축하는 기능이 포함되며, 더 나아가 현재 

을 읽는 reweighted bound를 사용하여 지각적으로 가장 관련성이 높은 bits에 목표를 집중시킨다.

 

이 모델의 neural backbone e_세타(o, t)는 time-conditional U-Net으로 실현된다. Forward process가 고정되어있기 때문에 훈련 중 E로 부터 z_t를 효율적으로 얻을 수 있고, p(z)로 부터 샘플을 single pass로 D를 통과하여 영상공간으로 디코딩 할 수 있다. 

 

 

3. Conditioning Mechanisms

 

다른 타입의 생성 모델과 마찬가지로 Diffusion model은 원칙적으로 p(zㅣy) 형식의 조건부 분포를 모델링 할 수 있다. 이것은 조건부 denoising autoencoder e_세타(z_t, t, y) 로 구현될 수 있으며, 텍스트, semantic 맵 또는 다른 I2I 변환 작업과 같은 input y를 통해 synthesis process를 컨트롤할 수 있는 길을 열어준다.

 

그러나 image synthesis 맥락에서 DM의 생성력을 class-label 또는 인풋 이미지의 blurred variants를 넘어서는 다른 유형의 조건과 결합하는 것은 아직 충분히 연구되지 않았다. 

 

저자는 다양한 인풋 양식의 attention-based model을 학습하는데 효과적인 cross-attention 매커니즘으로 U-Net backbone을 증가시켜 DM을 더욱 flexible conditional image generators로 전환한다. 다양한 양식(language prompts와 같은) 에서 y를 pre-process하기 위해 중간 표현(intermediate representation) 𝛕_θ(y)∈R^(M*d𝛕) 에 투영하는 도메인별 인코더 𝛕_θ를 도입한, 

를 구현하는 cross-attention layer를 통해 U-Net의 중간 layer에 매핑한다. 

Attention model에서의 (seq2seq에서 어텐션)
Q = Query : t시점의 디코더 셀에서의 은닉 상태
K = Keys : 모든 시점의 인코더 셀의 은닉 상태들
V = Values : 모든 시점의 인코더 셀의 은닉 상태들

+ 기존의 Q와 K는 다르지만 셀프 어텐션에서는 QKV가 전부 동일.

 

여기서 

 

은 e_θ를 구현하는 U-Net의 (flattened) 중간 표현을 나타내며, W는 학습 가능한 projection atrices이다. Fig.3에서 시각적 설명을 보여준다. image-conditioning 쌍을 기반으로, 저자는 

을 통해 conditional LDM을 학습한다. 여기서 𝛕_θ와 e_θ는 모두 이 식을 통해 공동으로 최적화된다. 𝛕_θ는 domain-specific experts( ex. y가 텍스트 프롬프트일 때 (unmasked) transformer)를 매개변수화 할 수 있으므로 이 conditioning mechanism은 flexible하다. 

 

실험에서 사용한 데이터셋은 CelebH!, FFHQ, LSUN-Churches, LSUN-Beds, ImageNet

CelebA-HQ는 미국 헐리우드 셀럽들 사진 모아둔 데이터셋. 

 

4. Experiments

 

LDM은 다양한 이미지 양식의 유연하고 계산적으로 다루기 쉬운 diffusion based image synthesis에 수단을 제공한다. 그러나 먼저 저자는 훈련과 추론 모두에서 픽셀 기반 DM과 비교하여 모델의 개선점을 분석한다. 흥미로운 점으로는, 저자는 VQ-regularized latent space에서 훈련된 LDM이 때때로 더 나은 샘플 품질 성능을 보인다는 것을 발견했다. VQ-regularized된 1단계 모델의 reconstruction 능력이 continous counterparts보다 약간 뒤떨어진다.

 

   4.1) On Perceptual Compression Tradeoffs

 

이 섹션은 서로 다른 downsampling factors f ∈ {1,2,4,8,16,32} (LDM-f로 약칭. 여기서 LDM-1은 픽셀 기반 DM에 해당.)를 가진 LDM의 동작을 분석한다. 유사한 test-field를 얻기 위해, 저자는 이 섹션의 모든 실험에 대해 계산 리소스를 단일 NVIDIA  A100으로 고정하고 동일한 수의 단계와 매개 변수에 대해 모든 모델을 훈련시켰다. 

이 절에서 비교한 LDM에 사용된 1단계 모델의 하이퍼 파라미터와 재구성 성능.

저자는 

i) LDM-{1, 2}에 대한 작은 down sampling 요소가 느린 train progress 초래

ii) 지나치게 큰 값이 비교적 적은 훈련단계 후 fidelity를 정체시키는 원인

이렇게 두 가지 원인을 분석했다. 이는 또 다시

i) perceptual compression의 대부분을 DM에 맡김

ii) 너무 강한 1단계 압축으로 인한 정보 손실이 발생하여 달성 가능한 품질을 제한

이라고 다시 원인을 분석했다. LDM-{4-16}은 효율성과 지각적으로 충실한 결과 사이에서 좋은 균형을 보여주는데, 이는 2M training step 후 픽셀 기반 DM(LDM-1)과 LDM-8 사이에서 38의 상당한 FID gap을 보여준다.

 

저자는 CelebA-HQ와 ImageNet에서 훈련된 모델을 DDIM 샘플러와 서로 다른 노이즈 제거 단계 수에 대한 샘플링 속도 측면에서 비교하고 FID 점수 역시 비교했다. LDM-{4-8}은 지각 압축과 개념 압축의 비율이 적절하지 않은 모델보다 성능이 뛰어나다. 특히 픽셀 기반의 LDM-1에 비해 훨씬 낮은 FID 점수를 달성하는 동시에 샘플 처리량을 크게 증가시켰다. ImageNet과 같은 복잡한 데이터 세트는 품질 저하를 방지하기 위해 압축률을 낮춰야 한다. 즉 결과적으로, LDM-4와 -8은 고품질 합성 결과를 얻기 위한 최적의 조건을 제공한다.

 

   4.2) Image Generation with Latent Diffusion

 

저자는 CelebA-HQ, FFHQ, LSUN-churchs, -Bedroom에서 2562의 이미지의 unconditional model을 학습. 이는 GAN뿐만 아니라 이전 likelihood-based model을 능가하는 새로운 최첨단 FID를 달성함. 또한 LSGM 역시 능가. LSGM은 LDM이 첫번째 단계와 함께 공동으로 훈련되고, 대조적으로 저자의 모델은 고정된 공간에서 DM 훈련. 또한 이전 학습과 비교하여 reconstruction quality를 평가하는데 어려움이 없다. 이 모델은 매개변수의 절반만을 사용하고, 4배 적은 훈련 리소스를 요구함에도 불구하고 점수가 ADM에 근접하고, LSUN-Bedrooms데이터 셋을 제외한 모든 이전의 diffusion based 접근 방식을 능가한다.

 

또한 LDM은 Precision 및 Recall에서 GAN 기반 방법을 지속적으로 개선하여, adversarial 접근법에 비해 mode-covering likelihood-based 훈련 목표의 장점을 보여준다.

 

Figure 6. ImageNet 데이터셋에서 2M 이상의 훈련 단계에 대해 서로 다른 downsampling 요소를 가진 class-conditional LDM의 훈련을 분석한다. 픽셀 기반 LDM-1은 downsampling 계수가 더 큰 모델(LDM-{4-16})에 비해 훨씬 더 많은 훈련 시간이 필요하다. LDM-32에서와 같은 너무 많은 perceptual compression은 전체 샘플 품질을 제한한다. 모든 모델은 동일한 computational budget으로 단일 NVIDIA A100에서 훈련받는다. 100개의 DDIM step과 k=0으로 얻은 결과.

Figure 6. LDM 뒤의 숫자들은 down scale vector , 즉 내가 input image를 몇 배 down sampling 해서 인코딩을 만들 것이냐 라는 선택사항. LDM 1은 압축을 안한것, 즉 pixel based DDPM이라는 뜻이다. LDM-8이 가장 성능이 좋음. 하지만 LDM-32처럼 down sample을 너무 많이 하게 되면 병목 현상이 일어나 성능이 떨어진다. 

bottleneck(병목) 현상 : 말 그대로 병의 입구(목)처럼 길이 좁아지는 것. 대표적으로는 컴퓨터 성능 저하 현상. 엄청난 양의 데이터를 순식간에 내보낼 때 메모리가 이를 제대로 소화하지 못해 성능이 떨어지는 현상. 전체 처리 과정이 느려질 수 있음.

 

CelebA-HQ(왼쪽), ImageNet(오른쪽). 두 가지 데이터 셋에서 다양한 압축을 사용하여 LDM 비교. 서로 다른 마커들은 각 라인을 따라 오른쪽에서 왼쪽으로 DDIM을 사용하여 10, 20, 50, 100, 200개의 샘플링 단계를 각각 나타낸다. 점선은 200 단계에 대한 FID 점수를 보여주며, 이는 LDM-{4-8}의 강력한 성능을 보여준다. 모든 모델은 A100에서 500k(CelebA)/2M(ImageNet)단계에 대해 train되었다.

throughput : 초당 몇 샘플을 찍어내는지. 

이 결과로 알수있는 것 : 

1. LDM-1은 아무리 step을 줄여도 throughput 결과가 한계가 보인다. (성능이 좋아지기 힘듦)

2. CelebA-HQ에서는 LDM 32가 성능이 좋게 나오지만, ImageNet과 같은 복잡한 데이터셋에서는 downsample 수가 많은것이 결코 도움이 되지 않는다.

압축을 많이 할수록 우리가 만들어야 하는 data dimension이 작아지니 throughput 값이 증가할 수 밖에 없다. 결과를 보게되면 CelebA는 많이 압축을 해도 성능이 나오지만, ImageNet에서는 압축을 32번 하면 FID점수가 좋지 않게 나오는 것을 볼 수 있음. (추측인데 이는 CelebA의 데이터 셋 양이 비교적 적어서 이거나, 압축을 비교적 low dimensional subspace에서 하기 때문일 수 도 있지만 일단 논문에서는 말해주지 않는다...)

 

 

 

   4.3) Conditional Latent Diffusion

 

1. Transformer Encoders for LDMs

 

Cross-attention 기반 조건화를 LDM에 도입함으로써 저자는 DM에 대해 이전에 탐구되지 않았던 다양한 conditioning modalities에 대해 드러낸다. T2I 이미지 모델링을 위해 LAION-400M의 언어 프롬프트에 따라 조건화된 1.45Billion 매개 변수 K-regularized LDM을 훈련한다. 저자는 BERT-Tokenizer를 사용하고 𝛕_θ를 transformer로 구현하여 (multi-head) cross-attention을 통해 U-Net에 매핑된 latent code를 추론한다. 언어 표현과 시각적 합성을 학습하기 위한 domain specific experts의 이러한 조합은 강력한 모델을 만들어 복잡한 사용자 정의 텍스트 프롬프트로 일반화한다. Quantitative analysis를 위해 저자는 이전의 작업을 따르고 MS-COCO 검증 세트에서 T2I 생성을 평가한다. 여기서 저자의 모델은 강력한 AR과 GAN-based 방법을 개선한다. Classifier-free diffusion guidance를 적용하면 샘플 품질이 크게 향상되어, guided LDM-KL-8-G가 T2I 합성을 위한 최신 AR 및 DM과 동등하며서도 매개 변수 수를 크게 줄일 수 있다는 점에 주목한다. Cross-attention based conditioning 매커니즘의 flexibility를 추가로 분석하기 위해 OpenImages에서 semantic layout을 기반으로 이미지를 합성하고 COCO에서 미세조정하는 모델을 훈련한다.

 

2. Convolutional Sampling Beyond 256^2

 

Spatially aligned된 conditioning 정보를 e_θ의 입력에 연결함으로써 LDM은 효율적인 general purpose I2I 변환 모델 역할을 할 수 있다. 저자는 이것을 semantic synthesis, super-resolution, inpainting 을 위한 모델을 훈련하기 위해 사용한다. Semantic synthesis를 위해 저자는 semantic maps와 쌍을 이룬 풍경의 이미지를 사용하고, down sampling된 버전semantic maps를 f = 4 모델(VQ-reg)의 latent image representation과 연결한다. 논문의 모델은 256^2 (384^2로 크롭된)의 입력 해상도에 대해 훈련하지만, 더 큰 해상도로 일반화 되면서 컨볼루션 방식으로 평가할 때 megapixel 체제로 이미지를 생성 할 수 있다는 것을 발견했다. 저자는 이러한 방식을 이용하여 Section 4.4항의 Super resolution 모델과 4.5항의 inpainting 모델을 적용하여 512^2와 1024^2 사이의 큰 이미지를 생성한다. 이 응용 프로그램의 경우(latent space의 scale에 의해 유도되는), signal-to-noise ratio는 결과에 상당한 영향을 미친다. Section D.1에서 (i) f = 4 모델에 의해 제공된 잠재공간에 대한 LDM을 학습할 때, 그리고 (ii) 구성 요소별 표준 편차에 의해 scaled된 rescaled 버전을 설명한다. 여기서 후자는 classifier-free guidance와 결합하여 text-conditional LDM-KL-8-G에 대해 >256^2 이미지의 직접 합성을 가능하게 한다.

 

   4.4) Super-Resolution sith Latent Diffusion

 

LDM은 연결을 통해 저해상도 이미지를 직접 조정함으로써 초해상도를 위해 효율적으로 훈련될 수 있다. 첫 번째 실험에서, 우리는 SR3을 따르고 이미지 degradation을 4×- downsampling을 사용하는 bicubic interpolation으로 수정하고, SR3의 data processing pipeline을 따라 ImageNet에서 훈련한다. 저자는 OpenIages에서 pretrain된 f = 4 auto encoding을 사용하고, low-resolution conditioning y와 U-Net에 대한 입력, 즉 𝛕_θ가 ID이다. 저자의  qualitative and quantitative results는 경쟁력 있는 성능을 보여주며, LDM-SR은 FID에서 SR3보다 성능이 우수했다(SR3가 더나은 IS를 가짐). A simple image regression model은 가장 높은 PSNR 및 SSIM 점수를 달성했지만, 이러한 metric은 인간의 인식과는 잘 일치하지 않으며 불완전하게 정렬된 고주파 세부 사항보다 흐릿함을 훨씬 선호한다. 또한 저자는 pixel-baseline을 LDM-SR과 비교하는 user study를 수행한다. 저자는 피실험자가 두개의 고해상도 이미지 사이에서 저 해상도 이미지를 보여주고 선호를 묻는다. PSNR과 SSIM은 post-hoc guiding 매커니즘을 사용하여 추진할 수 있으며, 저자는 perceptual loss을 통해 이 이미지 기반 가이드를 구현한다. 

 

Bicubic degradation 과정은 이 전처리를 따르지 않는 이미지로는 잘 일반화되지 않기 때문에, 저자는 더욱 다양한 degradation을 사용하여 generic 모델인 LDM-BSR을 훈련시킨다.

 

   4.5) Inpainting with Latent Diffusion

 

Inpainting은 이미지의 일부가 손상되었기 때문에 이미지의 마스킹된 영역을 새로운 콘텐츠로 채우거나 이미지 내에서 기존의, 그러나 원하지 않는 콘텐츠를 대체하는 작업이다. 조건부 이미지 생성을 위한 일반적인 접근 방식이 이 작업에 대한 보다 전문화된 최첨단 접근 방식과 어떻게 비교되는지 평가한다. 저자의 평가는 고속 푸리에 컨볼루션에 의존하는 특수한 아키텍쳐를 사용하는 최근의 인페인팅 모델인 LaMa의 프로토콜을 따른다.

 

저자는 먼저 첫 번째 단계에 대한 다양한 설계 선택의 효과를 분석한다. 특히 KL과 VQ regularization 모두에 대해 LDM-1(픽셀 기반 조건부 DM)의 인페인팅 효율성을 LDM-4와 비교하며, 여기서 후자는 고해상도 디코딩을 위해 GPU 메모리를 감소시킨다. 비교 가능성을 위해 모든 모델에 대한 매개 번수 수를 고정한다. 표 6은 해상도 256^2와 512^2에서 훈련 및 샘플링 처리량, 에포크당 총 훈련 시간 및 6 에포크 이후 validation split에 대한 FID점수를 보고한다. 전반적으로 저자는 pixel-based과 latent-based DM 사이의 속도가 최소 2.7배 향상되는 동시에 FID 점수를 최소 1.6배 향상시키는 것을 관찰했다. 

 

(아래에는 이 결과를 바탕으로 더 큰 확산모델에서의 훈련 결과를 보여줌)

 

5. Limitations & Societal Impact

 

Limitation

 

LDM은 pixel-based 접근 방식에 비해 computational requirements를 크게 줄이지만, 순차적 샘플링 프로세스는 여전히 GAN보다 느리다. 게다가 LDM의 사용은 high precision이 요구될 때 의문스러울 수 있다. 비록 저자의 f = 4 auto encoding model에서 이미지 품질의 손실이 매우 적긴 하지만, 이것의 reconstruction 능력은 픽셀 공간에서 세밀한 정확도를 요구하는 작업의 bottleneck 현상이 될 수 있다. 저자는 초고해상도 모델이 아마 이 점에서 제한되어 있을 것이라고 가정한다.

 

Societal Impact

 

이미지와 같은 미디어의 생성 모델은 양날의 검이다 : 한편으로는, 그들은 다양한 창의적인 응용을 가능하게 하며, 특히 훈련 및 추론 비용을 줄이는 이 논문의 접근 방식은 이 기술에 대한 접근을 용이하게 하고 탐색을 더욱 접근하기 쉽게 만드는 잠재력을 가지고 있다. 다른 한편으로는, 이것은 또한 조작된 데이터를 만들고 유포하거나 잘못된 정보와 스팸을 퍼뜨리는 것이 더 쉬워졌다는 것을 의미한다. 특히 이미지의 의도적인 조작 (ex. 딥페이크)은 이러한 맥락에서 일반적인 무젠이며, 특히 여성들이 불평등하게 영향을 받는다. 

 

생성 모델은 또한 훈련 데이터를 공개할 수 있는데, 이는 데이터에 민감한 정보나 개인 정보가 포함되어 있고 명시적인 동의 없이 수집된 경우 큰 우려가 표해진다. 그러나 이것이 이미지의 DM에 적용되는 범위는 아직 완전히 밝혀지지 않았다. 

 

마지막으로, 딥 러닝 모듈은 데이터에 이미 존재하는 편견을 재현하거나 악화시키는 경향이 있다. DM은 예를들어 GAN 기반 접근 방식보다 데이터 분포의 coverage를 더 잘 달성하지만, 적대적 훈련과 likelihood-based 목표를 결합한 2단계 접근 방식이 데이터를 mispresents 하는 정도는 여전히 연구 과정중이다. 

 

6. Conclusion

 

이 논문에서는 DM의 품질을 저하시키지 않는 노이즈 제거 훈련과 샘플링 효율을 크게 향상시킬 수 있는 간단하고 효율적인 방법인 LDM을 제시했다. 이것과 cross-attention conditioning 매커니즘을 기반으로, 이 실험은 task-specific architecture없이 광범위한 조건부 이미지 합성 작업에서 SOTA를 보여준다.

 

 

jointly train 이란 : 여러 개의 loss를 다 합한 후 최종 loss를 구해 사용하는 방식. 각 채널이 서로 다른 역할을 수행하려면 그에 맞는 loss function을 정의해줘야 한다. 즉 여러개의 loss function이 존재하는데, 이를 통해 total loss를 구해 모든 task를 한번에 학습하는 방식.

 

 


< 개인적으로 헷갈리는 이론 정리>

 

Semantic Segmentation : 이미지 내에 있는 물체들을 의미 있는 단위로 분할해내는 것 = 이미지의 각 픽셀이 어느 클래스에 속하는지 예측하는 것.

patch based adversarial objective : 이미지 전체를 이용해서 판별하지 않고, 이미지 내의 패치를 특정 단위로 잘라서 true/false를 판단. GAN에서 많이 사용하고 patch GAN이라는 논문 역시 존재.