Abstract
현재의 T2I 모델은 탁월한 능력을 보여주지만, 의미를 완전히 전달하는 이미지를 생성하는데는 여전히 실패할 확률이 있다. 이 논문에서는 공개젹으로 사용 가능한 Stable Diffusion을 분석하고, 이를 이용하여 입력 프롬프트에서 하나 이상의 주제를 생성하지 못하는 catastrophic neglect를 평가한다. 또한 모델이 해당 주제의 속성(예를 들어 색깔과 같은)을 올바르게 bind하지 못한다는 일부 케이스를 발견했다. 이러한 실패를 줄이기 위해 이 논문에서는 생성된 이미지의 fidelity를 향상시키기 위해 inference time동안 신속하게 생성 프로세스에 개입하는 것을 추구하는 Generative Semantic Nursing(GSN)이라는 개념을 소개한다. Attend - and - Excite라는 GSN의 attention-based formulation을 사용하여, cross-attention units이 텍스트 프롬프트의 모든 subject token에 전념하고, activation을 강화하거나 excite하도록 모델을 세분화 하여 결국 모든 주제를 생성하도록 유도한다. 저자는 alternative approaches와 자기들의 approaches를 비교하고 개념을 충실하게 전달하는 것을 보여준다.
1. Introduction
T2I 모델의 두가지 핵심 의미론적 문제 :
i) 프롬프트의 주제가 하나 이상이 생성되지 않는 "catastrophic neglect"
ii) 모델이 속성을 잘못된 주제에 바인딩하거나 완전히 바인딩하지 못하는 "attribute binding"
예시 사진을 보면, 왼쪽 사진은 모델이 파란색 고양이를 생성하지 못하고 그릇 생성에만 집중하는 "catastrophic neglect"
오른쪽 사진은 노란색이 bow가 아닌 벤치에 잘못 바인딩 되는 "attribute binding".
이러한 semantic 이슈를 완화시키기 위해 GSN의 개념을 도입한다. GSN 프로세스에서 denoising 프로세스의 각 timestep에서 latent code를 약간 약간 이동시켜 latent가 입력 프롬프트에서 전달된 semantic information을 더 잘 고려할 수 있도록 권장된다.
이 논문의 저자는 pre-trained된 diffusion model의 강력한 cross attention map을 사용하는 Attehn-and-Excite이라는 GSN이라는 형태를 제안한다. attention map은 각 이미지 패치의 text token에 대한 확률 분포를 정의하며, 이는 패치에서 지배적인 토큰을 결정한다. 저자는 이러한 T2I 상호 작용이 무시당하기 쉽다는 점을 관찰했다. 비록 각 패치가 모든 텍스트 토큰에 자유롭게 적용될 수 있지만, 이미지의 일부 패치에 대해 모든 토큰이 적용되는지 확인하는 매커니즘은 존재하지 않는다. Subject token이 수반되지 않는 경우 그에 동반되는 subject는 출력 이미지에 표시되지 않는다.
따라서 직관적으로, 생성된 이미지에 subject가 존재하기 위해서, 모델은 subject의 토큰에 적어도 하나의 이미지 패치를 할당해야 한다. Attend-and-Excite는 각 subject 토큰이 일부 패치에서 지배적일 것을 요구함으로써 이러한 직관을 구체화한다. 저자는 각 denoising timestep에서 latent를 신중하게 guide하고, 모델이 모든 subject token에 주의를 기울이고 activation을 강화하거나 excite하도록 권장한다. 여기서 중요한 것은 저자의 approach가 inference time동안 즉각적으로 적용되며 추가 훈련이나 파인튜닝이 필요하지 않다는 점이다.
증명된 바와 같이 Attend-and-Excite는 catastrophic neglect 문제만 명시적으로 다루지만, 저자의 솔루션은 특징과 subject 사이의 올바른 바인딩을 제안한다. 이는 catastrophic neglect와 binding이라는 두가지 문제 사이의 연관성 때문이라고도 할 수 있다. Pre-trained 된 텍스트 인코더에 의해서 얻은 text embedding은 각 subject와 해당 attributes 사이의 정보를 연결한다. 예를 들어 "노란 그릇과 파란 고양이"라는 프롬프트에서 토큰 cat은 text encoding 과정 중 토큰 blue로부터 정보를 수신한다. 그러므로 고양이에 대한 catastrophic neglect를 완화하는 것은 이상적으로는 색상의 attribute를 향상시켜야 한다는 거시다. (즉 고양이와 파란색 사이의 정확한 결합을 허용)
저자는 Stable diffusion과 similar semantic issue를 탐구하는 대안에 대해서 Attend and Excite의 우수성을 입증한다.
추가적으로 Attend and Excite 없이 실현된 cross attention map을 분석하고, 생성된 콘텐츠에 대한 explanation form으로 cross attention을 사용할 수 있도록 하는 동시에 catastrophic neglect를 완화하기 위해 저자의 방법의 중요성을 입증한다.
2. Related Work
초기에는 GAN 사용했으나 최근에는 large scale auto-regressive model과 Diffusion model 사용.
그러나 입력과 충실하게 일치하는 이미지 생성은 어려움. 텍스트에 대한 의존도를 높이기 위해 classifier free guidance를 사용하면 text-driven gradients를 extrapolatind(외삽)하여 의존도를 강화할 수 있다. 그러나 이 기술을 사용하는 경우에는 광범위한 prompt engineering이 필요한 경우가 많다.
사용자에게 synthesis process에 대한 더 많은 제어권을 제공하기 위해 몇몇 연구는 segmentation map 또는 spatial conditioning 사용.
Spatio-textual representation for controllable image generation.
Make-ascene: Scene-based text-to-image generation with human priors.
Image generation from layout. In CVPR, 2019
다른 related work는 모델의 임베딩 공간에서 이미지 세트를 "word"에 매핑하는 방법을 학습하여 pre trained된 T2I 모델에 특정 개념을 도입하는 것을 목표로 한다.
An image is worth one word: Personalizing text-to-image generation using textual inversion.
Multi-concept customization of text-to-image diffusion.
Fine tuning text-to-image diffusion models for subject-driven generation.
최근에는 Composable iffusion 모델과 Structure Diffusion이 semantic flaws를 탐구했다.
Text based image synthesis에는 객체 관계 및 구성과 같은 additional semantic issue가 있다는 점을 유의해야함. 이 모델의 문제를 해결하려면 객체 관계를 해결하는 추가 모델이 필요할 수 있는데 이는 pretrain된 생성모델의 inference time 범위와 벗어난다.
3. Preliminaries
1. LDM
저자는 Stable Diffusion에서 기술 적용.
SD는 이미지 공간이 아닌 오토인코더 latent space에서 작동. 인코더 E는 주어진 이미지 x를 잠재 공간 z로 매핑하는데 사용되고, 디코더 D는 입력이미지를 재구성 하는 것이 목표.
(아는 내용이니까 pass)
2. Text-Conditioning Via Cross-Attention
Stable Diffusion에서 Text guidance는 cross attention 매커니즘을 사용한다. Denoising U-Net 네트워크는 해상도가 64, 32, 16 및 8인 cross attention layer를 따르는 self attention layer로 구성된다.
각 타임 스텝 t에서, denoising network의 중간 feature는 cross attention을 통해 guiding text의 임베딩에서 정보를 받는다. 중간 feature map(P∈{64, 32, 16, 8})의 공간적 차원을 P로, 프롬프트의 텍스트 토큰 수를 N으로 나타낸다.
그림 3의 두번째 행에 설명된 대로, 중간 feature(Q)와 텍스트 임베딩(K)의 linear projection에 대해 attention map A_t가 계산된다. A_t는 각 공간 패치 (i, j)에 대한 텍스트 토큰의 분포를 정의한다. 구체적으로, A_t[i, j, n]은 중간 feature map의 (i, j)번째 패치에 대해 토큰 n에 할당된 확률을 나타낸다. 직관적으로 이 확률은 토큰 n에서 패치 (i, j)로 전달될 정보의 양을 나타낸다. 각 P*P셀의 최대값이 1이라는 점을 유의해야 한다.
의미 정보가 가장 많이 포함된 16*16 attention unit에서 작동한다.
4. Attend-and-Excite
이 논문의 핵심 아이디어는 GSN(Generative semantic nursing)의 개념에 있다. 이것은 각 timestep t에서 노이즈가 있는 latent code를 보다 semantic하게 정확한 생성물로 조금씩 이동시키는 것이다. 각 denoising step t에서, 프롬프트 P에서 subject token들의 attentin map을 고려한다. 직관적으로, 합성된 이미지에 subject가 포함되기 위해서는 이미지의 어떠한 패치에 높은 영향을 미쳐야 한다. 따라서 저자는 각 subject token의 attention 값을 최대화 하려는 손실 목적 함수를 정의한다. 그런 다음 계산된 loss의 gradient에 따라 시간 t의 noised latent를 업데이트 한다. 이를 통해 다음 timestep의 latent가 더 나은 방식으로 모든 subject token을 포함하도록 유도한다. 이 조작은 inference 과정에서 실시간으로 수행된다. (즉 additional training이 수행되지 않는다.
다음 섹션에서는 그림 3에 설명된 대로 single denoising timestep t에 대해 알고리즘 1에서 제시된 각 단계를 논의한다.
1. Extracting the Cross-Attention Maps
주어진 입력 텍스트 프롬프트 P에서, 저자는 P에 있는 모든 주어진 token(예 : nouns) S의 집합을 고려한다. 저자의 목적은 각각의 토큰 S에 대해 이미지 패치에 대한 해당 토큰 S의 영향을 나타내는 spatial attention map을 추출하는 것이다.
현재 timestep에서의 noised latent z_t가 주어지면, 저자는 z_t와 P를 사용하여 pretrain된 U-Net 네트워크를 통해 forward pass를 수행한다(알고리즘 1의 Step 1). 그 다음, 16*16 attention layer과 head를 모두 평균화 한 후 얻은 cross-attention map을 고려한다. 결과적으로 얻은 총계 맵 A_t에는 P의 각 토큰에 대한 하나의 N spatial attention map이 포함된다.
Pretrain된 CLIP text encoder는 프롬프트 P에 대해 specialized token <sot>를 추가하며, 이것은 텍스트의 시작을 나타낸다. 텍스트 인코딩 과정에서 <sot> 토큰은 프롬프트에 대한 전역 정보(global imformation)를 수신한다. 이로 인해 <sot>가 A_t에서 정의된 토큰 분포에서 높은 확률을 얻게 된다. 저자는 실제 프롬프트 토큰을 강화하기를 원하기 때문에, <sot>의 attention을 무시하고 나머지 토큰에 대해 소프트맥스 연산을 수행하여 attention 값을 재조정한다(알고리즘 1의 step 2). 소프트맥스 연산 후, resulting matrix A_t의 (i, j) 번째 항목은 해당 이미지 패치에 대해 각각의 텍스트 토큰이 존재할 확률을 나타낸다. 그 다음 각각 주어진 토큰 s에 대해 16*16 normalized attention map을 추출한다(알고리즘 1의 step 4).
2. Obtaining Smooth Attention Maps
위에서 계산된 A_t^2의 attention 값은 생성된 이미지에 객체가 생성되었는지를 완전히 반영하지 않을 수 있다. 특히 높은 attention 값을 가진 single patch는 토큰 s에서 전달된 부분적인 정보에서 비롯될 수 있다. 모델이 전체 subject를 생성하는 것이 아니라 동물의 몸통 부위와 같은 일부 subject를 닮은 실루엣과 같은 patch를 생성하는 경우 이러한 경우가 많이 발생할 수 있다. (실패 사례는 부록 B)
이렇게 adversarial 솔루션을 방지하기 위해, 알고리즘 1의 step 5에서 A_t에 가우시안 필터를 적용한다. 이렇게 하면 maximally-activated patch의 attention 값이 원래 맵의 neighboring patch에 의존하게 되므로, 각 패치는 이전 맴에서 neighboring의 linear combination이다.
3. Performing On the Fly Optimization
직관적으로, 성공적으로 생성된 subject는 해당 토큰에 대한 상용하는 image patch가 높은 activation 값을 갖도록 해야 한다. 저자의 최적화 목적은 이러한 직관을 직접적으로 포함하고 있다. S에 있는 각 subject 토큰에 대해, 최적화는 높은 활성화 값을 가진 A_st의 적어도 하나의 패치의 존재를 장려한다. 따라서 저자는 이 원하는 동작을 나타내는 loss L을 정의한다.
즉 loss가 현재 timestep t에서 가장 neglect된 subject 토큰의 활성화를 강화하려고 시도한다. 다른 timestep은 서로 다른 subject를 강화하므로, 모든 neglect된 subject 토큰이 어떠한 timestep에서 강화되도록 장려한다.
loss L을 계산한 후, gradient 업데이트의 step size를 결정하는 스칼라 a_t로 z_t를 이동한다. 마지막으로, z_t1을 계산하기 위해 다음 denoising step을 위한 z_t-1을 계산하기 위해 SD를 통한 forward pass를 수행한다(알고리즘 1의 단계 16). 위의 업데이트 과정은 t=T, T-1, ..., t_end의 일부 time step에 대해 반복한다. 여기서 T = 50으로 설정하고 SD를 따르며 t_end = 25로 설정한다. 이는 최종 time step이 생성된 이미지의 공간적 위치를 변경하지 않는 관찰 결과를 기반으로 한다. (여기부분 수식 정리)
4. Iterative Latend Refinement
지금까지는 각 denoising timestep에서 하나의 latent update만을 수행. 그러나 만약 어떤 토큰의 attention 값이 초기 denoising 단계에서 일정 수준 이상이 되지 않으면 해당 객체가 생성되지 않을 수 있음. 따라서, 모든 subject token에 대해
미리 정의된 최소 attention 값을 달성할 때 까지 z_t를 반복적으로 업데이트한다. 그러나 z_t를 많이 업데이트 하면 latent가 out-of-distribution이 되어 일관성 없는 이미지가 생성될 수 있다. 따라서 이 개선 방법은 일부 denoising timestep에서 점진적으로 수행된다.
Out of Distribution Data : 학습 데이터와의 분포와는 다른 분포를 가짐
구체적으로 설명하자면, 저자는 각 subject 토큰이 최소한 0.8의 최대 attention값을 달성하도록 요구한다. 이를 점진적으로 수행하기 위해 반복적인 업데이트를 다양한 denoising 단계에서 수행한다(알고리즘 1의 step 10~15). 저자는 t1 = 0, t2 = 10, t3 = 20으로 반복 횟수를 설정하고, T1 = 0.05, t2 = 0.5, T3 = 0.8의 최소 필요한 attention 값을 설정한다. 이러한 점진적 개선은 z_t가 out-of-distribution이 되는 것을 방지하면서 더욱 충실한 생성을 촉진한다.
5. Obtaining Explainable Image Generators
Attention이 explanation으로 사용될 수 있는 범위는 지금까지 널리 탐구되어 왔다. (ex. Quantifying attention
flow in transformers./ Generic attention-model explainability for interpreting bimodal and encoder-decoder transformers. / Optimizing relevance maps of vision transformers improves robustness.) Text based 이미지 생성의 경우, cross-attention map은 모델에 대한 natural explanation으로 간주되었다.
하지만 catastrophic neglect의 직접적인 결과는, neglect된 대사에 해당하는 attention map이 생성된 이미지에서 대상의 위치를 충실히 나타내지 못한다는 것이다.
그림 4의 왼쪽 열에서 이를 확인할 수 있다. 고양이에 대한 cross attention map은 올바르게 위치되고 있지만, 개구리에 대한 map은 개구리가 존재하지 않는 불필요한 영역을 강조한다. 따라서 cross-attention map은 혼동하게 하고 정확하지 않기 때문에 신뢰할수 있는 설명이라고 간주할 수 없다.
반면 Attend-and-Excite를 사용하여 neglect를 완화하면 그림 4의 오른쪽과 같이, 고양이와 개구리 모두 attention map에서 localized 되어있으며, 맵은 이제 충실한 설명이라고 간주될 수 있다.
5. Results
Evaluation Setup
현재 텍스트 기반 이미지 생성에서 의미론적 이슈를 분석하는 공개 데이터셋이 없기 때문에 저자는 모든 방법을 평가하기 위한 새로운 벤치마크를 만들었다. Catastrophic neglect 문제의 존재를 분석하기 위해 저자는 두 개의 주어를 포함하는 프롬프트를 구성했다. 또한 올바른 attribute binding을 테스트하기 위해, 프롬프트는 subject 토큰에 대한 다양한 속성을 포함해야 한다. 구체적으로, 세가지 유형을 텍스트 프롬프트를 고려한다 :
(i) "a [animalA] and a [animalB]"
(ii) "a [animal] and a [color][object]"
(iii) "a [colorA][objectA] and a [colorB][objectB]"
프롬프트를 구성하기 위해 12마리의 동물과 12개의 물건 항목, 11가지의 색상으로 고려하였다. (부록 A)
주어와 색상 쌍을 포함하는 각 프롬프트에 대해, 저자는 subject에 대해 임의로 색상을 선택한다. 이로 인해 많은 수의 동물-동물, 물건-물건... 동물-물건 쌍이 생성된다. 각 프롬프트서, 저자는 모든 방법에 대해 64개의 무작위 seed를 적용하여 64개의 이미지를 생성한다.
평가의 편의를 위해 저자의 프롬프트는 접속사와 색상 속성으로 구성되어 있지만, 기술 자체는 주어와 속성의 수, 유형에 관계없이 다양한 프롬프트에 적용할 수 있다. (그림 6, 7)
5.1 Qualitative Comparisons
그림 5는 저자의 데이터셋에 프롬프트를 사용하여 얻은 결과를 보여준다. Composable Diffusion은 주어진 주제를 섞어서 이미지를 생성하는 경향이 있다. (고양이의 몸과 개의 얼굴을 섞은 것처럼) (벤치 모양의 개구리가 생성되는 것처럼)
Structure Diffusion의 경우 생성된 이미지가 Stable diffusion과 매우 유사하며, 이는 Stable Diffusion이 잘못된 의미를 포착한 것에 크게 의존하기 때문에 적절하게 의미 문제를 다루지 못하기 때문이다. 두번째 열과 마지막 열에서 다른 방법들은 모두 주제를 생성하지 못하거나 적절한 색상 바인딩을 하지 못한다는 문제점이 있다. 반면에 Attend-and-Exvite는 올바른 색상으로 모든 주제를 포함한 이미지 생성이 가능하다. 저자의 의도는 아니였지만 neglect 문제 이외에도 색상과 주제간의 속성 바인딩을 암시적으로 개선할 수 있다는 것을 발견했다.
그림 6과 Appendix C에서 는 세 개 이상으 ㅣ주제, 복잡한 속성, 주제 간 상호작용을 포함한 복잡한 프롬프트 예제를 제공한다.
그림 7에서는 더 많은 주제나 복잡한 속성을 갖는 Structure Diffusion 논문의 프롬프트를 고려한다. Structure Diffusion은 보이는 것처럼 두가지 의미 문제를 완화하지 못한다. 그러나 Attend and Excite는 이를 해결한다.
이미지 편집 기술과 추가적인 비교는 Appendizx B와 C에서 설명.
5.2 Quantitative Analysis
저자는 각각의 방법의 성능을 두 가지 측면에서 CLIP-space를 사용하여 측정하였다. 첫번째로 생성된 이미지와 각 텍스트 프롬프트 간의 이미지-텍스트 유사성을 평가한다. 두번째로, 여러 연구에서 CLIP 이미지와 텍스트 임베딩 간의 modality 간격의 존재를 분석해왔는데, 이 간격을 극복하기 위해 추가적인 텍스트만 있는 metric을 고려한다.
Text-Image Similarities
각 프롬프트에 대해 저자는 생성된 64개의 이미지와 해당 텍스트 프롬프트 간의 CLIP 코사인 유사도의 평균을 계산하고, 이를 전체 프롬프트 유사도로 표시한다. 그러나 전체 텍스트를 고려하는 것은 neglect의 존재를 정확하게 반영하지 않을 수도 있다. CLIP의 유사성이 단어묶음(bag of words) 행동을 닮았다는 관찰 결과가 존재한다. 따라서 "a cat and a dog"에 대한 유사성이 높은 이미지가 "a dog"이 존재하지 않더라도 높은 점수를 얻을 수 있다. 이러한 경우에는 전체 텍스트 유사성만 고려하면 neglect의 존재를 포착하지 못할 수 있다.
따라서 저자는 가장 neglect 되는 대상에 대한 CLIP 유사성을 전체 텍스트와는 별도로 평가한다. 이를 위해 프롬프트를 두 개의 하위 프롬프트로 분할하여 각각의 생성된 이미지와 CLIP 유사성을 계산한다. 각 이미지에 대해 두개의 점수가 주어지면 두 점수 중 더 작은 점수를 최대화하는 것이 가장 큰 issue이다. 이를 위해 모든 시드 및 프롬프트에 대해 평균을 내고, Minimum Object Similarity라고 한다. 최소 유사성의 best 달성이 가능한 크기에 대한 직관을 제공하기 위새허, 각 대상에 대해 분류 및 감지 데이터셋등을 수집하고, 수집된 이미지와 대상 프롬프트간의 평균 CLIP 유사성을 계산한다. 각 하위 집합의 한 모든 대상의 점수를 평균으로 내서 각 하위 집합에 대한 상한선을 얻는다.
그림 8은 모든 세부 항목에 대한 CLIP T2I metrix 결과를 보여준다. 관찰 결과로, Attend-and-Excite가 모든 기준 및 metric에서 기준선을 능가하는 것이 보인다. 또한 유사성이 얼마나 줄어들었는지 보면 상대적으로 감소한 것을 볼 수 있다.
Sturcture Diffusion은 Stable diffusion과 유사한 점수를 얻었다. 그러나 Attend-and-Excite는 모든 테스트 케이스에서 minimum object similarity를 적어도 7퍼센트 이상 개선하면서 neglect문제를 완화한다. 일부 세부 항목에서는 Composable Diffusion이 Attend-and-Excite와 가장 유사한 결과를 얻는다. 그렇지만 Composable Diffusion은 종종 입력 텍스트의 주체를 혼합한 개체를 생성하기 때문에, 저자는 이러한 한계 극복을 위해 text based metric을 탐구한다.
Text-Text Similarities
주어진 입력 프롬프트에 대해 64개의 생성된 이미지를 사용하여 pre-trained된 BLIP 이미지 캡셔닝 모델을 사용해서 일치하는 이미지 캡션을 생성한다. 그런 다음 모든 캡션과 프롬프트 간 평균 CLIP 유사도를 계산한다. 이 과정은 각 하위 집합마다 반복되며, 하위 집합의 프롬프트에서 결과가 평균화된다. CLIP을 사용하여 text-text 유사성을 계산하는 선택은 CLIP의 강력한 semantic prior에서 비롯된다. 저자는 캡션의 정확한 구문과 주체의 순서에 대해서는 신경을 스지않고, 원래 프롬프트의 모든 주체와 속성을 포착하는데에 초점을 두었다.
T-T 유사성 결과는 표 1에. Attend-and-Excite는 하위 집합 모두에서 최소 4.7퍼센트 이상 우수한 성능을 보여준다.
User Study
최종적으로, 생성된 이미지의 fidelity를 분석하기 위해 user study를 수행한다. 세 가지 평가 하위 집합 각각에 대해 무작위로 10개의 프롬프트를 샘플링하고, 동일한 4개의 무작위로 선택된 시드를 사용하여 각 방법으로 이미지를 생성한다. 각 프롬프트에 ㅐ해 응답자들에게 해당 프롬프트를 가장 잘 반영하는 이미지 세트를 선택하도록 요청한다. 각가의 방법의 최종 점수는 해당 세트의 모든 프롬프트를 평균화하여 응답자가 방법을 선택한 횟수로 계산된다. (ex. 해당 방법을 선호한다는 응답이 90퍼면 점수도 90퍼)
연구 결과는 표 2에 나와있다. Attend-and-Excite는 모든 하위 집합에서 가장 높은 투표 비율을 받았다. 이는 Attend-and-Excite가 T2I 이미지 생성에서 semantic issue를 완화한다는 점을 보여준다.
6. Limitations
세가지의 한계점이 있다.
1. 생성 모델의 표현 능력에 따라 제한된다. 추가 학습을 적용하지 않기 때문에 모델이 학습한 textual descriptions를 벗어나는 프롬프트의 경우 일치하지 않는 이미지를 생성할 수 있다.
2. 자연스럽게 함께 나타나지 않는 주제를 합성할 때 이미지가 덜 현실적일 수 있다. 이는 stable diffusion 자체의 이미지 분포에서 벗어나는 문제 때문. (예시는 그림9)
3. 의미적으로 아직 정확한 이미지 생성을 성공하는 길이 멀다. (ex. riding on, in front of, beneath)
7. Conclusions
결국 이 논문은 Pre trained된 text to image diffusion 모델의 denoising 과정에서 latent를 조심스럽게 이동시키거나 조작하는 Generative Semantic Nursing(GSN)을 소개한다. 그리고 Attend-and-Excite라는 구체적인 GSN 형태를 제시하여 모든 subject 토큰이 일부 이미지 패치에서 관찰되도록 유도한다.
또한 classifier free guidance에서 text-driven gradient를 추출하는 것과 유사하게, 이 논문에서의 접근 방식은 text conditioning을 강화하는 것에 초점을 맞춘다. Text conditioned generation의 semantic issue를 완화하기 위해 GSN 개념을 탐구하면서 적절한 loss objective를 정의하면서 임의의 이미지 편집 및 생성에서도 GSN이 적용될 것이라고 생각한다.
최종적으로는 latent를 shift한다는 점이 중요.