인공지능/딥러닝

# [딥러닝] 이미지 생성 AI . Stable Diffusion

ForrestPark 2025. 1. 4. 18:27

이미지 생성 AI . Stable Diffusion

🤔 Stable Diffusion이란?

** Stable Diffusion무작위 노이즈 이미지 로부터 역방향 확산을 통해 원하는 이미지를 생성하는 방식** 이다.

  • Stability AI의 공식 파트너사 AICU Inc. 에서 제공
  • Stable Diffusion XL(SDXL) 모델을 사용함.
  • AUTOMATIC1111/Stable Diffusion WebUI(v1.8.0)
  • 디지털 일러스트레이션 제작할 때 쓰임
  • Google colab 활용 가능함.
  • SDXL에는 OpenAI 가 개발한 CLIP-ViT/L 과 오픈소스인 OpenCLIP-ViT/G , 테스트 데이터인 LAION 이 적용됨
  • 잠재확산 모델(latent diffusion model): 잠재공간(latent spcae)으로 압축 하여 모델 학습, 노이즈 생성함.
  • Stable Diffusion 은 CLIP-ViT/L텍스트 인코더 부분을 활용해 프롬프트를 해석함.

    자세한 설명 👉 Openai CLIP git 바로가기

🤔 SDX가 돌아가는 방식

  1. 입력된 텍스트 => 어떤 이미지 인지 해석
  2. 향후 공정을 위해 해석된 정보를 특징데이터로 변환
  3. CLIP 는 잠재 공간을 다음 단계로 전달해 생성의 방향성을 제어

🤔 CLIP 란?

CLIP텍스트와 이미지 사이의 의미와 관계성을 이해할수 있도록 훈련 받은 모델 이다.

  • Contrastive Language-Image Pretraining :대조적인 이미지와 언어를 사전 학습한 오토 인코더
  • 언어 모델과 번역에 사용하기 위해 OpenAI 에서 2021 2월 출시.

✅ UNet 에서 노이즈 예측해 제거하는 과정에서 CLIP가 해석한 텍스트 지시를 조건으로 부여한다

🤔 U-Net 이란?

U-Net잡음(조건외 부분) 예측기(noise predictor) 모델 이다.

UNet 을 통한 이미지 생성 작동 원리

  • 이미지 생성시 노이즈가 많은 데이터로 에서 숨은그림찾기를 하는 방식
  • 노이즈 데이터 속에서 아주 사소한 특징들을 찾아냄.
  • 노이즈를 제거해 나감.

Unet
출처 : 전 세계에 충격을 준 이미지 생성 AI ‘Stable Diffusion’을 철저 해설!

ℹ️ 참고

1.📚도서, 이미지 생성 AI Stable Diffiusion 실전가이드

  1. blog,2023,Stable Diffusion에 대한 기본적인 이론