Generowanie obrazów na własnym komputerze przy pomocy platformy sztucznej inteligencji Stable-Diffusion.

9 Grudnia 2023

1. Wstęp

2. Z czym to się je?

3. Wymagania

4. Instalacja

5. Podstawowe użytkowanie

5.1 Generowanie obrazu
5.2 Modyfikacja obrazu
5.3 Zachowywanie pierwotnego obrazu, zmiana stylu.
5.4 Wpływ parametrów CFG oraz Denoise na wygenerowany obraz.
5.5 Korzystanie z modyfikatorów LoRA

6. Pozostałe

Wstęp

(cshacked.pl SWAT TEAM)

Witajcie, dzisiaj przedstawię proces instalacji oraz konfiguracji StableDiffusion.

Poradnik na dzień dzisiejszy będzie opiewał jedynie w podstawowe zagadnienia wymagane do uruchomienia najbardziej ,,surowej’’ wersji SD. Być może w przyszłości pojawi się więcej zagadnień związanych z obsługą SD. Poradnik opisuje czynności wymagane do uruchomienia SD na systemie operacyjnym Windows 10/11 z zainstalowaną kartą graficzną NVIDIA. Możliwe również jest uruchomienie modelu na kartach AMD lub samym CPU.

Z czym to się je?

Stable Diffusion to model opracowany przez innowacyjny start-up Stability AI. Ma on szerokie zastosowanie – od generowania szczegółowych wizualizacji po uzupełnianie brakujących fragmentów obrazów czy kreowanie tła, a nawet tworzenie kierowanych tekstem przeobrażeń obrazu w obraz. Można go wykorzystać do generowania fotorealistycznych obrazów na podstawie dowolnego tekstu wejściowego. Stable Diffusion to wersja modelu, która umożliwia generowanie obrazów o wysokiej jakości w krótkim czasie.

Pełny opis możliwości w języku angielskim dostępny pod tym linkiem:

https://github.com/AUTOMATIC1111/stable-diffusion-webui#features

Wymagania sprzętowo-systemowe

Aby uruchomić Stable Diffusion na własnym komputerze, należy spełnić następujące wymagania systemowe:

System operacyjny: Windows, MacOS lub Linux.
Karta graficzna z co najmniej 4GB pamięci VRAM.
Pamięć RAM: 16 GB lub więcej.
Wolne miejsce na dysku: 20GB lub więcej, zalecany SSD.
Python 3.10.6

Wymagania te są minimalne i pozwalają na generowanie obrazów o rozdzielczości do 512 x 512 pikseli. Aby uzyskać lepszą jakość i wyższą rozdzielczość, zaleca się korzystanie z mocniejszych kart graficznych, takich jak Nvidia RTX 3080, RTX 4080 lub RTX 4090.

Instalacja

Pobierz z linku poniżej program instalacyjny Python 3.10.6 oraz zainstaluj z domyślnymi ustawieniami postępując według wskazówek instalatora.

https://www.python.org/ftp/python/3.10.6/python-3.10.6-amd64.exe

Pobierz najnowszą stabilną, lub testową wersje SD z GitHub, na dzień pisania poradnika jest to 1.7.0-RC lub 1.6.0 (stabilna).

https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases/

Wypakuj pobrane archiwum na C:\
Uruchom skrypt automatycznej instalacji - webui.bat (w trakcie może zapytać o markę karty graficznej, którą posiadasz). Poczekaj, aż skrypt zainstaluje wszystkie potrzebne pakiety Python oraz pobierze model.

Po zakończeniu instalacji oraz poprawnym uruchomieniu otwarte zostanie okno domyślnej przeglądarki internetowej, w której będzie można generować obrazy.

Podstawowe użytkowanie

Generowanie obrazu

Wpierw należy wybrać model, z którego korzystać będzie AI przy generowaniu obrazu. Preinstalowanym modelem jest StableDiffusion. Dodatkowe modele w formacie VAE/LORA/SAFETENSORS/CHECKPOINT można pobierać z huggingface lub civitai.

W tym miejscu należy wpisać co chciałbyś, oraz czego nie chciałbyś zobaczyć na wygenerowanym obrazie. Aktualne modele wytrenowane są by rozumieć język angielski.

Przykładowe zapytanie:

Spoiler

A hyper-realistic photo prompt featuring a ((yuno gasai)), SWAT officer standing guard at an Army Base entrance. She is wearing her tactical gear and holds a rifle in one hand while adjusting the strap on a bulky virtual reality (VR) headset with the other.

A wynikiem jest:

Zalecam predefiniować wstępne negatywne ustawienia klikając oraz umieszczająć je w ustawieniach:

Po zapisaniu przyciskiem ,,Save”. Preset należy wybrać z listy aby został zastosowany.

Mój preset do skopiowania:

Spoiler

bad quality, deformed, black and white, painting, ugly, mutilated, disfigured, text, extra limbs, face cut, head cut, extra fingers, extra arms, poorly drawn face, mutation, bad proportions, cropped head, malformed limbs, mutated hands, fused fingers, long neck, cropped, worst quality, low quality, jpeg artifacts, out of frame, watermark, signature, (worst quality, low quality:1.4), monochrome, zombie, (extra fingers, deformed hands, polydactyl:1.5), (tail, cat tail), (water, sea), (censored, white bar)

Zapytania zamknięte w nawias są traktowane ,,priorytetowo’’. Im więcej nawiasów, tym większy nacisk postawi AI na to, co sobie życzysz. Zamienną formułą jest np. ,, Wearing (blue:1.50) v-cut blouse"

Modyfikowanie obrazu

Klikająć w przycisk palety kolorów przenosimy nasz obraz (można również wybrać własny, niewygenerowany obraz) do zakładki InPaint, w której możemy określić co, oraz gdzie dodatkowo SD ma dla nas wygenerować zmianę:

Zachowywanie pierwotnego obrazu, zmiana stylu.

Platforma od AUTOMATIC1111 umożliwia również zmianę stylu danego obrazu. Aby powielać swoje wyniki należy wygenerować obraz z własnym parametrem seed i nie zmieniać go.
Parametr seed składa się z losowych liczb, np. 124156347.

Parametr zwany ziarnem gwarantuje otrzymanie podobnych wyników mimo zmiany stylu w zapytaniu, w praktyce wygląda to tak:

Cytat

A __________ of a Albus Dumbledore standing in front of a castle, looking at the sun on the sky, snowy climate

W puste miejsce eksperymentuj ze stylami, moje efekty:

Spoiler

Charcoal / malowanie węglem:

Greg Rutkowski:

Fotografia

Anime:

Szkic ołówkiem:

Pop-Art:

Wpływ parametrów CFG oraz Denoise na wygenerowany obraz.

Parametr CFGScale definiuje jak bardzo AI ma się trzymać zdefiniowanego zapytania, im wartośc wyższa tym opis sytuacji musi być dokładniejszy, im mniejsza - większa kreatywność i dowolność AI. Parametr Denoise kontroluje jak bardzo ma zmienić się generowany obraz, im wartość mniejsza tym mniej zmian, im większa - tym więcej. Platforma umożliwia generowanie siatki generowanych obrazów celem określenia jak nasze ustawienia wpływają na generowany obraz, aby to zrobić należy skorzystać ze skryptu w zakładce img2img.
Pierw, przenieś pierwotnie wygenerowany obraz do zakładki img2img klikając przycisk pod zdjęciem .
Przeniesiony obraz będzie miał zachowany ten sam prompt (zapytanie) oraz seed (ziarno).
Następnie wybierz z listy script X-Y-Z Plot i ustaw go według własnych potrzeb, dla przykładu moje ustawienia:

A wynikiem jest siatka (skompresowane o 75%):

Korzystanie z modyfikatorów LoRA

Istnieją również modyfikatory modeli zwane LoRA, wprowadzające do aktualnego modelu dodatkowe efekty (np. przerabianie ludzi na fury), dodatkowe pozy (np. wybieg mody), lub tematykę (np. mcdonalds).

Modele LoRA zależne są od głównego modelu i nie zawsze będą działać z innym.
Dla przykładu, LoRA Monster Hunter zadziała poprawnie tylko z modelem SD w wersji 1.5, nic nie stoi na przeszkodzie by próbować go aplikować na innych modelach.

Zademonstruje korzystanie z LoRA na poniższym przykładzie

Pobierz interesujące Cię LoRA z linku poniżej

https://civitai.com/models/48365/palico-monster-hunter-lora

https://civitai.com/search/models?sortBy=models_v5&query=lora

Wklej pobrany plik do ścieżki:

X:\stable-diffusion-webui\models\Lora

Gdzie X, to litera dysku, na którym trzymasz SD Webui.

Dla przykładu, wygeneruj obraz zapytaniem:

Cytat

A hyper-realistic photography prompt featuring an expert archer facing camera and standing tall amidst trees in woods. He's dressed for hunting.

Następnie przejdź do zakładki LoRA i aktywuj modyfikator klikając w niego.

Spowoduje to dopisanie dodatkowego warunku do Twojego zapytania, to jednak nie wszystko. Należy zweryfikować na stronie modelu jakimi słowami kluczowymi się go aktywuje. W notatkach autora można znaleźć wiele przydatnych informacji jak z modelu korzystać, jakie są jego słabe i mocne strony.

Aby aktywować lora, do swojego zapytania musisz dodać jedną z w/w fraz, dla przykładu zapytanie:

Cytat

A hyper-realistic photography prompt featuring an expert archer facing camera and standing tall amidst trees in woods. He's dressed for hunting. <lora:lora:1> fur, palico

Wygenerowało taki obraz:

PS. Utrzymanie źródłowego kontekstu w przypadku korzystania z LoRA jest dla mnie na dzień dzisiejszy niezrozumiałe, trzeba się więcej namęczyć by przerobić zdjęcie źródłowe, łatwiej rozpoczynać generowanie obrazów z użyciem LoRA od podstaw i wtedy zmieniać ich styl.

Pozostałe

Cała wiedza pochodzi z GitHub autora interfejsu graficznego, wszyscy autorzy wraz z autorami SD wymienieni są w zakładce ,,Credits” na stronie projektu.

https://github.com/AUTOMATIC1111/stable-diffusion-webui#credits

Dodatkowe modele TEXT TO IMAGE można pobierać np. z HuggingFace lub Civitai.

https://huggingface.co/models?pipeline_tag=text-to-image&sort=trending

https://civitai.com/models

Modele przenosimy do katalogu ,,models’’ w rozpakowanym na C:\ folderze SD-WebUi.

Model, z którego korzystałem aby wygenerować Yuno Gasai do tematu to CamelliaMix_NSFW.

https://huggingface.co/digiplay/CamelliaMix_NSFW_diffusers_v1.1/tree/main

Model, z którego korzystałem aby wygenerować Albusa Dumbledore'a do tematu to Dreamlike-photoreal-2.0

https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0

Model, z którego korzystałem aby wygenerować Łucznika do tematu to SD v 1.4 + LoRA Palico (Monster Hunter)

https://civitai.com/models/48365/palico-monster-hunter-lora

Czas generowania obrazu w rozdzielczości 512x512 w/w modelemi na GTX 1080Ti, 32GB Ram oraz Ryzen 7 2gen to ~~10 sekund.

Zakończenie

Poradnik porusza jedynie najbardziej podstawowe zagadnienia związane z obsługą a nie rozumieniem procesu generowania obrazu, wiele tematów zostało tu pominiętych lub przeoczonych.

Zachęcam do eksperymentowania, teren nie jest w pełni zbadany. Zachęcam również do ewentualnej dyskusji celem rozwinięcia tematu o dodatkowe zawartości, instrukcje czy rozwiązania problemów. Sposobów obsługi oraz generowania obrazów poprzez SD jest ogrom.

9 Grudnia 2023

@Lechu Chcesz mi wygenerować bo nie chce mi się tego robić 😄 ?

9 Grudnia 2023

Jak sobie radzi z generowaniem tekstu na obrazie?

9 Grudnia 2023

@ZSGKelnerNa prawdę nie chce Ci się kliknąć dwuklikiem instalatora, poczekać i wpisać kilka słów? Bardziej streścić a tym samym uprościć poradnika nie umiem, potraktuj to jako motywacje 🙂

@wiotqŚrednio, trochę simlish, to i tak jedna z lepszych prób

Ten sam prosty prompt:

Z popularnymi frazami sobie w miarę radzi ale wpisałem ,,wiotq'' to jest totalny simlish

15 Grudnia 2023

za duzo azjatyckich dziewczynek w temacie ale poradnik sam w sobie spoko

16 Grudnia 2023

@antoniuszgur

To jest jedna dziewczyna w wielu przebraniach ( ͡° ͜ʖ ͡°)

Uzupełniłem temat o więcej funkcjonalności, może teraz Ci przypadnie do gustu bardziej.

15 Kwietnia

RuntimeError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check
Press any key to continue . . .

Taki błąd mam podczas instalacji

16 Kwietnia

@justyna091

To laptop czy komputer stacjonarny? Posiadasz kartę graficzną Nvidia?
Odpaliłem przed chwilą i mi ta wersja nadal działa, możesz spróbować usunąć folder VENV z folderu SD i spróbować zainstalować jeszcze raz.

ew. spróbuj z nowszą wersją SD, ma zaktualizowane moduły.

https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases/tag/v1.9.0

Na AMD albo samym procesorze są jakieś inne rozwiązania, osobiście nie musiałem próbować.

Zaloguj się

Generowanie obrazów na własnym komputerze przy pomocy platformy sztucznej inteligencji Stable-Diffusion.

Masz dosyć problemów z czynnikiem zaufania w CS2 lub notorycznymi banami?

Rekomendowane odpowiedzi

Lechu

Odnośnik do komentarza

ZSGKelner

Odnośnik do komentarza

MrPejs

Odnośnik do komentarza

Lechu

Odnośnik do komentarza

antoniuszgur

Odnośnik do komentarza

Lechu

Odnośnik do komentarza

justyna091

Odnośnik do komentarza

Lechu

Odnośnik do komentarza

Dołącz do dyskusji

Tagi

Ostatnio przeglądający 0 użytkowników

Podobna zawartość

Cała aktywność

Społeczność

CSH Shop

Powiadomienie o plikach cookie