Model AI Flux tekst na obraz
Świetny nowy model AI do generowania obrazu na podstawie tekstu
Niedawno Black Forest Labs opublikowała zestaw modeli AI tekst-do-obrazu text-to-image AI models.
Te modele mają być znane z znacznie wyższej jakości wyjściowych obrazów.
Spróbujmy ich
To obraz, który Flux może wygenerować w mniej niż minutę.
Instalacja
Aby zainstalować go na własnym komputerze, potrzebujesz 16 GB VRAM na GPU dla FLUX.1-dev i 8 GB VRAM dla FLUX.1-schnell
-
Utwórz konto na stronie huggingface.co, jeśli jeszcze nie masz
-
Przejrzyj anons i opis modeli https://blackforestlabs.ai/announcing-black-forest-labs/
-
Przejdź na stronę https://huggingface.co/black-forest-labs/FLUX.1-dev dla wersji dev
i na stronę https://huggingface.co/black-forest-labs/FLUX.1-schnell dla wersji schnell -
Zaakceptuj umowę licencyjną, jeśli zgadzasz się na jej warunki
-
Utwórz token z dostępu do zapisu na stronie https://huggingface.co/settings/tokens. Będziesz go potrzebował, aby pobrać model.
-
Pobierz model. Pobieram wersję dev
git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
- Poczekaj
Uruchomienie
Zainstaluj diffusers, torch i inne fajne biblioteki Pythona.
pip install -U diffusers torch transformers protobuf accelerate sentencepiece
Utwórz plik Pythona i skopiuj kod:
import torch
from diffusers import FluxPipeline
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# zaoszczędź trochę VRAM przenosząc model na CPU. Usuń to, jeśli masz wystarczającą moc GPU
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
prompt = "Kot trzymający znak z napisem hello world"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")
Aby dowiedzieć się więcej, sprawdź dokumentację diffusers
Wynik
- Kiedy testowałem LLM dla Perplexica,
jednym z pytań, które dałem Perplexice, byłoO czym był protest robotników w Australii 27 sierpnia 2024?
Zobaczmy, jaki obraz wygeneruje Flux na bardzo ogólny prompt
Grupa protestujących robotników wspiera swoją związek zawodowy w Melbourne
- A ten:
Prawa człowieka są wpływane przez pandemię COVID-19
- I moje ulubione testowanie:
Tramwaj jeździ przez Melbourne City w nocy
Wszystkie te obrazy wyglądają bardzo dobrze. Spróbujmy znaleźć wady w ostatnim:
- To Melbourne. Tramwaje i samochody muszą jeździć po lewej stronie.
- Kolor tramwaju nie jest prawidłowy. Może to być zbyt pedantyczne
- Światła na przodzie tramwaju są czerwone?
- Tramwaj nie ma kierowcy
- Trasa jest bardzo dziwna
W ogólności lubię ten model!