Model AI Flux tekst na obraz

Świetny nowy model AI do generowania obrazu na podstawie tekstu

Page content

Niedawno Black Forest Labs opublikowała zestaw modeli AI tekst-do-obrazu text-to-image AI models.
Te modele mają być znane z znacznie wyższej jakości wyjściowych obrazów.
Spróbujmy ich

To obraz, który Flux może wygenerować w mniej niż minutę.
Dolores

Instalacja

Aby zainstalować go na własnym komputerze, potrzebujesz 16 GB VRAM na GPU dla FLUX.1-dev i 8 GB VRAM dla FLUX.1-schnell

  1. Utwórz konto na stronie huggingface.co, jeśli jeszcze nie masz

  2. Przejrzyj anons i opis modeli https://blackforestlabs.ai/announcing-black-forest-labs/

  3. Przejdź na stronę https://huggingface.co/black-forest-labs/FLUX.1-dev dla wersji dev
    i na stronę https://huggingface.co/black-forest-labs/FLUX.1-schnell dla wersji schnell

  4. Zaakceptuj umowę licencyjną, jeśli zgadzasz się na jej warunki

  5. Utwórz token z dostępu do zapisu na stronie https://huggingface.co/settings/tokens. Będziesz go potrzebował, aby pobrać model.

  6. Pobierz model. Pobieram wersję dev

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. Poczekaj

Uruchomienie

Zainstaluj diffusers, torch i inne fajne biblioteki Pythona.

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Utwórz plik Pythona i skopiuj kod:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# zaoszczędź trochę VRAM przenosząc model na CPU. Usuń to, jeśli masz wystarczającą moc GPU
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "Kot trzymający znak z napisem hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

Aby dowiedzieć się więcej, sprawdź dokumentację diffusers

Wynik

  1. Kiedy testowałem LLM dla Perplexica,
    jednym z pytań, które dałem Perplexice, było O czym był protest robotników w Australii 27 sierpnia 2024?
    Zobaczmy, jaki obraz wygeneruje Flux na bardzo ogólny prompt
Grupa protestujących robotników wspiera swoją związek zawodowy w Melbourne

topimage

  1. A ten:
Prawa człowieka są wpływane przez pandemię COVID-19

topimage

  1. I moje ulubione testowanie:
Tramwaj jeździ przez Melbourne City w nocy

topimage

Wszystkie te obrazy wyglądają bardzo dobrze. Spróbujmy znaleźć wady w ostatnim:

  • To Melbourne. Tramwaje i samochody muszą jeździć po lewej stronie.
  • Kolor tramwaju nie jest prawidłowy. Może to być zbyt pedantyczne
  • Światła na przodzie tramwaju są czerwone?
  • Tramwaj nie ma kierowcy
  • Trasa jest bardzo dziwna

W ogólności lubię ten model!