Flux Text-zu-Bild KI-Modell

Beeindruckendes neues KI-Modell zur Generierung von Bildern aus Text

Inhaltsverzeichnis

Kürzlich hat Black Forest Labs eine Reihe von
text-to-image AI-Modellen veröffentlicht.
Diese Modelle sollen eine deutlich höhere Ausgabegüte haben.
Lasst uns sie ausprobieren

Dieses Bild kann Flux innerhalb weniger Minuten generieren.
Dolores

Installation

Um es auf Ihrem eigenen PC zu installieren, benötigen Sie 16 GB VRAM auf Ihrer GPU für FLUX.1-dev und 8 GB VRAM für FLUX.1-schnell

  1. Erstellen Sie ein Konto auf der Website huggingface.co, falls Sie noch keines haben

  2. Schauen Sie sich die Modellankündigung und Beschreibung an: https://blackforestlabs.ai/announcing-black-forest-labs/

  3. Gehen Sie zur Seite https://huggingface.co/black-forest-labs/FLUX.1-dev für die Entwicklerversion
    und zur Seite https://huggingface.co/black-forest-labs/FLUX.1-schnell für die schnelle Version

  4. Akzeptieren Sie die Lizenzvereinbarung, wenn Sie damit einverstanden sind

  5. Erstellen Sie auf der Seite https://huggingface.co/settings/tokens einen Schreibzugriffstoken. Sie benötigen es, um das Modell herunterzuladen.

  6. Laden Sie das Modell herunter. Ich ziehe die Entwicklerversion

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. Warten Sie

Ausführung

Installieren Sie diffusers, torch und andere großartige Python-Bibliotheken.

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Erstellen Sie eine Python-Datei und kopieren Sie den folgenden Code:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# Speichern Sie etwas VRAM, indem Sie das Modell auf den CPU-Offload übergeben. Entfernen Sie dies, wenn Sie genügend GPU-Leistung haben
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "Eine Katze, die ein Schild hält, das 'hello world' sagt"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

Um mehr zu erfahren, besuchen Sie die diffusers Dokumentation

Das Ergebnis

  1. Als ich LLMs für Perplexica testete,
    stellte ich Perplexica folgende Frage: Was war dieser Streik der Handwerker in Australien am 27.08.2024?
    Schauen wir uns an, welches Bild Flux für diesen sehr vagen Prompt generiert:
Eine Gruppe von Handwerkerprotestierenden unterstützt  
ihren Gewerkschaftsverband in Melbourne

topimage

  1. Und dieses hier:
Menschenrechte werden durch die COVID-19-Pandemie beeinträchtigt

topimage

  1. Und mein Lieblings-Test:
Eine Straßenbahn fährt durch die Stadt Melbourne in der Nacht

topimage

Alle diese Bilder sehen sehr gut aus. Schauen wir auf die Fehler im letzten Bild:

  • Es ist die Stadt Melbourne. Straßenbahnen und Autos müssen auf der linken Seite fahren.
  • Die Farbe der Straßenbahn ist falsch. Okay, das könnte zu pingelig sein
  • Die Frontlichter der Straßenbahn sind rot?
  • Die Straßenbahn hat keinen Fahrer
  • Die Route ist sehr seltsam

Gesamt gefällt mir dieses Modell!