Wie unterscheidet es sich von FLUX.1-dev?

FLUX.1-dev generiert Bilder ausschließlich aus Textvorgaben. FLUX.1-Kontext-dev verarbeitet sowohl ein Eingabebild als auch eine Textvorgabe, wodurch Sie bestehende Bilder modifizieren, erweitern oder transformieren können, während Charakterkonsistenz und Stil erhalten bleiben.

Was sind die Hardware-Anforderungen?

FLUX.1-Kontext-dev erfordert erhebliche GPU-Speicherkapazität, typischerweise 16GB+ VRAM. Es ist für NVIDIA RTX-GPUs optimiert. Das Modell kann CPU-Offloading nutzen, um die VRAM-Anforderungen zu reduzieren.

Welche Bildabmessungen werden unterstützt?

Das Modell erfordert, dass die Abmessungen Vielfache von 16 sind. Es kann die Abmessungen automatisch anpassen, um seinen Anforderungen gerecht zu werden. Das Tool handelt dies, indem es die Abmessungen aufrundet und die Ausgabe auf die angeforderten Größen zurückskaliert.

Kann ich es kommerziell nutzen?

FLUX.1-Kontext-dev wird unter einer nicht-kommerziellen Lizenz veröffentlicht. Für die kommerzielle Nutzung benötigen Sie eine kommerzielle Lizenz von Black Forest Labs.

Wofür kann ich es verwenden?

Häufige Anwendungsfälle umfassen die Charakterkonsistenz über Szenen hinweg, lokale Bildbearbeitung, Stilübertragung, das Entfernen unerwünschter Elemente, das Hinzufügen von Elementen zu Bildern und die Transformation von Bildern basierend auf Textbeschreibungen.

FLUX.1-Kontext-dev: KI-Modell zur Bildvergrößerung

Q: Was ist FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev ist ein KI-Modell von Black Forest Labs, das die Bild-zu-Bild-Generierung ermöglicht. Im Gegensatz zu Text-zu-Bild-Modellen nimmt es ein bestehendes Bild und eine Textanweisung, um erweiterte Versionen zu generieren, während die wesentlichen Elemente des Originals erhalten bleiben.

KI-Modell zur Erweiterung von Bildern mit Textanweisungen

Inhaltsverzeichnis

Black Forest Labs hat FLUX.1-Kontext-dev veröffentlicht, ein fortschrittliches Bild-zu-Bild-KI-Modell, das bestehende Bilder mithilfe von Textanweisungen erweitert.

Im Gegensatz zu FLUX.1-dev, das Bilder nur aus Text generiert, nimmt FLUX.1-Kontext-dev sowohl ein Eingabebild als auch eine Textanweisung, um modifizierte Versionen zu erstellen, während wichtige Elemente beibehalten werden.

Gopher auf einem Fahrrad Dieses Bild demonstriert die Fähigkeit von FLUX.1-Kontext-dev, Bilder zu erweitern.

Das ursprüngliche Go-Maskottchen-Bild:

Gopher Go Logo

wurde mit der Anweisung dieser Gopher fährt auf dem Fahrrad auf der hügeligen Straße transformiert. Ein anständiges Ergebnis, nicht wahr?

Was ist FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev ist für In-Context-Bilderzeugung und -bearbeitung entwickelt. Wichtige Funktionen umfassen:

Charakterkonsistenz: Bewahrt einzigartige Elemente (wie Charaktere oder Objekte) in mehreren Szenen bei
Lokale Bearbeitung: Ändert spezifische Teile eines Bildes, ohne den Rest zu beeinflussen
Stilreferenz: Generiert neue Szenen, während Stile aus Referenzbildern beibehalten werden
Bilderweiterung: Transformiert Bilder basierend auf Textanweisungen

Installation

Voraussetzungen

Sie benötigen:

16GB+ VRAM auf Ihrer GPU (NVIDIA RTX empfohlen)
Python 3.8+ mit pip
Zugang zu Hugging Face (Konto und Token)

Einrichtungsschritte

Erstellen Sie ein Hugging Face-Konto unter huggingface.co, falls Sie noch keines haben
Besuchen Sie die Modellseite: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Akzeptieren Sie die Lizenzvereinbarung (nicht-kommerzielle Nutzung)
Erstellen Sie ein Schreibzugriffstoken unter https://huggingface.co/settings/tokens
Laden Sie das Modell herunter:

git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Oder verwenden Sie den Modellpfad direkt in Ihrem Code.

Installation

Installieren Sie die erforderlichen Python-Pakete:

pip install -U diffusers torch transformers pillow accelerate sentencepiece

Oder mit uv:

cd tools/fkon
uv sync

Verwendung

Grundlegendes Python-Skript

Hier ist ein vollständiges Beispiel mit FLUX.1-Kontext-dev:

import torch
from diffusers import FluxKontextPipeline
from PIL import Image

# Laden Sie das Modell
model_path = "/pfad/zu/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16
)

# Aktivieren Sie die CPU-Entlastung, um VRAM zu sparen
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()

# Laden Sie Ihr Eingabebild
input_image = Image.open("pfad/zu/ihrem/bild.png").convert("RGB")

# Definieren Sie Ihren Erweiterungs-Prompt
prompt = "dieser Gopher fährt auf dem Fahrrad auf der hügeligen Straße"

# Generieren Sie ein erweitertes Bild
result = pipe(
    prompt=prompt,
    image=input_image,
    height=496,
    width=680,
    guidance_scale=3.5,
    num_inference_steps=60,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(42)
)

# Speichern Sie das Ergebnis
output_image = result.images[0]
output_image.save("erweitertes_bild.jpg")

Dimensionshandhabung

FLUX.1-Kontext-dev hat spezifische Dimensionsanforderungen:

Vielfache von 16: Die Abmessungen sollten Vielfache von 16 sein
Automatische Anpassung: Das Modell kann Abmessungen anpassen, um seinen Anforderungen zu entsprechen
Ausgabeneugrößen: Unser Tool skaliert die Ausgabe automatisch auf die angeforderten Abmessungen zurück

Das Tool handelt dies wie folgt:

Runden der angeforderten Abmessungen auf Vielfache von 16
Skalieren des Eingabebildes auf die gerundeten Abmessungen
Generieren des Bildes (das Modell kann weiter anpassen)
Skalieren der Ausgabe zurück auf Ihre angeforderten Abmessungen

Beispielanwendungsfälle

Charaktertransformation

Transformieren Sie einen Charakter, während die Konsistenz beibehalten wird:

prompt = "dieser Gopher fährt auf dem Fahrrad auf der hügeligen Straße"

Objektrentfernung

Entfernen Sie unerwünschte Elemente:

prompt = "bitte entfernen Sie die Person, die als Minnie Mouse verkleidet ist, aus diesem Foto"

Tipps und Best Practices

VRAM-Verwaltung: Verwenden Sie enable_model_cpu_offload(), wenn Sie begrenztes VRAM haben
Dimensionsplanung: Fordern Sie Abmessungen an, die Vielfache von 16 sind, um Anpassungen zu minimieren
Prompt-Klarheit: Seien Sie in Ihren Textanweisungen spezifisch für bessere Ergebnisse
Batch-Generierung: Generieren Sie mehrere Variationen (--n 4), um das beste Ergebnis zu erhalten
Seed-Kontrolle: Verwenden Sie manuelle Seeds für reproduzierbare Ergebnisse

Einschränkungen

Nicht-kommerzielle Lizenz: Erfordert eine kommerzielle Lizenz für die geschäftliche Nutzung
Hardwareintensiv: Benötigt eine leistungsstarke GPU mit erheblichem VRAM
Dimensionsbeschränkungen: Kann Abmessungen automatisch anpassen
Verarbeitungszeit: Kann je nach Hardware 10-15 Minuten pro Bild dauern

Was ist FLUX.1-Kontext-dev?

Installation

Voraussetzungen

Einrichtungsschritte

Installation

Verwendung

Grundlegendes Python-Skript

Dimensionshandhabung

Beispielanwendungsfälle

Tipps und Best Practices

Nützliche Links