Hur skiljer det sig från FLUX.1-dev?

FLUX.1-dev genererar bilder endast från textpromptar. FLUX.1-Kontext-dev tar både en ingångsbild och en textprompt, vilket gör det möjligt att modifiera, utöka eller transformera befintliga bilder samtidigt som karaktärslikhet och stil bevaras.

Vad är hårdvarukraven?

FLUX.1-Kontext-dev kräver betydande GPU-minne, vanligtvis 16GB+ VRAM. Det är optimerat för NVIDIA RTX-grafikkort. Modellen kan använda CPU-avlastning för att minska VRAM-kravet.

Vilka bilddimensioner stöder den?

Modellen kräver att dimensionerna är multiplar av 16. Den kan automatiskt justera dimensionerna för att uppfylla sina krav. Verktyget hanterar detta genom att avrunda dimensionerna och återställer utdata till de begärda storlekarna.

Kan jag använda det kommersiellt?

FLUX.1-Kontext-dev ges ut under en icke-kommersiell licens. För kommersiell användning måste du erhålla en kommersiell licens från Black Forest Labs.

Vad kan jag använda det till?

Vanliga användningsområden inkluderar karaktärskonsistens över scener, lokal bildredigering, stilöverföring, borttagning av oönskade element, tillägg av element till bilder och omvandling av bilder baserat på textbeskrivningar.

FLUX.1-Kontext-dev: Bildförstärknings AI-modell

Q: Vad är FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev är en AI-modell av Black Forest Labs som möjliggör bild-till-bild-generering. Till skillnad från text-till-bild-modeller använder den en befintlig bild och en textprompt för att generera utökade versioner samtidigt som nyckelelement från originalet bevaras.

AI-modell för att augmentera bilder med textinstruktioner

Sidinnehåll

Black Forest Labs har släppt FLUX.1-Kontext-dev, en avancerad bild-till-bild AI-modell som förstärker befintliga bilder med hjälp av textinstruktioner.

Till skillnad från FLUX.1-dev som genererar bilder från text ensamt, tar FLUX.1-Kontext-dev både en ingångsbild och en textprompt för att skapa modifierade versioner medan nyckelelement bevaras.

gopher på en cykel Denna bild demonstrerar FLUX.1-Kontext-devs förmåga att förstärka bilder.

Den ursprungliga Go-maskotbilden:

Gopher go logo

omvandlades med instruktionen den här gophern cyklar på cykel på den kuperade vägen. Ett bra resultat, eller hur?

Vad är FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev är utformat för bildgenerering och redigering i kontext. Nyckelfunktioner inkluderar:

Karaktärskonsistens: Bevarar unika element (som karaktärer eller objekt) över flera scener
Lokal redigering: Modifierar specifika delar av en bild utan att påverka resten
Stilreferens: Genererar nya scener medan stilar från referensbilder bevaras
Bildförstärkning: Transformerar bilder baserat på textinstruktioner

Installation

Förutsättningar

Du behöver:

16GB+ VRAM på din GPU (NVIDIA RTX rekommenderas)
Python 3.8+ med pip
Åtkomst till Hugging Face (konto och token)

Uppsättningssteg

Skapa ett Hugging Face-konto på huggingface.co om du inte har ett
Besök modellens sida: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Acceptera licensavtalet (icke-kommersiell användning)
Skapa en Write-access token på https://huggingface.co/settings/tokens
Ladda ner modellen:

git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Eller använd modellens sökväg direkt i din kod.

Installation

Installera krävda Python-paket:

pip install -U diffusers torch transformers pillow accelerate sentencepiece

Eller med uv:

cd tools/fkon
uv sync

Användning

Grundläggande Python-skript

Här är ett komplett exempel med FLUX.1-Kontext-dev:

import torch
from diffusers import FluxKontextPipeline
from PIL import Image

# Ladda modellen
model_path = "/sökväg/till/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16
)

# Aktivera CPU-avlastning för att spara VRAM
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()

# Ladda din ingångsbild
input_image = Image.open("sökväg/till/din/bild.png").convert("RGB")

# Definiera din förstärkningsprompt
prompt = "den här gophern cyklar på cykel på den kuperade vägen"

# Generera förstärkt bild
result = pipe(
    prompt=prompt,
    image=input_image,
    height=496,
    width=680,
    guidance_scale=3.5,
    num_inference_steps=60,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(42)
)

# Spara resultatet
output_image = result.images[0]
output_image.save("förstärkt_bild.jpg")

Dimensionhantering

FLUX.1-Kontext-dev har specifika dimensionkrav:

Multipler av 16: Dimensioner bör vara multipler av 16
Automatisk justering: Modellen kan justera dimensioner för att möta sina krav
Utdata-omskalning: Vårt verktyg skalar automatiskt utdata tillbaka till begärda dimensioner

Verktyget hanterar detta genom:

Avrundning av begärda dimensioner till multipler av 16
Omskalning av ingångsbilden till de avrundade dimensionerna
Generering av bilden (modellen kan justera ytterligare)
Omskalning av utdata tillbaka till dina begärda dimensioner

Exempel på användningsområden

Karaktärstransformation

Transformera en karaktär medan konsistensen bevaras:

prompt = "den här gophern cyklar på cykel på den kuperade vägen"

Objektborttagning

Ta bort oönskade element:

prompt = "var vänlig ta bort människan klädd som minnie mouse från den här bilden"

Tips och bästa praxis

VRAM-hantering: Använd enable_model_cpu_offload() om du har begränsad VRAM
Dimensionplanering: Begär dimensioner som är multipler av 16 för att minimera justeringar
Promptklarhet: Var specifik i dina textinstruktioner för bättre resultat
Batchgenerering: Generera flera variationer (--n 4) för att få det bästa resultatet
Frökontroll: Använd manuella frön för reproducerbara resultat

Begränsningar

Icke-kommersiell licens: Kräver kommersiell licens för affärsanvändning
Hårdvarukrävande: Behöver kraftfull GPU med betydande VRAM
Dimensionbegränsningar: Kan justera dimensioner automatiskt
Behandlingstid: Kan ta 10-15 minuter per bild beroende på hårdvara

Vad är FLUX.1-Kontext-dev?

Installation

Förutsättningar

Uppsättningssteg

Installation

Användning

Grundläggande Python-skript

Dimensionhantering

Exempel på användningsområden

Tips och bästa praxis

Användbara länkar