FLUX.1-Kontext-dev: Bildförstärknings AI-modell
AI-modell för att augmentera bilder med textinstruktioner
Black Forest Labs har släppt FLUX.1-Kontext-dev, en avancerad bild-till-bild AI-modell som förstärker befintliga bilder med hjälp av textinstruktioner.
Till skillnad från FLUX.1-dev som genererar bilder från text ensamt, tar FLUX.1-Kontext-dev både en ingångsbild och en textprompt för att skapa modifierade versioner medan nyckelelement bevaras.
Denna bild demonstrerar FLUX.1-Kontext-devs förmåga att förstärka bilder.
Den ursprungliga Go-maskotbilden:

omvandlades med instruktionen den här gophern cyklar på cykel på den kuperade vägen. Ett bra resultat, eller hur?
Vad är FLUX.1-Kontext-dev?
FLUX.1-Kontext-dev är utformat för bildgenerering och redigering i kontext. Nyckelfunktioner inkluderar:
- Karaktärskonsistens: Bevarar unika element (som karaktärer eller objekt) över flera scener
- Lokal redigering: Modifierar specifika delar av en bild utan att påverka resten
- Stilreferens: Genererar nya scener medan stilar från referensbilder bevaras
- Bildförstärkning: Transformerar bilder baserat på textinstruktioner
Installation
Förutsättningar
Du behöver:
- 16GB+ VRAM på din GPU (NVIDIA RTX rekommenderas)
- Python 3.8+ med pip
- Åtkomst till Hugging Face (konto och token)
Uppsättningssteg
-
Skapa ett Hugging Face-konto på huggingface.co om du inte har ett
-
Besök modellens sida: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
-
Acceptera licensavtalet (icke-kommersiell användning)
-
Skapa en Write-access token på https://huggingface.co/settings/tokens
-
Ladda ner modellen:
git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Eller använd modellens sökväg direkt i din kod.
Installation
Installera krävda Python-paket:
pip install -U diffusers torch transformers pillow accelerate sentencepiece
Eller med uv:
cd tools/fkon
uv sync
Användning
Grundläggande Python-skript
Här är ett komplett exempel med FLUX.1-Kontext-dev:
import torch
from diffusers import FluxKontextPipeline
from PIL import Image
# Ladda modellen
model_path = "/sökväg/till/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
model_path,
torch_dtype=torch.bfloat16
)
# Aktivera CPU-avlastning för att spara VRAM
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
# Ladda din ingångsbild
input_image = Image.open("sökväg/till/din/bild.png").convert("RGB")
# Definiera din förstärkningsprompt
prompt = "den här gophern cyklar på cykel på den kuperade vägen"
# Generera förstärkt bild
result = pipe(
prompt=prompt,
image=input_image,
height=496,
width=680,
guidance_scale=3.5,
num_inference_steps=60,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(42)
)
# Spara resultatet
output_image = result.images[0]
output_image.save("förstärkt_bild.jpg")
Dimensionhantering
FLUX.1-Kontext-dev har specifika dimensionkrav:
- Multipler av 16: Dimensioner bör vara multipler av 16
- Automatisk justering: Modellen kan justera dimensioner för att möta sina krav
- Utdata-omskalning: Vårt verktyg skalar automatiskt utdata tillbaka till begärda dimensioner
Verktyget hanterar detta genom:
- Avrundning av begärda dimensioner till multipler av 16
- Omskalning av ingångsbilden till de avrundade dimensionerna
- Generering av bilden (modellen kan justera ytterligare)
- Omskalning av utdata tillbaka till dina begärda dimensioner
Exempel på användningsområden
- Karaktärstransformation
Transformera en karaktär medan konsistensen bevaras:
prompt = "den här gophern cyklar på cykel på den kuperade vägen"
- Objektborttagning
Ta bort oönskade element:
prompt = "var vänlig ta bort människan klädd som minnie mouse från den här bilden"
Tips och bästa praxis
- VRAM-hantering: Använd
enable_model_cpu_offload()om du har begränsad VRAM - Dimensionplanering: Begär dimensioner som är multipler av 16 för att minimera justeringar
- Promptklarhet: Var specifik i dina textinstruktioner för bättre resultat
- Batchgenerering: Generera flera variationer (
--n 4) för att få det bästa resultatet - Frökontroll: Använd manuella frön för reproducerbara resultat
Begränsningar
- Icke-kommersiell licens: Kräver kommersiell licens för affärsanvändning
- Hårdvarukrävande: Behöver kraftfull GPU med betydande VRAM
- Dimensionbegränsningar: Kan justera dimensioner automatiskt
- Behandlingstid: Kan ta 10-15 minuter per bild beroende på hårdvara