FLUX.1-Kontext-dev: Bildförstärknings AI-modell

AI-modell för att augmentera bilder med textinstruktioner

Sidinnehåll

Black Forest Labs har släppt FLUX.1-Kontext-dev, en avancerad bild-till-bild AI-modell som förstärker befintliga bilder med hjälp av textinstruktioner.

Till skillnad från FLUX.1-dev som genererar bilder från text ensamt, tar FLUX.1-Kontext-dev både en ingångsbild och en textprompt för att skapa modifierade versioner medan nyckelelement bevaras.

gopher på en cykel Denna bild demonstrerar FLUX.1-Kontext-devs förmåga att förstärka bilder.

Den ursprungliga Go-maskotbilden:

Gopher go logo

omvandlades med instruktionen den här gophern cyklar på cykel på den kuperade vägen. Ett bra resultat, eller hur?

Vad är FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev är utformat för bildgenerering och redigering i kontext. Nyckelfunktioner inkluderar:

  • Karaktärskonsistens: Bevarar unika element (som karaktärer eller objekt) över flera scener
  • Lokal redigering: Modifierar specifika delar av en bild utan att påverka resten
  • Stilreferens: Genererar nya scener medan stilar från referensbilder bevaras
  • Bildförstärkning: Transformerar bilder baserat på textinstruktioner

Installation

Förutsättningar

Du behöver:

  • 16GB+ VRAM på din GPU (NVIDIA RTX rekommenderas)
  • Python 3.8+ med pip
  • Åtkomst till Hugging Face (konto och token)

Uppsättningssteg

  1. Skapa ett Hugging Face-kontohuggingface.co om du inte har ett

  2. Besök modellens sida: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

  3. Acceptera licensavtalet (icke-kommersiell användning)

  4. Skapa en Write-access tokenhttps://huggingface.co/settings/tokens

  5. Ladda ner modellen:

git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Eller använd modellens sökväg direkt i din kod.

Installation

Installera krävda Python-paket:

pip install -U diffusers torch transformers pillow accelerate sentencepiece

Eller med uv:

cd tools/fkon
uv sync

Användning

Grundläggande Python-skript

Här är ett komplett exempel med FLUX.1-Kontext-dev:

import torch
from diffusers import FluxKontextPipeline
from PIL import Image

# Ladda modellen
model_path = "/sökväg/till/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16
)

# Aktivera CPU-avlastning för att spara VRAM
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()

# Ladda din ingångsbild
input_image = Image.open("sökväg/till/din/bild.png").convert("RGB")

# Definiera din förstärkningsprompt
prompt = "den här gophern cyklar på cykel på den kuperade vägen"

# Generera förstärkt bild
result = pipe(
    prompt=prompt,
    image=input_image,
    height=496,
    width=680,
    guidance_scale=3.5,
    num_inference_steps=60,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(42)
)

# Spara resultatet
output_image = result.images[0]
output_image.save("förstärkt_bild.jpg")

Dimensionhantering

FLUX.1-Kontext-dev har specifika dimensionkrav:

  • Multipler av 16: Dimensioner bör vara multipler av 16
  • Automatisk justering: Modellen kan justera dimensioner för att möta sina krav
  • Utdata-omskalning: Vårt verktyg skalar automatiskt utdata tillbaka till begärda dimensioner

Verktyget hanterar detta genom:

  1. Avrundning av begärda dimensioner till multipler av 16
  2. Omskalning av ingångsbilden till de avrundade dimensionerna
  3. Generering av bilden (modellen kan justera ytterligare)
  4. Omskalning av utdata tillbaka till dina begärda dimensioner

Exempel på användningsområden

  1. Karaktärstransformation

Transformera en karaktär medan konsistensen bevaras:

prompt = "den här gophern cyklar på cykel på den kuperade vägen"
  1. Objektborttagning

Ta bort oönskade element:

prompt = "var vänlig ta bort människan klädd som minnie mouse från den här bilden"

Tips och bästa praxis

  1. VRAM-hantering: Använd enable_model_cpu_offload() om du har begränsad VRAM
  2. Dimensionplanering: Begär dimensioner som är multipler av 16 för att minimera justeringar
  3. Promptklarhet: Var specifik i dina textinstruktioner för bättre resultat
  4. Batchgenerering: Generera flera variationer (--n 4) för att få det bästa resultatet
  5. Frökontroll: Använd manuella frön för reproducerbara resultat

Begränsningar

  • Icke-kommersiell licens: Kräver kommersiell licens för affärsanvändning
  • Hårdvarukrävande: Behöver kraftfull GPU med betydande VRAM
  • Dimensionbegränsningar: Kan justera dimensioner automatiskt
  • Behandlingstid: Kan ta 10-15 minuter per bild beroende på hårdvara

Användbara länkar