Cos’è FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev è un modello AI sviluppato da Black Forest Labs che consente la generazione di immagini a partire da altre immagini. A differenza dei modelli testo-Immagine, utilizza un’immagine esistente e un prompt testuale per generare versioni arricchite mantenendo gli elementi chiave dell’immagine originale.

In che modo differisce da FLUX.1-dev?

FLUX.1-dev genera immagini solo da prompt testuali. FLUX.1-Kontext-dev utilizza sia un’immagine di input che un prompt testuale, permettendoti di modificare, arricchire o trasformare immagini esistenti mantenendo la coerenza dei personaggi e lo stile.

Quali sono i requisiti hardware?

FLUX.1-Kontext-dev richiede una notevole quantità di memoria GPU, tipicamente 16 GB+ di VRAM. È ottimizzato per le GPU NVIDIA RTX. Il modello può utilizzare l’offloading della CPU per ridurre i requisiti di VRAM.

Quali dimensioni delle immagini supporta?

Il modello richiede che le dimensioni siano multipli di 16. Potrebbe adattare automaticamente le dimensioni per soddisfare i suoi requisiti. Lo strumento gestisce questa situazione arrotondando le dimensioni e ridimensionando l’output nuovamente alle dimensioni richieste.

Posso utilizzarlo a fini commerciali?

FLUX.1-Kontext-dev è rilasciato con una licenza non commerciale. Per l’uso commerciale, è necessario ottenere una licenza commerciale da Black Forest Labs.

I casi d’uso comuni includono la coerenza dei personaggi tra le scene, l’editing locale delle immagini, il trasferimento dello stile, l’eliminazione di elementi indesiderati, l’aggiunta di elementi alle immagini e la trasformazione delle immagini in base a descrizioni testuali.

FLUX.1-Kontext-dev: Modello AI per l'incremento delle immagini

Modello AI per l'aumento di immagini con istruzioni testuali

Indice

Black Forest Labs ha rilasciato FLUX.1-Kontext-dev, un avanzato modello AI image-to-image che migliora le immagini esistenti utilizzando istruzioni testuali.

A differenza di FLUX.1-dev che genera immagini solo da testo, FLUX.1-Kontext-dev utilizza sia un’immagine di input che un prompt testuale per creare versioni modificate mantenendo gli elementi chiave.

gopher su una bicicletta Questa immagine dimostra la capacità di FLUX.1-Kontext-dev di migliorare le immagini.

L’immagine originale del mascotte Go:

Gopher Go logo

è stata trasformata con l’istruzione this gopher rides on the bicycle on the hilly road. Un risultato decente, non è vero?

Cosa è FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev è progettato per la generazione e modifica di immagini in contesto. Le caratteristiche principali includono:

Consistenza dei personaggi: Preserva elementi unici (come personaggi o oggetti) in diversi scenari
Modifica locale: Modifica parti specifiche di un’immagine senza influenzare il resto
Riferimento dello stile: Genera nuovi scenari mantenendo gli stili delle immagini di riferimento
Aumento delle immagini: Trasforma le immagini in base a istruzioni testuali

Installazione

Requisiti

Hai bisogno di:

16 GB+ VRAM sulla tua GPU (si consiglia NVIDIA RTX)
Python 3.8+ con pip
Accesso a Hugging Face (account e token)

Passaggi per l’installazione

Crea un account Hugging Face su huggingface.co se non ne hai uno
Visita la pagina del modello: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Accetta l’accordo di licenza (uso non commerciale)
Crea un token di accesso in scrittura su https://huggingface.co/settings/tokens
Scarica il modello:

git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Oppure utilizza il percorso del modello direttamente nel tuo codice.

Installazione

Installa i pacchetti Python necessari:

pip install -U diffusers torch transformers pillow accelerate sentencepiece

Oppure utilizzando uv:

cd tools/fkon
uv sync

Utilizzo

Script Python base

Ecco un esempio completo utilizzando FLUX.1-Kontext-dev:

import torch
from diffusers import FluxKontextPipeline
from PIL import Image

# Carica il modello
model_path = "/path/to/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
    model_path, 
    torch_dtype=torch.bfloat16
)

# Abilita l'offloading della CPU per risparmiare VRAM
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()

# Carica la tua immagine di input
input_image = Image.open("path/to/your/image.png").convert("RGB")

# Definisci il prompt di aumento
prompt = "this gopher rides on the bicycle on the hilly road"

# Genera l'immagine aumentata
result = pipe(
    prompt=prompt,
    image=input_image,
    height=496,
    width=680,
    guidance_scale=3.5,
    num_inference_steps=60,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(42)
)

# Salva il risultato
output_image = result.images[0]
output_image.save("augmented_image.jpg")

Gestione delle dimensioni

FLUX.1-Kontext-dev ha requisiti specifici per le dimensioni:

Multipli di 16: Le dimensioni devono essere multipli di 16
Regolazione automatica: Il modello potrebbe regolare le dimensioni per soddisfare i suoi requisiti
Ridimensionamento dell’output: Il nostro strumento ridimensiona automaticamente l’output alle dimensioni richieste

Lo strumento gestisce questo in questo modo:

Arrotonda le dimensioni richieste ai multipli di 16
Ridimensiona l’immagine di input alle dimensioni arrotondate
Genera l’immagine (il modello potrebbe regolare ulteriormente)
Ridimensiona l’output nuovamente alle dimensioni richieste

Esempi di utilizzo

Trasformazione dei personaggi

Trasforma un personaggio mantenendo la coerenza:

prompt = "this gopher rides on the bicycle on the hilly road"

Rimozione di oggetti

Rimuovi elementi indesiderati:

prompt = "please remove the human dressed as minnie mouse from this photo"

Consigli e buone pratiche

Gestione della VRAM: Utilizza enable_model_cpu_offload() se hai una quantità limitata di VRAM
Pianificazione delle dimensioni: Richiedi dimensioni che siano multipli di 16 per ridurre al minimo le regolazioni
Chiarezza del prompt: Sii specifico nelle tue istruzioni testuali per ottenere risultati migliori
Generazione in batch: Genera diverse varianti (--n 4) per ottenere il miglior risultato
Controllo del seed: Utilizza seed manuali per risultati riproducibili

Limitazioni

Licenza non commerciale: Richiede una licenza commerciale per l’uso aziendale
Intensivo dal punto di vista hardware: Richiede una GPU potente con una significativa quantità di VRAM
Vincoli dimensionali: Potrebbe regolare automaticamente le dimensioni
Tempo di elaborazione: Può richiedere 10-15 minuti per immagine a seconda dell’hardware

Cosa è FLUX.1-Kontext-dev?

Installazione

Requisiti

Passaggi per l’installazione

Installazione

Utilizzo

Script Python base

Gestione delle dimensioni

Esempi di utilizzo

Consigli e buone pratiche

Link utili