¿En qué se diferencia de FLUX.1-dev?

FLUX.1-dev genera imágenes a partir de prompts de texto únicamente. FLUX.1-Kontext-dev utiliza tanto una imagen de entrada como un prompt de texto, permitiéndote modificar, ampliar o transformar imágenes existentes manteniendo la coherencia de los personajes y el estilo.

¿Cuáles son los requisitos de hardware?

FLUX.1-Kontext-dev requiere una cantidad significativa de memoria de GPU, normalmente 16 GB o más de VRAM. Está optimizado para GPUs NVIDIA RTX. El modelo puede utilizar el desalojo de CPU para reducir los requisitos de VRAM.

¿Qué dimensiones de imagen admite?

El modelo requiere que las dimensiones sean múltiplos de 16. Puede ajustar automáticamente las dimensiones para cumplir con sus requisitos. La herramienta maneja esto redondeando las dimensiones y volviendo a redimensionar la salida a los tamaños solicitados.

¿Puedo usarlo con fines comerciales?

FLUX.1-Kontext-dev se encuentra disponible bajo una licencia de uso no comercial. Para uso comercial, es necesario obtener una licencia comercial de Black Forest Labs.

¿Para qué puedo usarlo?

Los casos de uso comunes incluyen la coherencia de los personajes entre escenas, edición local de imágenes, transferencia de estilo, eliminación de elementos no deseados, adición de elementos a imágenes y transformación de imágenes basada en descripciones de texto.

FLUX.1-Kontext-dev: Modelo de IA para aumento de imágenes

Q: ¿Qué es FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev es un modelo de IA de Black Forest Labs que permite la generación de imágenes a partir de otras imágenes. A diferencia de los modelos de texto a imagen, toma una imagen existente y un prompt de texto para generar versiones mejoradas mientras preserva los elementos clave de la original.

Modelo de IA para aumentar imágenes con instrucciones de texto

Índice

Black Forest Labs ha lanzado FLUX.1-Kontext-dev, un avanzado modelo de inteligencia artificial de imagen a imagen que mejora imágenes existentes mediante instrucciones de texto.

A diferencia de FLUX.1-dev, que genera imágenes a partir de texto solo, FLUX.1-Kontext-dev toma tanto una imagen de entrada como una instrucción de texto para crear versiones modificadas mientras preserva elementos clave.

gopher en una bicicleta Esta imagen demuestra la capacidad de FLUX.1-Kontext-dev para mejorar imágenes.

La imagen original del emblema de Go:

Gopher go logo

fue transformada con la instrucción este gopher monta en la bicicleta en la carretera con pendientes. ¿Un buen resultado, no es así?

¿Qué es FLUX.1-Kontext-dev?

FLUX.1-Kontext-dev está diseñado para generación y edición de imágenes en contexto. Características clave incluyen:

Consistencia de personajes: Preserva elementos únicos (como personajes u objetos) en múltiples escenas
Edición local: Modifica partes específicas de una imagen sin afectar el resto
Referencia de estilo: Genera nuevas escenas manteniendo estilos de imágenes de referencia
Ampliación de imágenes: Transforma imágenes basándose en instrucciones de texto

Instalación

Requisitos previos

Necesitarás:

16 GB+ de VRAM en tu GPU (se recomienda NVIDIA RTX)
Python 3.8+ con pip
Acceso a Hugging Face (cuenta y token)

Pasos de configuración

Crea una cuenta en Hugging Face en huggingface.co si no tienes una
Visita la página del modelo: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Acepta el acuerdo de licencia (uso no comercial)
Crea un token de acceso de escritura en https://huggingface.co/settings/tokens
Descarga el modelo:

git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

O usa directamente la ruta del modelo en tu código.

Instalación

Instala los paquetes de Python necesarios:

pip install -U diffusers torch transformers pillow accelerate sentencepiece

O usando uv:

cd tools/fkon
uv sync

Uso

Script básico de Python

Aquí tienes un ejemplo completo usando FLUX.1-Kontext-dev:

import torch
from diffusers import FluxKontextPipeline
from PIL import Image

# Carga el modelo
model_path = "/ruta/a/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
    model_path, 
    torch_dtype=torch.bfloat16
)

# Habilita la descarga en CPU para ahorrar VRAM
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()

# Carga tu imagen de entrada
input_image = Image.open("ruta/a/tu/imagen.png").convert("RGB")

# Define tu instrucción de mejora
prompt = "este gopher monta en la bicicleta en la carretera con pendientes"

# Genera la imagen mejorada
result = pipe(
    prompt=prompt,
    image=input_image,
    height=496,
    width=680,
    guidance_scale=3.5,
    num_inference_steps=60,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(42)
)

# Guarda el resultado
output_image = result.images[0]
output_image.save("imagen_mejorada.jpg")

Manejo de dimensiones

FLUX.1-Kontext-dev tiene requisitos específicos de dimensiones:

Múltiplos de 16: Las dimensiones deben ser múltiplos de 16
Ajuste automático: El modelo puede ajustar las dimensiones para cumplir con sus requisitos
Redimensionamiento de salida: Nuestra herramienta redimensiona automáticamente la salida a las dimensiones solicitadas

La herramienta maneja esto de la siguiente manera:

Redondea las dimensiones solicitadas a múltiplos de 16
Redimensiona la imagen de entrada a las dimensiones redondeadas
Genera la imagen (el modelo puede ajustar aún más)
Redimensiona la salida de nuevo a las dimensiones solicitadas

Casos de uso ejemplos

Transformación de personajes

Transforma un personaje manteniendo la consistencia:

prompt = "este gopher monta en la bicicleta en la carretera con pendientes"

Eliminación de objetos

Elimina elementos no deseados:

prompt = "por favor, elimina a la persona vestida como Minnie Mouse de esta foto"

Consejos y buenas prácticas

Gestión de VRAM: Usa enable_model_cpu_offload() si tienes poca VRAM
Planificación de dimensiones: Solicita dimensiones que sean múltiplos de 16 para minimizar ajustes
Claridad en las instrucciones: Sé específico en tus instrucciones de texto para mejores resultados
Generación por lotes: Genera varias variaciones (--n 4) para obtener el mejor resultado
Control de semillas: Usa semillas manuales para resultados reproducibles

Limitaciones

Licencia no comercial: Requiere una licencia comercial para uso empresarial
Intensivo en hardware: Necesita una GPU poderosa con una gran cantidad de VRAM
Restricciones de dimensiones: Puede ajustar automáticamente las dimensiones
Tiempo de procesamiento: Puede tomar entre 10 y 15 minutos por imagen según el hardware

¿Qué es FLUX.1-Kontext-dev?

Instalación

Requisitos previos

Pasos de configuración

Instalación

Uso

Script básico de Python

Manejo de dimensiones

Casos de uso ejemplos

Consejos y buenas prácticas

Enlaces útiles