Modelo de IA Flux de texto a imagen

Novedoso modelo de IA para generar imágenes a partir de texto

Índice

Recientemente, Black Forest Labs publicó un conjunto de modelos de IA de texto a imagen. Estos modelos se dicen que tienen una calidad de salida mucho mayor. Probémoslos

Esta es la imagen que Flux puede generar en menos de un minuto. Dolores

Instalación

Para instalarlo en tu propio PC necesitarás 16 GB de VRAM en tu GPU para FLUX.1-dev y 8 GB de VRAM para FLUX.1-schnell

  1. Crea una cuenta en el sitio huggingface.co si aún no tienes una

  2. Mira la publicación y la descripción de los modelos https://blackforestlabs.ai/announcing-black-forest-labs/

  3. Ve a la página https://huggingface.co/black-forest-labs/FLUX.1-dev para la versión de desarrollo y a la página https://huggingface.co/black-forest-labs/FLUX.1-schnell para la versión rápida

  4. Acepta el acuerdo de licencia si estás de acuerdo

  5. Crea un token de acceso de escritura en la página https://huggingface.co/settings/tokens . Lo necesitarás para descargar el modelo.

  6. Descarga el modelo. Estoy descargando la versión de desarrollo

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. Espera

Ejecutarlo

Instala diffusers, torch y otras librerías excelentes de Python.

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Crea un archivo de Python y pega:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# ahorra algo de VRAM desalojando el modelo a la CPU. Elimina esto si tienes suficiente potencia de GPU
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "Un gato sosteniendo un letrero que dice hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

Para obtener más información, consulta la documentación de diffusers

El resultado

  1. Cuando estaba probando LLMs para Perplexica una de las preguntas que le di a Perplexica fue ¿De qué se trataba la protesta de los trabajadores en Australia el 27 de agosto de 2024? Veamos qué imagen genera Flux para el prompt muy vago
Un grupo de manifestantes de la industria apoyan
a su sindicato en Melbourne

topimage

  1. Y esta otra:
Los derechos humanos están siendo afectados por la pandemia de COVID-19

topimage

  1. Y mi prueba favorita
Un tranvía pasa por la ciudad de Melbourne de noche

topimage

Todas estas imágenes lucen muy bien. Busquemos defectos en la última:

  • Es la ciudad de Melbourne. Los tranvías y los coches deben circular por el lado izquierdo.
  • El color del tranvía no es correcto. Bueno, quizás eso sea demasiado quisquilloso
  • Las luces delanteras del tranvía son de color rojo?
  • El tranvía no tiene conductor
  • La ruta es muy extraña

En general, me gusta este modelo!