Modelo de IA de texto para imagem Flux

Incredível novo modelo de IA para gerar imagens a partir de texto.

Conteúdo da página

Recentemente, a Black Forest Labs publicou um conjunto de modelos de IA de texto para imagem. Diz-se que esses modelos oferecem uma qualidade de saída muito superior. Vamos testá-los

Esta é a imagem que o Flux consegue gerar em menos de um minuto. Dolores

Instalação

Para instalar no seu próprio computador, você precisará de 16 GB de VRAM na sua GPU para o FLUX.1-dev e 8 GB de VRAM para o FLUX.1-schnell.

  1. Crie uma conta no site huggingface.co, se você ainda não tiver uma.

  2. Confira o anúncio e a descrição dos modelos em https://blackforestlabs.ai/announcing-black-forest-labs/

  3. Acesse a página https://huggingface.co/black-forest-labs/FLUX.1-dev para a versão dev e a página https://huggingface.co/black-forest-labs/FLUX.1-schnell para a versão schnell.

  4. Aceite o acordo de licença, caso concorde.

  5. Crie um token de acesso de escrita na página https://huggingface.co/settings/tokens. Você precisará dele para baixar o modelo.

  6. Baixe o modelo. Eu estou baixando a versão dev.

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. Aguarde.

Executando

Instale as bibliotecas Python diffusers, torch e outras excelentes bibliotecas.

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Crie um arquivo Python e copie e cole o seguinte:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# Economize VRAM transferindo o modelo para a CPU. Remova isso se você tiver potência de GPU suficiente.
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

Para saber mais, consulte a documentação do diffusers.

O resultado

  1. Quando estava testando LLMs para o Perplexica, uma das perguntas que fiz ao Perplexica foi What was that tradies protest in Australia on 27th of August 2024 about? Vamos ver que imagem o Flux gera para o prompt muito vago:
A group of tradie protesters are supporting
their trade union in Melbourne

topimage

  1. E esta aqui:
Human rights are getting impacted by COVID-19 pandemic

topimage

  1. E o meu teste favorito:
A tram runs through the Melbourne City at night

topimage

Todas essas imagens parecem muito boas. Vamos encontrar falhas na última:

  • É a cidade de Melbourne. Os bondes e carros devem andar pela esquerda.
  • A cor do bonde não está correta. Ok, isso pode ser muito exigente.
  • As luzes dianteiras do bonde são de cor vermelha?
  • O bonde não tem motorista.
  • A rota é muito estranha.

No geral, gosto deste modelo!