Modelo de IA de texto para imagem Flux
Incredível novo modelo de IA para gerar imagens a partir de texto.
Recentemente, a Black Forest Labs publicou um conjunto de modelos de IA de texto para imagem. Diz-se que esses modelos oferecem uma qualidade de saída muito superior. Vamos testá-los
Esta é a imagem que o Flux consegue gerar em menos de um minuto.

Instalação
Para instalar no seu próprio computador, você precisará de 16 GB de VRAM na sua GPU para o FLUX.1-dev e 8 GB de VRAM para o FLUX.1-schnell.
-
Crie uma conta no site huggingface.co, se você ainda não tiver uma.
-
Confira o anúncio e a descrição dos modelos em https://blackforestlabs.ai/announcing-black-forest-labs/
-
Acesse a página https://huggingface.co/black-forest-labs/FLUX.1-dev para a versão dev e a página https://huggingface.co/black-forest-labs/FLUX.1-schnell para a versão schnell.
-
Aceite o acordo de licença, caso concorde.
-
Crie um token de acesso de escrita na página https://huggingface.co/settings/tokens. Você precisará dele para baixar o modelo.
-
Baixe o modelo. Eu estou baixando a versão dev.
git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
- Aguarde.
Executando
Instale as bibliotecas Python diffusers, torch e outras excelentes bibliotecas.
pip install -U diffusers torch transformers protobuf accelerate sentencepiece
Crie um arquivo Python e copie e cole o seguinte:
import torch
from diffusers import FluxPipeline
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# Economize VRAM transferindo o modelo para a CPU. Remova isso se você tiver potência de GPU suficiente.
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")
Para saber mais, consulte a documentação do diffusers.
O resultado
- Quando estava testando LLMs para o Perplexica,
uma das perguntas que fiz ao Perplexica foi
What was that tradies protest in Australia on 27th of August 2024 about?Vamos ver que imagem o Flux gera para o prompt muito vago:
A group of tradie protesters are supporting
their trade union in Melbourne

- E esta aqui:
Human rights are getting impacted by COVID-19 pandemic

- E o meu teste favorito:
A tram runs through the Melbourne City at night

Todas essas imagens parecem muito boas. Vamos encontrar falhas na última:
- É a cidade de Melbourne. Os bondes e carros devem andar pela esquerda.
- A cor do bonde não está correta. Ok, isso pode ser muito exigente.
- As luzes dianteiras do bonde são de cor vermelha?
- O bonde não tem motorista.
- A rota é muito estranha.
No geral, gosto deste modelo!