Modelo de IA Flux de texto para imagem

Um incrível novo modelo de IA para produzir uma imagem a partir de texto

Conteúdo da página

Recentemente, a Black Forest Labs publicou um conjunto de modelos de IA de texto para imagem.
Esses modelos dizem-se ter uma qualidade de saída muito superior.
Vamos testá-los

Este é o imagem que a Flux pode gerar em menos de um minuto.
Dolores

Instalação

Para instalar em seu próprio PC, você precisará de 16 GB de VRAM na GPU para FLUX.1-dev e 8 GB de VRAM para FLUX.1-schnell

  1. Crie uma conta no site huggingface.co, se ainda não tiver uma

  2. Veja a anúncio e descrição dos modelos https://blackforestlabs.ai/announcing-black-forest-labs/

  3. Acesse a página https://huggingface.co/black-forest-labs/FLUX.1-dev para o modelo de desenvolvimento
    e a página https://huggingface.co/black-forest-labs/FLUX.1-schnell para o modelo schnell

  4. Aceite o acordo de licença, se concordar

  5. Crie um token de acesso de escrita na página https://huggingface.co/settings/tokens . Você precisará dele para baixar o modelo.

  6. Baixe o modelo. Estou baixando o modelo de desenvolvimento

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. Aguarde

Execute-o

Instale diffusers, torch e outras ótimas bibliotecas Python.

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Crie um arquivo Python e copie e cole:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# economize alguns GB de VRAM deslocando o modelo para o CPU. Remova isso se tiver poder de GPU suficiente
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "Um gato segurando um cartaz que diz hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

Para saber mais, consulte a documentação diffusers

O resultado

  1. Quando estava testando LLMs para Perplexica
    uma das perguntas que dei a Perplexica foi Qual era aquela manifestação dos tradies na Austrália em 27 de agosto de 2024 sobre?
    Vamos ver qual imagem a Flux gera para o prompt muito vago
Um grupo de manifestantes da indústria apoia  
seu sindicato em Melbourne

topimage

  1. E esta:
Direitos humanos estão sendo impactados pela pandemia de COVID-19

topimage

  1. E meu teste favorito
Um trem passa pela cidade de Melbourne à noite

topimage

Todas essas imagens parecem muito boas. Vamos encontrar falhas na última:

  • É a cidade de Melbourne. Trem e carros devem trafegar do lado esquerdo.
  • A cor do trem não está correta. Ok, isso pode ser muito exigente
  • As luzes da frente do trem são de cor vermelha?
  • O trem não tem um motorista
  • A rota é muito estranha

No geral, gosto deste modelo!