Modèle d'IA Flux texte en image

Un nouveau modèle d'IA incroyable capable de générer une image à partir de texte

Sommaire

Récemment, Black Forest Labs a publié un ensemble de
modèles d’IA texte à image.
Ces modèles sont dit avoir une qualité de sortie bien plus élevée.
Essayons-les

C’est l’image que Flux peut générer en moins d’une minute.
Dolores

Installation

Pour l’installer sur votre propre ordinateur, vous aurez besoin de 16 Go de VRAM sur votre GPU pour FLUX.1-dev et de 8 Go de VRAM pour FLUX.1-schnell

  1. Créez un compte sur le site huggingface.co si vous n’en avez pas encore un

  2. Consultez l’annonce et la description des modèles https://blackforestlabs.ai/announcing-black-forest-labs/

  3. Allez sur la page https://huggingface.co/black-forest-labs/FLUX.1-dev pour la version de développement
    et sur la page https://huggingface.co/black-forest-labs/FLUX.1-schnell pour la version schnell

  4. Acceptez le contrat de licence si vous êtes d’accord

  5. Créez un jeton d’accès en écriture sur la page https://huggingface.co/settings/tokens. Vous en aurez besoin pour télécharger le modèle.

  6. Téléchargez le modèle. Je télécharge la version de développement

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. Attendez

Exécution

Installez diffusers, torch et d’autres excellentes bibliothèques Python.

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Créez un fichier Python et copiez-collez :

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# économisez un peu de VRAM en déchargeant le modèle vers le CPU. Supprimez ceci si vous avez suffisamment de puissance GPU
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "Un chat tenant un panneau qui dit hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

Pour en savoir plus, consultez la documentation diffusers

Résultat

  1. Lorsque j’ai testé les LLM pour Perplexica,
    l’une des questions que j’ai posées à Perplexica était Quel était ce mouvement de protestation des ouvriers en Australie le 27 août 2024 ?
    Voyons quelle image Flux génère pour ce prompt très vague
Un groupe de manifestants ouvriers soutient  
leur syndicat à Melbourne

topimage

  1. Et celle-ci :
Les droits humains sont affectés par la pandémie de COVID-19

topimage

  1. Et mon test préféré :
Un tram traverse la ville de Melbourne la nuit

topimage

Toutes ces images ont l’air très bonnes. Cherchons les défauts de la dernière :

  • C’est la ville de Melbourne. Les trams et les voitures doivent rouler à gauche.
  • La couleur du tram n’est pas correcte. D’accord, cela pourrait être trop pointilleux
  • Les feux avant du tram sont rouges ?
  • Le tram n’a pas de conducteur
  • Le tracé est très étrange

En général, j’aime ce modèle !