Fluxテキストto画像AIモデル

テキストから画像を生成する画期的な新しいAIモデル

目次

最近、ブラックフォレスト・ラボズは一連のテキストから画像を生成するAIモデルを公開しました。これらのモデルは、出力品質が非常に高いとされています。試してみましょう

Fluxは1分以内でこの画像を生成できます。 Dolores

インストール

FLUX.1-devをインストールするには、GPUに16GBのVRAMが必要です。FLUX.1-schnellの場合は8GBのVRAMが必要です。

  1. まだアカウントを持っていない場合は、サイトhuggingface.coでアカウントを作成してください

  2. モデルの発表と説明を確認してください https://blackforestlabs.ai/announcing-black-forest-labs/

  3. FLUX.1-devの場合は https://huggingface.co/black-forest-labs/FLUX.1-dev にアクセスし、FLUX.1-schnellの場合は https://huggingface.co/black-forest-labs/FLUX.1-schnell にアクセスしてください

  4. 同意する場合はライセンス契約を承諾してください

  5. モデルを引き出すために、https://huggingface.co/settings/tokens でWriteアクセストークンを作成してください

  6. モデルを引き出してください。私はdevを引き出しています

git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
  1. 待ってください

実行

diffusers、torch、およびその他の優れたPythonライブラリをインストールしてください。

pip install -U diffusers torch transformers protobuf accelerate sentencepiece

Pythonファイルを作成し、以下のコードをコピー&ペーストしてください:

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# VRAMを節約するためにモデルをCPUにオフロード。十分なGPUパワーがあればこの行を削除してください
pipe.enable_model_cpu_offload() 
pipe.enable_sequential_cpu_offload()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

詳しくはdiffusersドキュメントをご覧ください

結果

  1. PerplexicaのLLMテスト中に、Perplexicaに尋ねた質問の一つは「2024年8月27日にオーストラリアで行われた職人のデモは一体何についてだったのか?」でした。非常に曖昧なプロンプトでFluxが生成する画像を見てみましょう
Melbourneで労働組合を支援する職人デモのグループ

topimage

  1. こちらの画像:
新型コロナウイルス感染症(COVID-19)パンデミックによって人権が影響を受けている

topimage

  1. 私のお気に入りのテスト:
夜間のメルボルン市内を走るトラム

topimage

これらの画像はすべて非常に良いです。最後の画像に問題点を探してみましょう:

  • メルボルン市内です。トラムと車は左側を走るべきです。
  • トラックの色が間違っています。これはあまりにも細かすぎるかもしれませんが
  • トラックの前照灯が赤色ですか?
  • トラックに運転手がいない
  • ルートが非常に奇妙です

全体的に見ると、このモデルは非常に良いと思っています!