Fluxテキストto画像AIモデル
テキストから画像を生成する画期的な新しいAIモデル
最近、ブラックフォレスト・ラボズは一連のテキストから画像を生成するAIモデルを公開しました。これらのモデルは、出力品質が非常に高いとされています。試してみましょう
Fluxは1分以内でこの画像を生成できます。
インストール
FLUX.1-devをインストールするには、GPUに16GBのVRAMが必要です。FLUX.1-schnellの場合は8GBのVRAMが必要です。
-
まだアカウントを持っていない場合は、サイトhuggingface.coでアカウントを作成してください
-
モデルの発表と説明を確認してください https://blackforestlabs.ai/announcing-black-forest-labs/
-
FLUX.1-devの場合は https://huggingface.co/black-forest-labs/FLUX.1-dev にアクセスし、FLUX.1-schnellの場合は https://huggingface.co/black-forest-labs/FLUX.1-schnell にアクセスしてください
-
同意する場合はライセンス契約を承諾してください
-
モデルを引き出すために、https://huggingface.co/settings/tokens でWriteアクセストークンを作成してください
-
モデルを引き出してください。私はdevを引き出しています
git clone https://huggingface.co/black-forest-labs/FLUX.1-dev
- 待ってください
実行
diffusers、torch、およびその他の優れたPythonライブラリをインストールしてください。
pip install -U diffusers torch transformers protobuf accelerate sentencepiece
Pythonファイルを作成し、以下のコードをコピー&ペーストしてください:
import torch
from diffusers import FluxPipeline
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)
# VRAMを節約するためにモデルをCPUにオフロード。十分なGPUパワーがあればこの行を削除してください
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")
詳しくはdiffusersドキュメントをご覧ください
結果
- PerplexicaのLLMテスト中に、Perplexicaに尋ねた質問の一つは「2024年8月27日にオーストラリアで行われた職人のデモは一体何についてだったのか?」でした。非常に曖昧なプロンプトでFluxが生成する画像を見てみましょう
Melbourneで労働組合を支援する職人デモのグループ
- こちらの画像:
新型コロナウイルス感染症(COVID-19)パンデミックによって人権が影響を受けている
- 私のお気に入りのテスト:
夜間のメルボルン市内を走るトラム
これらの画像はすべて非常に良いです。最後の画像に問題点を探してみましょう:
- メルボルン市内です。トラムと車は左側を走るべきです。
- トラックの色が間違っています。これはあまりにも細かすぎるかもしれませんが
- トラックの前照灯が赤色ですか?
- トラックに運転手がいない
- ルートが非常に奇妙です
全体的に見ると、このモデルは非常に良いと思っています!