फ्लक्स.1-कोण्टेक्स्ट-डेव: इमेज ऑगमेंटेशन AI मॉडल

इमेजों को टेक्स्ट निर्देशों के साथ बढ़ाने के लिए AI मॉडल

Page content

ब्लैक फॉरेस्ट लैब्स ने FLUX.1-Kontext-dev जारी किया है, एक उन्नत इमेज-टू-इमेज एआई मॉडल जो टेक्स्ट निर्देशों का उपयोग करके मौजूदा इमेजों को बढ़ाता है।

FLUX.1-dev के विपरीत, जो केवल टेक्स्ट से इमेजें बनाता है, FLUX.1-Kontext-dev एक इनपुट इमेज और टेक्स्ट प्रॉम्प्ट दोनों लेता है ताकि संशोधित संस्करण बनाए जबकि मुख्य तत्वों को बनाए रखता है।

गोफर एक बाइसिकल पर यह इमेज FLUX.1-Kontext-dev की इमेजों को बढ़ाने की क्षमता को दर्शाती है।

मूल गो मास्कॉट इमेज:

गोफर गो लोगो

को निर्देश इस गोफर को हिल्ली सड़क पर बाइसिकल पर सवारी करते हुए दिखाएं के साथ बदल दिया गया। एक अच्छा परिणाम, क्या नहीं?

FLUX.1-Kontext-dev क्या है?

FLUX.1-Kontext-dev इन-कॉन्टेक्स्ट इमेज जनरेशन और एडिटिंग के लिए डिज़ाइन किया गया है। मुख्य विशेषताएं शामिल हैं:

  • चरित्र स्थिरता: कई दृश्यों में अनूठे तत्वों (जैसे चरित्र या वस्तुओं) को बनाए रखता है
  • स्थानीय संपादन: इमेज के विशिष्ट भागों को बदलता है बिना शेष को प्रभावित किए
  • शैली संदर्भ: संदर्भ इमेजों से शैलियों को बनाए रखते हुए नए दृश्य उत्पन्न करता है
  • इमेज ऑगमेंटेशन: टेक्स्ट निर्देशों के आधार पर इमेजों को बदलता है

इंस्टॉलेशन

पूर्वापेक्षाएं

आपको चाहिए:

  • 16GB+ VRAM आपकी GPU पर (NVIDIA RTX अनुशंसित)
  • Python 3.8+ के साथ pip
  • Hugging Face तक पहुंच (खाता और टोकन)

सेटअप चरण

  1. एक Hugging Face खाता बनाएं huggingface.co पर अगर आपके पास नहीं है

  2. मॉडल पेज पर जाएं: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

  3. लाइसेंस समझौते को स्वीकार करें (गैर-व्यावसायिक उपयोग)

  4. एक Write access token बनाएं https://huggingface.co/settings/tokens पर

  5. मॉडल डाउनलोड करें:

git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

या अपने कोड में सीधे मॉडल पथ का उपयोग करें।

इंस्टॉलेशन

आवश्यक Python पैकेज इंस्टॉल करें:

pip install -U diffusers torch transformers pillow accelerate sentencepiece

या uv का उपयोग करके:

cd tools/fkon
uv sync

उपयोग

बेसिक पाइथन स्क्रिप्ट

FLUX.1-Kontext-dev का उपयोग करने का एक पूर्ण उदाहरण:

import torch
from diffusers import FluxKontextPipeline
from PIL import Image

# मॉडल लोड करें
model_path = "/path/to/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16
)

# VRAM बचाने के लिए CPU ऑफलोडिंग सक्षम करें
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()

# अपना इनपुट इमेज लोड करें
input_image = Image.open("path/to/your/image.png").convert("RGB")

# अपना ऑगमेंटेशन प्रॉम्प्ट परिभाषित करें
prompt = "इस गोफर को हिल्ली सड़क पर बाइसिकल पर सवारी करते हुए दिखाएं"

# ऑगमेंटेड इमेज उत्पन्न करें
result = pipe(
    prompt=prompt,
    image=input_image,
    height=496,
    width=680,
    guidance_scale=3.5,
    num_inference_steps=60,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(42)
)

# परिणाम सहेजें
output_image = result.images[0]
output_image.save("augmented_image.jpg")

डाइमेंशन हैंडलिंग

FLUX.1-Kontext-dev के पास विशिष्ट डाइमेंशन आवश्यकताएं हैं:

  • 16 के गुणांक: डाइमेंशन 16 के गुणांक होने चाहिए
  • स्वचालित समायोजन: मॉडल अपनी आवश्यकताओं को पूरा करने के लिए डाइमेंशन को समायोजित कर सकता है
  • आउटपुट रीसाइजिंग: हमारा टूल आउटपुट को अनुरोधित डाइमेंशन पर वापस स्वचालित रूप से रीसाइज करता है

टूल इस प्रकार से काम करता है:

  1. अनुरोधित डाइमेंशन को 16 के गुणांक तक राउंड करता है
  2. इनपुट इमेज को राउंडेड डाइमेंशन पर रीसाइज करता है
  3. इमेज उत्पन्न करता है (मॉडल और अधिक समायोजित कर सकता है)
  4. आउटपुट को आपके अनुरोधित डाइमेंशन पर वापस रीसाइज करता है

उदाहरण उपयोग मामले

  1. चरित्र परिवर्तन

एक चरित्र को बदलें जबकि स्थिरता बनाए रखें:

prompt = "इस गोफर को हिल्ली सड़क पर बाइसिकल पर सवारी करते हुए दिखाएं"
  1. वस्तु हटाना

अनचाहे तत्व हटाएं:

prompt = "कृपया इस फोटो से मिनी माउस के रूप में कपड़े पहने हुए मानव को हटा दें"

टिप्स और सर्वोत्तम प्रथाएं

  1. VRAM प्रबंधन: अगर आपके पास सीमित VRAM है तो enable_model_cpu_offload() का उपयोग करें
  2. डाइमेंशन योजना: समायोजन को कम करने के लिए 16 के गुणांक के डाइमेंशन अनुरोध करें
  3. प्रॉम्प्ट स्पष्टता: बेहतर परिणामों के लिए अपने टेक्स्ट निर्देशों में स्पष्ट हों
  4. बैच जनरेशन: सबसे अच्छा परिणाम प्राप्त करने के लिए कई संस्करण उत्पन्न करें (--n 4)
  5. सीड कंट्रोल: पुनरुत्पादित परिणामों के लिए मैनुअल सीड का उपयोग करें

सीमाएं

  • गैर-व्यावसायिक लाइसेंस: व्यवसायिक उपयोग के लिए व्यावसायिक लाइसेंस की आवश्यकता होती है
  • हार्डवेयर इंटेंसिव: महत्वपूर्ण VRAM के साथ शक्तिशाली GPU की आवश्यकता होती है
  • डाइमेंशन प्रतिबंध: स्वचालित रूप से डाइमेंशन को समायोजित कर सकता है
  • प्रोसेसिंग समय: हार्डवेयर पर निर्भर करते हुए प्रति इमेज 10-15 मिनट ले सकता है

उपयोगी लिंक