फ्लक्स.1-कोण्टेक्स्ट-डेव: इमेज ऑगमेंटेशन AI मॉडल
इमेजों को टेक्स्ट निर्देशों के साथ बढ़ाने के लिए AI मॉडल
ब्लैक फॉरेस्ट लैब्स ने FLUX.1-Kontext-dev जारी किया है, एक उन्नत इमेज-टू-इमेज एआई मॉडल जो टेक्स्ट निर्देशों का उपयोग करके मौजूदा इमेजों को बढ़ाता है।
FLUX.1-dev के विपरीत, जो केवल टेक्स्ट से इमेजें बनाता है, FLUX.1-Kontext-dev एक इनपुट इमेज और टेक्स्ट प्रॉम्प्ट दोनों लेता है ताकि संशोधित संस्करण बनाए जबकि मुख्य तत्वों को बनाए रखता है।
यह इमेज FLUX.1-Kontext-dev की इमेजों को बढ़ाने की क्षमता को दर्शाती है।
मूल गो मास्कॉट इमेज:

को निर्देश इस गोफर को हिल्ली सड़क पर बाइसिकल पर सवारी करते हुए दिखाएं के साथ बदल दिया गया। एक अच्छा परिणाम, क्या नहीं?
FLUX.1-Kontext-dev क्या है?
FLUX.1-Kontext-dev इन-कॉन्टेक्स्ट इमेज जनरेशन और एडिटिंग के लिए डिज़ाइन किया गया है। मुख्य विशेषताएं शामिल हैं:
- चरित्र स्थिरता: कई दृश्यों में अनूठे तत्वों (जैसे चरित्र या वस्तुओं) को बनाए रखता है
- स्थानीय संपादन: इमेज के विशिष्ट भागों को बदलता है बिना शेष को प्रभावित किए
- शैली संदर्भ: संदर्भ इमेजों से शैलियों को बनाए रखते हुए नए दृश्य उत्पन्न करता है
- इमेज ऑगमेंटेशन: टेक्स्ट निर्देशों के आधार पर इमेजों को बदलता है
इंस्टॉलेशन
पूर्वापेक्षाएं
आपको चाहिए:
- 16GB+ VRAM आपकी GPU पर (NVIDIA RTX अनुशंसित)
- Python 3.8+ के साथ pip
- Hugging Face तक पहुंच (खाता और टोकन)
सेटअप चरण
-
एक Hugging Face खाता बनाएं huggingface.co पर अगर आपके पास नहीं है
-
मॉडल पेज पर जाएं: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
-
लाइसेंस समझौते को स्वीकार करें (गैर-व्यावसायिक उपयोग)
-
एक Write access token बनाएं https://huggingface.co/settings/tokens पर
-
मॉडल डाउनलोड करें:
git clone https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
या अपने कोड में सीधे मॉडल पथ का उपयोग करें।
इंस्टॉलेशन
आवश्यक Python पैकेज इंस्टॉल करें:
pip install -U diffusers torch transformers pillow accelerate sentencepiece
या uv का उपयोग करके:
cd tools/fkon
uv sync
उपयोग
बेसिक पाइथन स्क्रिप्ट
FLUX.1-Kontext-dev का उपयोग करने का एक पूर्ण उदाहरण:
import torch
from diffusers import FluxKontextPipeline
from PIL import Image
# मॉडल लोड करें
model_path = "/path/to/FLUX.1-Kontext-dev"
pipe = FluxKontextPipeline.from_pretrained(
model_path,
torch_dtype=torch.bfloat16
)
# VRAM बचाने के लिए CPU ऑफलोडिंग सक्षम करें
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
# अपना इनपुट इमेज लोड करें
input_image = Image.open("path/to/your/image.png").convert("RGB")
# अपना ऑगमेंटेशन प्रॉम्प्ट परिभाषित करें
prompt = "इस गोफर को हिल्ली सड़क पर बाइसिकल पर सवारी करते हुए दिखाएं"
# ऑगमेंटेड इमेज उत्पन्न करें
result = pipe(
prompt=prompt,
image=input_image,
height=496,
width=680,
guidance_scale=3.5,
num_inference_steps=60,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(42)
)
# परिणाम सहेजें
output_image = result.images[0]
output_image.save("augmented_image.jpg")
डाइमेंशन हैंडलिंग
FLUX.1-Kontext-dev के पास विशिष्ट डाइमेंशन आवश्यकताएं हैं:
- 16 के गुणांक: डाइमेंशन 16 के गुणांक होने चाहिए
- स्वचालित समायोजन: मॉडल अपनी आवश्यकताओं को पूरा करने के लिए डाइमेंशन को समायोजित कर सकता है
- आउटपुट रीसाइजिंग: हमारा टूल आउटपुट को अनुरोधित डाइमेंशन पर वापस स्वचालित रूप से रीसाइज करता है
टूल इस प्रकार से काम करता है:
- अनुरोधित डाइमेंशन को 16 के गुणांक तक राउंड करता है
- इनपुट इमेज को राउंडेड डाइमेंशन पर रीसाइज करता है
- इमेज उत्पन्न करता है (मॉडल और अधिक समायोजित कर सकता है)
- आउटपुट को आपके अनुरोधित डाइमेंशन पर वापस रीसाइज करता है
उदाहरण उपयोग मामले
- चरित्र परिवर्तन
एक चरित्र को बदलें जबकि स्थिरता बनाए रखें:
prompt = "इस गोफर को हिल्ली सड़क पर बाइसिकल पर सवारी करते हुए दिखाएं"
- वस्तु हटाना
अनचाहे तत्व हटाएं:
prompt = "कृपया इस फोटो से मिनी माउस के रूप में कपड़े पहने हुए मानव को हटा दें"
टिप्स और सर्वोत्तम प्रथाएं
- VRAM प्रबंधन: अगर आपके पास सीमित VRAM है तो
enable_model_cpu_offload()का उपयोग करें - डाइमेंशन योजना: समायोजन को कम करने के लिए 16 के गुणांक के डाइमेंशन अनुरोध करें
- प्रॉम्प्ट स्पष्टता: बेहतर परिणामों के लिए अपने टेक्स्ट निर्देशों में स्पष्ट हों
- बैच जनरेशन: सबसे अच्छा परिणाम प्राप्त करने के लिए कई संस्करण उत्पन्न करें (
--n 4) - सीड कंट्रोल: पुनरुत्पादित परिणामों के लिए मैनुअल सीड का उपयोग करें
सीमाएं
- गैर-व्यावसायिक लाइसेंस: व्यवसायिक उपयोग के लिए व्यावसायिक लाइसेंस की आवश्यकता होती है
- हार्डवेयर इंटेंसिव: महत्वपूर्ण VRAM के साथ शक्तिशाली GPU की आवश्यकता होती है
- डाइमेंशन प्रतिबंध: स्वचालित रूप से डाइमेंशन को समायोजित कर सकता है
- प्रोसेसिंग समय: हार्डवेयर पर निर्भर करते हुए प्रति इमेज 10-15 मिनट ले सकता है