उपभोक्ता हार्डवेयर पर एआई इन्फ्रास्ट्रक्चर
बजट हार्डवेयर पर ओपन मॉडल्स के साथ एंटरप्राइज़ AI तैनात करें
एआई का लोकतांत्रीकरण अब यहाँ है। ओपन-सोर्स एलएलएम जैसे लामा 3, मिक्स्ट्रल, और क्वेन अब प्रोप्राइटरी मॉडल्स के साथ प्रतिस्पर्धा कर रहे हैं, टीम्स पावरफुल एआई इन्फ्रास्ट्रक्चर कन्स्यूमर हार्डवेयर का उपयोग करके बना सकते हैं - लागत को कम करते हुए डेटा प्राइवेसी और डिप्लॉयमेंट पर पूर्ण नियंत्रण बनाए रखते हैं।

अपने टीम के एआई इन्फ्रास्ट्रक्चर को सेल्फ-होस्ट करने के लिए?
लैंडस्केप में महत्वपूर्ण परिवर्तन हुआ है। जो पहले मिलियन डॉलर के जीपीयू क्लस्टर की आवश्यकता थी, अब कन्स्यूमर हार्डवेयर के साथ संभव है जो एक हाई-एंड वर्कस्टेशन से कम खर्चीला है।
सेल्फ-होस्टेड एआई के लिए तर्क
लागत दक्षता
- ओपनएआई जीपीटी-4 की लागत $0.03-0.06 प्रति 1K टोकन
- एक टीम जो 1M टोकन/दिन प्रोसेस करती है, $900-1,800/माह खर्च करती है
- एक $2,000 आरटीएक्स 4090 सिस्टम 1-3 महीने में ब्रेक-इवन हो जाता है
- ब्रेक-इवन के बाद: शून्य मार्जिनल लागत पर अनलिमिटेड उपयोग
डेटा प्राइवेसी और कॉम्प्लायंस
- संवेदनशील डेटा पर पूर्ण नियंत्रण
- कोई डेटा थर्ड-पार्टी एपीआई को नहीं भेजा जाता
- जीडीपीआर, हिप्पा, और इंडस्ट्री कॉम्प्लायंस
- एयर-गैप्ड डिप्लॉयमेंट विकल्प
कस्टमाइजेशन और नियंत्रण
- मॉडल्स को प्रोप्राइटरी डेटा पर फाइन-ट्यून किया जा सकता है
- कोई रेट लिमिट्स या क्वोटा नहीं
- कस्टम डिप्लॉयमेंट कॉन्फ़िगरेशन
- एपीआई प्रोवाइडर परिवर्तनों से स्वतंत्रता
परफॉर्मेंस प्रेडिक्टेबिलिटी
- एपीआई फ्लक्चुएशन के बिना स्थिर लेटेंसी
- बाहरी सर्विस अपटाइम पर निर्भर नहीं
- नियंत्रणीय संसाधन आवंटन
- अपने विशिष्ट वर्कलोड्स के लिए अनुकूलित
हार्डवेयर चयन: अपना एआई सर्वर बनाएं
विभिन्न बजट के लिए जीपीयू विकल्प
बजट टियर ($600-900): 7B मॉडल्स
- एनवीडिया आरटीएक्स 4060 टी 16जीबी ($500): 7B मॉडल्स चलाता है, 2-3 समकालिक उपयोगकर्ता
- एएमडी आरएक्स 7900 एक्सटी ($650): 20जीबी वीआरएएम, इन्फरेंस के लिए उत्कृष्ट
- उपयोग मामला: छोटी टीम्स (3-5 लोग), मानक कोडिंग/लिखने के कार्य
मिड टियर ($1,200-1,800): 13B मॉडल्स
- एनवीडिया आरटीएक्स 4070 टी ($800): 12जीबी वीआरएएम, अच्छा 7B परफॉर्मेंस
- एनवीडिया आरटीएक्स 4090 ($1,600): 24जीबी वीआरएएम, 13B मॉडल्स को सुचारू रूप से चलाता है
- यूज़्ड आरटीएक्स 3090 ($800-1,000): 24जीबी वीआरएएम, उत्कृष्ट वैल्यू
- नोट: आगामी आरटीएक्स 5080 और 5090 मॉडल्स की लेटेस्ट प्राइसिंग ट्रेंड्स के लिए, हमारी आरटीएक्स 5080 और आरटीएक्स 5090 प्राइसिंग डायनामिक्स के विश्लेषण देखें
- उपयोग मामला: मध्यम टीम्स (5-15 लोग), जटिल रीज़निंग कार्य
प्रोफेशनल टियर ($2,500+): 30B+ मॉडल्स
- मल्टीपल आरटीएक्स 3090/4090 ($1,600+ प्रत्येक): डिस्ट्रीब्यूटेड इन्फरेंस
- एएमडी इन्स्टिंक्ट एमआई210 (यूज़्ड, $2,000+): 64जीबी एचबीएम2ई
- एनवीडिया ए6000 (यूज़्ड, $3,000+): 48जीबी वीआरएएम, प्रोफेशनल रिलायबिलिटी
- एनवीडिया क्वाड्रो आरटीएक्स 5880 एडा (48जीबी): अधिकतम वीआरएएम और रिलायबिलिटी की आवश्यकता वाले प्रोफेशनल डिप्लॉयमेंट के लिए, क्वाड्रो आरटीएक्स 5880 एडा की क्षमता और वैल्यू प्रोपोजिशन पर विचार करें
- उपयोग मामला: बड़ी टीम्स (15+), रिसर्च, फाइन-ट्यूनिंग
पूर्ण सिस्टम विचार
सीपीयू और मेमोरी
- सीपीयू: राइज़न 5 5600 या इंटेल आई5-12400 (एआई सर्विंग के लिए पर्याप्त)
- राम: 32जीबी न्यूनतम, बड़े कॉन्टेक्स्ट विंडोज के लिए 64जीबी सिफारिश की जाती है
- तेज़ राम प्रॉम्प्ट प्रोसेसिंग और मॉडल लोडिंग में मदद करता है
- सीपीयू अनुकूलन: इंटेल सीपीयू के लिए हाइब्रिड आर्किटेक्चर (पी-कोर और ई-कोर), देखें कि ओल्लामा विभिन्न सीपीयू कोर टाइप्स का उपयोग कैसे करता है परफॉर्मेंस को अनुकूलित करने के लिए
- पीसीआईई कॉन्फ़िगरेशन: मल्टी-जीपीयू सेटअप या हाई-परफॉर्मेंस डिप्लॉयमेंट की योजना बनाते समय, पीसीआईई लेन्स और उनके एलएलएम परफॉर्मेंस पर प्रभाव को समझना ऑप्टिमल बैंडविड्थ आवंटन के लिए महत्वपूर्ण है
स्टोरेज
- एनवीएमई एसएसडी: मॉडल्स और कैश के लिए 1टीबी न्यूनतम
- मॉडल्स: 4-14जीबी प्रत्येक, 5-10 मॉडल्स लोडेड रखें
- तेज़ स्टोरेज मॉडल लोडिंग समय को कम करता है
पावर और कूलिंग
- आरटीएक्स 4090: 450W टीडीपी, 850W+ पीएसयू की आवश्यकता
- 24/7 ऑपरेशन के लिए अच्छी कूलिंग आवश्यक
- गुणवत्ता पीएसयू और कूलिंग के लिए $150-200 बजट करें
नेटवर्किंग
- 1Gbps एपीआई एक्सेस के लिए पर्याप्त
- डिस्ट्रीब्यूटेड ट्रेनिंग के लिए 10Gbps लाभकारी
- रियल-टाइम एप्लिकेशन्स के लिए लेटेंसी कम महत्वपूर्ण है
सैंपल बिल्ड्स
बजट बिल्ड ($1,200)
जीपीयू: आरटीएक्स 4060 टी 16जीबी ($500)
सीपीयू: राइज़न 5 5600 ($130)
राम: 32जीबी डीडीआर4 ($80)
मोबो: बी550 ($120)
स्टोरेज: 1टीबी एनवीएमई ($80)
पीएसयू: 650W 80+ गोल्ड ($90)
केस: $80
कुल: ~$1,200
ऑप्टिमल बिल्ड ($2,500)
जीपीयू: आरटीएक्स 4090 24जीबी ($1,600)
सीपीयू: राइज़न 7 5700एक्स ($180)
राम: 64जीबी डीडीआर4 ($140)
मोबो: एक्स570 ($180)
स्टोरेज: 2टीबी एनवीएमई ($120)
पीएसयू: 1000W 80+ गोल्ड ($150)
केस: $100
कुल: ~$2,500
सॉफ्टवेयर स्टैक: ओपन सोर्स एआई सर्विंग
मॉडल सर्विंग प्लेटफॉर्म्स
ओल्लामा: सिम्प्लिसिटी फर्स्ट
# ओल्लामा इंस्टॉल करें
curl -fsSL https://ollama.ai/install.sh | sh
# एक मॉडल चलाएं
ollama run llama3:8b
# एपीआई सर्वर (ओपनएआई कम्पैटिबल)
ollama serve
लाभ:
- बेहद सरल सेटअप
- स्वचालित मॉडल प्रबंधन
- ओपनएआई-समर्थित एपीआई
- कुशल जीजीयूएफ क्वांटाइजेशन
- बिल्ट-इन मॉडल लाइब्रेरी
परफॉर्मेंस: विभिन्न हार्डवेयर कॉन्फ़िगरेशन, जिसमें एंटरप्राइज और कन्स्यूमर जीपीयू शामिल हैं, के लिए रियल-वर्ल्ड ओल्लामा परफॉर्मेंस बेंचमार्क्स के लिए, हमारी एनवीडिया डीजीएक्स स्पार्क, मैक स्टूडियो, और आरटीएक्स 4080 के विस्तृत तुलना देखें।
सबसे अच्छा: ईज़ ऑफ यूज़, क्विक डिप्लॉयमेंट पर फोकस करने वाली टीम्स के लिए
वीएलएलएम: अधिकतम परफॉर्मेंस
# वीएलएलएम इंस्टॉल करें
pip install vllm
# मॉडल सर्व करें
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-2-7b-chat-hf \
--tensor-parallel-size 1
लाभ:
- उच्चतम थ्रूपुट
- मेमोरी दक्षता के लिए पेज्डएटेंशन
- कंटीन्यूअस बैचिंग
- मल्टी-जीपीयू समर्थन
सबसे अच्छा: हाई-थ्रूपुट सीनारियो, कई समकालिक उपयोगकर्ता
लोकलएआई: ऑल-इन-वन सॉल्यूशन
# डॉकर डिप्लॉयमेंट
docker run -p 8080:8080 \
-v $PWD/models:/models \
localai/localai:latest
लाभ:
- मल्टीपल बैकएंड समर्थन (लामा.cpp, वीएलएम, आदि)
- ऑडियो, इमेज, और टेक्स्ट मॉडल्स
- ओपनएआई एपीआई कम्पैटिबल
- विस्तृत मॉडल समर्थन
सबसे अच्छा: विविध वर्कलोड्स, मल्टीमोडल आवश्यकताओं के लिए
कंटेनराइजेशन और ऑर्केस्ट्रेशन
डॉकर कॉम्पोज सेटअप
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
restart: unless-stopped
openwebui:
image: ghcr.io/open-webui/open-webui:main
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- webui_data:/app/backend/data
depends_on:
- ollama
restart: unless-stopped
volumes:
ollama_data:
webui_data:
क्यूबर्नेट्स डिप्लॉयमेंट
apiVersion: apps/v1
kind: Deployment
metadata:
name: ollama-deployment
spec:
replicas: 1
selector:
matchLabels:
app: ollama
template:
metadata:
labels:
app: ollama
spec:
containers:
- name: ollama
image: ollama/ollama:latest
ports:
- containerPort: 11434
resources:
limits:
nvidia.com/gpu: 1
volumeMounts:
- name: models
mountPath: /root/.ollama
volumes:
- name: models
persistentVolumeClaim:
claimName: ollama-pvc
---
apiVersion: v1
kind: Service
metadata:
name: ollama-service
spec:
selector:
app: ollama
ports:
- port: 11434
targetPort: 11434
type: LoadBalancer
मॉडल चयन और डिप्लॉयमेंट
टॉप ओपन सोर्स मॉडल्स (नवंबर 2024)
7बी पैरामीटर क्लास (एंट्री लेवल)
- लामा 3.1 8बी: मेटा का लेटेस्ट, उत्कृष्ट सामान्य परफॉर्मेंस
- मिस्ट्रल 7बी वी0.3: मजबूत रीज़निंग, कोडिंग क्षमता
- क्वेन2.5 7बी: मल्टीलिंगुअल, तकनीकी कार्य में मजबूत
- वीआरएएम: 8-12जीबी, स्पीड: ~30-50 टोकन/सेकंड आरटीएक्स 4060 टी पर
13बी पैरामीटर क्लास (बैलेंस्ड)
- लामा 3.1 13बी: क्लास में सर्वोत्तम समग्र गुणवत्ता
- विकुना 13बी: कन्वर्सेशन के लिए फाइन-ट्यून किया गया
- विजार्डकोडर 13बी: कोडिंग के लिए विशेषीकृत
- वीआरएएम: 14-18जीबी, स्पीड: ~20-30 टोकन/सेकंड आरटीएक्स 4090 पर
30बी+ पैरामीटर क्लास (हाई क्वालिटी)
- लामा 3.1 70बी: कई बेंचमार्क्स पर जीपीटी-4 के साथ प्रतिस्पर्धा करता है
- मिक्स्ट्रल 8x7बी: एमओई आर्किटेक्चर, कुशल 47बी मॉडल
- यि 34बी: मजबूत मल्टीलिंगुअल परफॉर्मेंस
- वीआरएएम: 40जीबी+ (मल्टीपल जीपीयू या हवी क्वांटाइजेशन की आवश्यकता)
क्वांटाइजेशन रणनीतियाँ
जीजीयूएफ क्वांटाइजेशन लेवल्स
- क्यू4_के_एम: 4-बिट, ~50% साइज, न्यूनतम गुणवत्ता हानि (सिफारिश की जाती है)
- क्यू5_के_एम: 5-बिट, ~60% साइज, बेहतर गुणवत्ता
- क्यू8_0: 8-बिट, ~80% साइज, मूल गुणवत्ता के करीब
- एफ16: पूर्ण 16-बिट, 100% साइज, मूल गुणवत्ता
उदाहरण: लामा 3.1 8बी मॉडल साइज
- मूल (एफ16): 16जीबी
- क्यू8_0: 8.5जीबी
- क्यू5_के_एम: 5.7जीबी
- क्यू4_के_एम: 4.6जीबी
# ओल्लामा स्वचालित रूप से ऑप्टिमल क्वांटाइजेशन का उपयोग करता है
ollama pull llama3:8b
# लामा.cpp के साथ कस्टम क्वांटाइजेशन के लिए
./quantize models/llama-3-8b-f16.gguf models/llama-3-8b-q4.gguf Q4_K_M
मल्टी-यूज़र एक्सेस और लोड बैलेंसिंग
ऑथेंटिकेशन और एक्सेस कंट्रोल
एपीआई की ऑथेंटिकेशन के साथ एनजीआईएनएक्स
http {
upstream ollama_backend {
server localhost:11434;
}
map $http_authorization $api_key {
~Bearer\s+(.+) $1;
}
server {
listen 80;
server_name ai.yourteam.com;
location / {
if ($api_key != "your-secure-api-key") {
return 401;
}
proxy_pass http://ollama_backend;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
}
ओपनवेबयूआई मल्टी-यूज़र सेटअप
ओपनवेबयूआई में बिल्ट-इन यूज़र प्रबंधन है:
- यूज़र रजिस्ट्रेशन और ऑथेंटिकेशन
- प्रति-यूज़र कन्वर्सेशन हिस्ट्री
- यूज़र प्रबंधन के लिए एडमिन डैशबोर्ड
- रोल-आधारित एक्सेस कंट्रोल
मल्टीपल जीपीयू पर लोड बैलेंसिंग
राउंड-रोबिन के साथ एनजीआईएनएक्स
upstream ollama_cluster {
server gpu-node-1:11434;
server gpu-node-2:11434;
server gpu-node-3:11434;
}
server {
listen 80;
location / {
proxy_pass http://ollama_cluster;
}
}
रिक्वेस्ट क्यूइंग रणनीति
- वीएलएम कंटीन्यूअस बैचिंग के साथ समकालिक रिक्वेस्ट्स हैंडल करता है
- ओल्लामा स्वचालित रूप से रिक्वेस्ट्स को क्यू करता है
- वीआरएएम के आधार पर अधिकतम समकालिक रिक्वेस्ट्स पर विचार करें
उन्नत तैनाती
RAG (Retrieval Augmented Generation)
# LangChain के साथ RAG सेटअप का उदाहरण
from langchain.llms import Ollama
from langchain.embeddings import OllamaEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
# मॉडल्स को इनिशियलाइज़ करें
llm = Ollama(model="llama3:8b", base_url="http://localhost:11434")
embeddings = OllamaEmbeddings(model="nomic-embed-text")
# वेक्टर स्टोर बनाएं
vectorstore = Chroma.from_documents(
documents=docs,
embedding=embeddings,
persist_directory="./chroma_db"
)
# RAG चेन बनाएं
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
chain_type="stuff",
retriever=vectorstore.as_retriever(search_kwargs={"k": 3})
)
# क्वेरी
result = qa_chain.run("हमारे कंपनी का छुट्टी नीति क्या है?")
टीम-विशिष्ट टास्क्स के लिए फाइन-ट्यूनिंग
# Unsloth के साथ LoRA फाइन-ट्यूनिंग (मेमोरी कुशल)
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/llama-3-8b",
max_seq_length=2048,
load_in_4bit=True,
)
model = FastLanguageModel.get_peft_model(
model,
r=16, # LoRA रैंक
lora_alpha=16,
lora_dropout=0,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
# अपने डेटासेट पर ट्रेनिंग करें
trainer.train()
# फाइन-ट्यून किया गया मॉडल सेव करें
model.save_pretrained("./models/company-llama-3-8b")
निगरानी और अवलोकन
Prometheus मेट्रिक्स
# docker-compose.yml एडिशन
prometheus:
image: prom/prometheus
ports:
- "9090:9090"
volumes:
- ./prometheus.yml:/etc/prometheus/prometheus.yml
grafana:
image: grafana/grafana
ports:
- "3001:3000"
environment:
- GF_SECURITY_ADMIN_PASSWORD=admin
मॉनिटर करने के लिए मुख्य मेट्रिक्स
- GPU उपयोग और तापमान
- VRAM उपयोग
- रिक्वेस्ट लेटेंसी और थ्रूपुट
- क्यू लंबाई
- मॉडल लोडिंग टाइम्स
- टोकन जनरेशन स्पीड
सुरक्षा सर्वोत्तम प्रथाएं
नेटवर्क सुरक्षा
- VPN या फायरवॉल के पीछे तैनात करें
- बाहरी एक्सेस के लिए TLS/SSL का उपयोग करें
- रेट लिमिटिंग लागू करें
- नियमित सुरक्षा अपडेट
डेटा प्राइवेसी
- मॉडल्स और डेटा को ऑन-प्रेमिस रखें
- स्टोरेज वॉल्यूम्स को एन्क्रिप्ट करें
- एक्सेस लॉग्स का ऑडिट करें
- डेटा रिटेंशन पॉलिसी लागू करें
एक्सेस कंट्रोल
- API की रोटेशन
- यूजर ऑथेंटिकेशन
- रोल-आधारित परमिशन
- सेशन मैनेजमेंट
लागत विश्लेषण और ROI
कुल स्वामित्व लागत (3 वर्ष)
सेल्फ-होस्टेड (RTX 4090 सेटअप)
- प्रारंभिक हार्डवेयर: $2,500
- बिजली (450W @ $0.12/kWh, 24/7): $475/वर्ष = $1,425/3वर्ष
- रखरखाव/अपग्रेड: $500/3वर्ष
- कुल 3-वर्ष लागत: $4,425
क्लाउड API (GPT-4 समकक्ष)
- उपयोग: 1M टोकन/दिन औसत
- लागत: $0.04/1K टोकन
- दैनिक: $40
- कुल 3-वर्ष लागत: $43,800
बचत: $39,375 (89% लागत कमी)
ब्रेक-इवन विश्लेषण
- 500K टोकन/दिन प्रोसेस करने वाली टीम: 4-6 महीने
- 1M टोकन/दिन प्रोसेस करने वाली टीम: 2-3 महीने
- 2M+ टोकन/दिन प्रोसेस करने वाली टीम: 1-2 महीने
स्केलिंग रणनीतियां
वर्टिकल स्केलिंग
- अधिक VRAM जोड़ें (GPU अपग्रेड)
- बड़े कंटेक्स्ट के लिए सिस्टम RAM बढ़ाएं
- मॉडल लोडिंग के लिए तेज स्टोरेज
होरिजॉन्टल स्केलिंग
- अधिक GPU नोड्स जोड़ें
- लोड बैलेंसिंग लागू करें
- Ray के साथ वितरित इन्फरेंस
- बड़े मॉडल्स के लिए मॉडल पैरलेलिज्म
हाइब्रिड दृष्टिकोण
- संवेदनशील/रूटीन टास्क्स के लिए सेल्फ-होस्ट
- पीक लोड्स या विशेष मॉडल्स के लिए क्लाउड API
- बुद्धिमान रूटिंग के माध्यम से लागत अनुकूलन
सामान्य चुनौतियां और समाधान
चुनौती: मॉडल लोडिंग टाइम
- समाधान: VRAM में अक्सर उपयोग किए जाने वाले मॉडल्स रखें, मॉडल कैशिंग का उपयोग करें
चुनौती: कई साथ-साथ उपयोगकर्ता
- समाधान: रिक्वेस्ट क्यूइंग लागू करें, vLLM के कंटीन्यूअस बैचिंग का उपयोग करें
चुनौती: सीमित VRAM
- समाधान: क्वांटाइज्ड मॉडल्स (Q4/Q5) का उपयोग करें, मॉडल स्वैपिंग लागू करें
चुनौती: असंगत प्रदर्शन
- समाधान: GPU तापमान की निगरानी करें, उचित कूलिंग लागू करें, स्थिर बैच साइज का उपयोग करें
चुनौती: मॉडल अपडेट्स
- समाधान: स्वचालित मॉडल अपडेट स्क्रिप्ट, वर्जन मैनेजमेंट, रोलबैक प्रक्रियाएं
शुरू करने के लिए चेकलिस्ट
- टीम साइज और बजट के आधार पर GPU का चयन करें
- हार्डवेयर इकट्ठा करें या खरीदें
- Ubuntu 22.04 या समान Linux डिस्ट्रिब्यूशन इंस्टॉल करें
- NVIDIA ड्राइवर और CUDA टूलकिट इंस्टॉल करें
- Docker और docker-compose इंस्टॉल करें
- Ollama + OpenWebUI स्टैक तैनात करें
- 2-3 मॉडल्स खींचें (Llama 3.1 8B से शुरू करें)
- नेटवर्क एक्सेस और ऑथेंटिकेशन कॉन्फ़िगर करें
- निगरानी सेटअप करें (GPU स्टैट्स न्यूनतम)
- टीम को API उपयोग या वेब इंटरफेस पर ट्रेनिंग दें
- तैनाती और एक्सेस प्रक्रियाओं का दस्तावेज़ीकरण करें
- बैकअप और डिजास्टर रिकवरी के लिए योजना बनाएं
उपयोगी लिंक्स
- Ollama - आसान स्थानीय LLM सर्विंग
- vLLM - उच्च प्रदर्शन इन्फरेंस इंजन
- OpenWebUI - उपयोगकर्ता-मित्रता पूर्ण वेब इंटरफेस
- LocalAI - OpenAI-समकक्ष स्थानीय AI सर्वर
- Hugging Face Model Hub - ओपन-सोर्स मॉडल रिपॉजिटरी
- llama.cpp - CPU/GPU इन्फरेंस अनुकूलन
- LangChain - RAG और AI एप्लिकेशन फ्रेमवर्क
- Unsloth - कुशल फाइन-ट्यूनिंग
- LM Studio - स्थानीय मॉडल्स के लिए डेस्कटॉप GUI
- GPT4All - स्थानीय चैटबॉट इकोसिस्टम
- Perplexica - सेल्फ-होस्टेड AI सर्च
- Is the Quadro RTX 5880 Ada 48GB Any Good?
- NVidia RTX 5080 और RTX 5090 की कीमतें ऑस्ट्रेलिया में - अक्टूबर 2025
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Performance Comparison
- LLM Performance और PCIe Lanes: Key Considerations
- Test: How Ollama is using Intel CPU Performance and Efficient Cores