HTML कंटेंट को मार्कडाउन में बदलें, एलईएम और ओलामा का उपयोग करके
एचटीएमएल से पाठ निकालने के लिए एलईएम का उपयोग करें...
Page content
ओलामा मॉडल पुस्तकालय में ऐसे मॉडल हैं जो HTML सामग्री को मार्कडाउन में परिवर्तित कर सकते हैं के लिए उपयोगी हैं, जो सामग्री परिवर्तन कार्यों के लिए उपयोगी हैं।
उदाहरण के लिए, मॉडल reader-lm
जो qwen2
पर आधारित है, इस तरह के कार्य के लिए प्रशिक्षित है।
ReaderLM-v2
मैंने अगले ऐसे मॉडल संस्करण को परीक्षण किया है - reader-lm-v2
।
ReaderLM-v2 Qwen2.5-1.5B-Instruction पर बना हुआ है।
मैं पुष्टि कर सकता हूं: यह काम करता है लेकिन परिवर्तन कुछ धीमा है…
आपको उस 500KB HTML वेबपेज की कल्पना करने के लिए क्या लगता है जिसे आप टेक्स्ट निकालना चाहते हैं? शायद 100000 टोकन हैं? या चलिए यह तो 10k टोकन भी हो सकते हैं।
मैंने 121KB के एक नमूना पृष्ठ को लिया और मेरे पीसी पर परिवर्तन समय है: ~1 सेकंड।
ओलामा कमांड लाइन कॉल करें
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# फ़ाइल के सामग्री को प्रम्प्ट के रूप में पढ़ें
PROMPT="दिए गए HTML से मुख्य सामग्री निकालें और इसे मार्कडाउन फॉर्मेट में परिवर्तित करें।\nhtml:\n $(cat "$INPUT_FILE")"
# ओलामा को कॉल करें और प्रतिक्रिया सहेजें
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "ओलामा प्रतिक्रिया $OUTPUT_FILE में सहेजी गई है"
उपयोगी लिंक
- ओलामा कैसे इंटेल CPU प्रदर्शन और कुशल कोर का उपयोग करता है
- ओलामा कैसे समानांतर अनुरोधों का निपटारा करता है
- क्लाउड LLM प्रदाता
- ओलामा चीटशीट
- ओलामा मॉडल को अलग ड्राइव या फ़ोल्डर में ले जाएं
- गो के लिए ब्यूटिफ़ल सॉप विकल्प
- ओलामा और Qwen3 एम्बेडिंग मॉडल के साथ टेक्स्ट दस्तावेज़ों को पुनर्क्रमित करें - गो में