HTML कंटेंट को मार्कडाउन में बदलें, एलईएम और ओलामा का उपयोग करके

एचटीएमएल से पाठ निकालने के लिए एलईएम का उपयोग करें...

Page content

ओलामा मॉडल पुस्तकालय में ऐसे मॉडल हैं जो HTML सामग्री को मार्कडाउन में परिवर्तित कर सकते हैं के लिए उपयोगी हैं, जो सामग्री परिवर्तन कार्यों के लिए उपयोगी हैं।

उदाहरण के लिए, मॉडल reader-lm जो qwen2 पर आधारित है, इस तरह के कार्य के लिए प्रशिक्षित है।

लामा HTML कार्ट को खींच रहा है

ReaderLM-v2

मैंने अगले ऐसे मॉडल संस्करण को परीक्षण किया है - reader-lm-v2। ReaderLM-v2 Qwen2.5-1.5B-Instruction पर बना हुआ है। मैं पुष्टि कर सकता हूं: यह काम करता है लेकिन परिवर्तन कुछ धीमा है…

आपको उस 500KB HTML वेबपेज की कल्पना करने के लिए क्या लगता है जिसे आप टेक्स्ट निकालना चाहते हैं? शायद 100000 टोकन हैं? या चलिए यह तो 10k टोकन भी हो सकते हैं।

मैंने 121KB के एक नमूना पृष्ठ को लिया और मेरे पीसी पर परिवर्तन समय है: ~1 सेकंड।

ओलामा कमांड लाइन कॉल करें

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# फ़ाइल के सामग्री को प्रम्प्ट के रूप में पढ़ें
PROMPT="दिए गए HTML से मुख्य सामग्री निकालें और इसे मार्कडाउन फॉर्मेट में परिवर्तित करें।\nhtml:\n $(cat "$INPUT_FILE")"

# ओलामा को कॉल करें और प्रतिक्रिया सहेजें
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "ओलामा प्रतिक्रिया $OUTPUT_FILE में सहेजी गई है"

उपयोगी लिंक