Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama
LLM för att extrahera text från HTML...
I Ollama modellbiblioteket finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för innehållskonverteringsuppgifter. Den här guiden är en del av vår Dokumentationsverktyg 2026: Markdown, LaTeX, PDF & Skrivningsflöden hub.
Till exempel modellen reader-lm som är baserad på qwen2, är trädd på att göra detta.

ReaderLM-v2
Jag har testat nästa sådana modellversion - reader-lm-v2.
ReaderLM-v2 byggs på Qwen2.5-1.5B-Instruction.
Jag kan bekräfta: det fungerar, men konverteringen är något långsam…
Kan du föreställa dig den 500KB HTML-sidan som du behöver konvertera och extrahera text från? Måske finns det 100000 tokens? eller låt det vara så mycket som 10k tokens.
Jag tog en exempelsida på 121KB och konverteringstiden på min dator är: ~1 sekund.
Använda Ollama Kommandorad
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Läs filinnehåll som prompt
PROMPT="Extrahera huvudinnehållet från den givna HTML och konvertera det till Markdown-format.\nhtml:\n $(cat "$INPUT_FILE")"
# Anropa Ollama och spara svaret
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama-svaret sparat till $OUTPUT_FILE"