Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama

LLM för att extrahera text från HTML...

Sidinnehåll

I Ollama modellbiblioteket finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för innehållskonverteringsuppgifter. Den här guiden är en del av vår Dokumentationsverktyg 2026: Markdown, LaTeX, PDF & Skrivningsflöden hub.

Till exempel modellen reader-lm som är baserad på qwen2, är trädd på att göra detta.

llama is pulling html cart

ReaderLM-v2

Jag har testat nästa sådana modellversion - reader-lm-v2. ReaderLM-v2 byggs på Qwen2.5-1.5B-Instruction. Jag kan bekräfta: det fungerar, men konverteringen är något långsam…

Kan du föreställa dig den 500KB HTML-sidan som du behöver konvertera och extrahera text från? Måske finns det 100000 tokens? eller låt det vara så mycket som 10k tokens.

Jag tog en exempelsida på 121KB och konverteringstiden på min dator är: ~1 sekund.

Använda Ollama Kommandorad

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Läs filinnehåll som prompt
PROMPT="Extrahera huvudinnehållet från den givna HTML och konvertera det till Markdown-format.\nhtml:\n $(cat "$INPUT_FILE")"

# Anropa Ollama och spara svaret
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama-svaret sparat till $OUTPUT_FILE"

Några användbara länkar