Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama
LLM för att extrahera text från HTML...
Sidinnehåll
I biblioteket med Ollama-modeller finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för uppgifter som innehållskonvertering.
Till exempel modellen reader-lm som är baserad på qwen2, är tränad för detta.

ReaderLM-v2
Jag har testat nästa version av en sådan modell - reader-lm-v2.
ReaderLM-v2 är byggd på Qwen2.5-1.5B-Instruction.
Jag kan bekräfta: det fungerar, men konverteringen är något långsam…
Kan du föreställa dig en 500KB HTML-sida som du behöver konvertera och extrahera text från? Kanske finns det 100 000 tokens? eller låt det vara 10 000 tokens.
Jag tog en provsida på 121KB och konverteringstiden på min dator är: ~1s.
Anropa Ollama Kommandorad
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Läs filinnehåll som prompt
PROMPT="Extrahera huvudinnehållet från den givna HTML:n och konvertera det till Markdown-format.\nhtml:\n $(cat "$INPUT_FILE")"
# Anropa Ollama och spara svaret
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama-svar sparat till $OUTPUT_FILE"
Användbara länkar
- Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- Hur Ollama hanterar parallella förfrågningar
- Moln-LLM-leverantörer
- Ollama snabbguide
- Flytta Ollama-modeller till annan enhet eller mapp
- Alternativ till Beautiful Soup för Go
- Omrankning av textdokument med Ollama och Qwen3 Embedding-modell - i Go