Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama

LLM för att extrahera text från HTML...

Sidinnehåll

I biblioteket med Ollama-modeller finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för uppgifter som innehållskonvertering.

Till exempel modellen reader-lm som är baserad på qwen2, är tränad för detta.

llama drar html-vagn

ReaderLM-v2

Jag har testat nästa version av en sådan modell - reader-lm-v2. ReaderLM-v2 är byggd på Qwen2.5-1.5B-Instruction. Jag kan bekräfta: det fungerar, men konverteringen är något långsam…

Kan du föreställa dig en 500KB HTML-sida som du behöver konvertera och extrahera text från? Kanske finns det 100 000 tokens? eller låt det vara 10 000 tokens.

Jag tog en provsida på 121KB och konverteringstiden på min dator är: ~1s.

Anropa Ollama Kommandorad

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Läs filinnehåll som prompt
PROMPT="Extrahera huvudinnehållet från den givna HTML:n och konvertera det till Markdown-format.\nhtml:\n $(cat "$INPUT_FILE")"

# Anropa Ollama och spara svaret
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama-svar sparat till $OUTPUT_FILE"

Användbara länkar