Converteer HTML-inhoud naar Markdown met behulp van LLM en Ollama

LLM om tekst te extraheren uit HTML...

Inhoud

In de Ollama modellenbibliotheek zijn er modellen die in staat zijn HTML-inhoud om te zetten in Markdown, wat handig is voor inhoudsconversietaken.

Bijvoorbeeld model reader-lm dat gebaseerd is op qwen2, is getraind om dit te doen.

llama is pulling html cart

ReaderLM-v2

Ik heb de volgende versie van zo’n model geprobeerd - reader-lm-v2. ReaderLM-v2 is gebouwd op Qwen2.5-1.5B-Instruction. Ik kan bevestigen: het werkt, maar de conversie is op een of andere manier wat langzaam…

Kun je je voorstellen dat je een HTML-webpagina van 500KB moet converteren om tekst eruit te halen? Misschien bevat het 100.000 tokens? of laat het zelfs maar 10.000 tokens zijn.

Ik heb een voorbeeldpagina van 121KB genomen en de conversietijd op mijn PC is: ~1 seconde.

Ollama Commandline aanroepen

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Lees bestandsinhoud als prompt
PROMPT="Haal de hoofdinhoud op uit de gegeven HTML en converteer deze naar Markdown-formaat.\nhtml:\n $(cat "$INPUT_FILE")"

# Roep Ollama aan en sla de respons op
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama respons opgeslagen in $OUTPUT_FILE"