HTML-Inhalt in Markdown konvertieren mit LLM und Ollama

LLM zum Extrahieren von Text aus HTML...

Inhaltsverzeichnis

Im Ollama-Modell-Repository gibt es Modelle, die in der Lage sind, HTML-Inhalt in Markdown umzuwandeln – was für Aufgaben der Inhaltskonvertierung nützlich ist.

Ein Beispiel ist das Modell reader-lm, das auf qwen2 basiert und dafür trainiert wurde.

llama zieht html-wagen

ReaderLM-v2

Ich habe die nächste Version eines solchen Modells getestet – reader-lm-v2. ReaderLM-v2 basiert auf Qwen2.5-1.5B-Instruction. Ich kann bestätigen: es funktioniert, aber die Konvertierung ist irgendwie etwas langsam…

Kannst du dir vorstellen, eine 500 KB große HTML-Seite zu konvertieren, um den Text darin zu extrahieren? Vielleicht gibt es 100.000 Token? Oder lassen wir es sogar bei 10.000 Token sein.

Ich habe eine Beispielseite von 121 KB genommen, und die Konvertierungszeit auf meinem PC beträgt: ~1 Sekunde.

Aufruf des Ollama-Commandlines

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Inhalt der Datei als Prompt lesen
PROMPT="Extrahiere den Hauptinhalt aus dem gegebenen HTML und konvertiere ihn in Markdown-Format.\nhtml:\n $(cat "$INPUT_FILE")"

# Rufe Ollama auf und speichere die Antwort
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama-Antwort gespeichert in $OUTPUT_FILE"