HTML-Inhalt in Markdown konvertieren mit LLM und Ollama
LLM zum Extrahieren von Text aus HTML...
Im Ollama-Modell-Repository gibt es Modelle, die in der Lage sind, HTML-Inhalt in Markdown umzuwandeln – was für Aufgaben der Inhaltskonvertierung nützlich ist.
Ein Beispiel ist das Modell reader-lm
, das auf qwen2
basiert und dafür trainiert wurde.
ReaderLM-v2
Ich habe die nächste Version eines solchen Modells getestet – reader-lm-v2
.
ReaderLM-v2 basiert auf Qwen2.5-1.5B-Instruction.
Ich kann bestätigen: es funktioniert, aber die Konvertierung ist irgendwie etwas langsam…
Kannst du dir vorstellen, eine 500 KB große HTML-Seite zu konvertieren, um den Text darin zu extrahieren? Vielleicht gibt es 100.000 Token? Oder lassen wir es sogar bei 10.000 Token sein.
Ich habe eine Beispielseite von 121 KB genommen, und die Konvertierungszeit auf meinem PC beträgt: ~1 Sekunde.
Aufruf des Ollama-Commandlines
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Inhalt der Datei als Prompt lesen
PROMPT="Extrahiere den Hauptinhalt aus dem gegebenen HTML und konvertiere ihn in Markdown-Format.\nhtml:\n $(cat "$INPUT_FILE")"
# Rufe Ollama auf und speichere die Antwort
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama-Antwort gespeichert in $OUTPUT_FILE"
Nützliche Links
- Wie Ollama Intel-CPU-Performance und Effiziente Kerne nutzt
- Wie Ollama parallelle Anfragen verarbeitet
- Cloud-LLM-Anbieter
- Ollama-Übersicht
- Ollama-Modelle auf eine andere Festplatte oder Ordner verschieben
- Alternativen zu Beautiful Soup für Go
- Neuanordnen von Textdokumenten mit Ollama und Qwen3-Embedding-Modell – in Go