Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama

LLM do wyodrębniania tekstu z HTML...

Page content

W bibliotece modeli Ollama znajdują się modele, które potrafią przekształcać zawartość HTML w Markdown, co jest przydatne w zadaniach konwersji treści.

Na przykład model reader-lm, który oparty jest na qwen2, został wytrenowany do tego celu.

llama is pulling html cart

ReaderLM-v2

Próbowałem kolejnej wersji takiego modelu – reader-lm-v2. ReaderLM-v2 oparty jest na Qwen2.5-1.5B-Instruction. Potwierdzam: działa, ale konwersja jest w pewnym sensie wolna…

Czy możesz sobie wyobrazić stronę HTML o wielkości 500KB, z której musisz wyciągnąć tekst? Może tam jest 100000 tokenów? albo nawet 10k tokenów.

Wziąłem próbki strony o wielkości 121KB i czas konwersji na moim komputerze to: ~1 sekunda.

Wywoływanie wiersza poleceń Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Odczytaj zawartość pliku jako treść wskazania
PROMPT="Wyodrębnij główną zawartość z podanego HTML i przekształć ją w format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Wywołaj Ollama i zapisz odpowiedź
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Odpowiedź Ollama zapisana do $OUTPUT_FILE"

Przydatne linki