Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama
LLM do wyodrębniania tekstu z HTML...
Page content
W bibliotece modeli Ollama znajdują się modele, które potrafią przekształcać zawartość HTML w Markdown, co jest przydatne w zadaniach konwersji treści.
Na przykład model reader-lm
, który oparty jest na qwen2
, został wytrenowany do tego celu.
ReaderLM-v2
Próbowałem kolejnej wersji takiego modelu – reader-lm-v2
.
ReaderLM-v2 oparty jest na Qwen2.5-1.5B-Instruction.
Potwierdzam: działa, ale konwersja jest w pewnym sensie wolna…
Czy możesz sobie wyobrazić stronę HTML o wielkości 500KB, z której musisz wyciągnąć tekst? Może tam jest 100000 tokenów? albo nawet 10k tokenów.
Wziąłem próbki strony o wielkości 121KB i czas konwersji na moim komputerze to: ~1 sekunda.
Wywoływanie wiersza poleceń Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Odczytaj zawartość pliku jako treść wskazania
PROMPT="Wyodrębnij główną zawartość z podanego HTML i przekształć ją w format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Wywołaj Ollama i zapisz odpowiedź
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Odpowiedź Ollama zapisana do $OUTPUT_FILE"
Przydatne linki
- Jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel
- Jak Ollama obsługuje żądania równoległe
- Dostawcy LLM w chmurze
- Szybki przewodnik po Ollama
- Przenoszenie modeli Ollama na inny dysk lub folder
- Alternatywy dla BeautifulSoup w języku Go
- Przestawianie dokumentów tekstowych z użyciem Ollama i modelu Qwen3 Embedding – w języku Go