Конвертируйте содержимое HTML в Markdown с использованием LLM и Ollama
LLM для извлечения текста из HTML...
В библиотеке моделей Ollama есть модели, способные конвертировать HTML-контент в Markdown, что полезно для задач преобразования контента. Это руководство является частью нашего Инструменты документации в 2026: Markdown, LaTeX, PDF и рабочие процессы печати хаба.
Например, модель reader-lm, основанная на qwen2, обучена выполнять эту задачу.

ReaderLM-v2
Я попробовал следующую версию такой модели — reader-lm-v2.
ReaderLM-v2 построена на Qwen2.5-1.5B-Instruction.
Я могу подтвердить: это работает, но преобразование каким-то образом медленное…
Можете ли вы представить себе веб-страницу HTML объемом 500 КБ, из которой нужно извлечь текст? Может быть, там 100000 токенов? или пусть даже 10 000 токенов.
Я взял образец страницы размером 121 КБ, и время преобразования на моем ПК составляет: ~1 сек.
Вызов командной строки Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Чтение содержимого файла как приглашения
PROMPT="Извлеките основной контент из предоставленного HTML и преобразуйте его в формат Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Вызов Ollama и сохранение ответа
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ответ Ollama сохранен в $OUTPUT_FILE"