Конвертируйте содержимое HTML в Markdown с использованием LLM и Ollama

LLM для извлечения текста из HTML...

Содержимое страницы

В библиотеке моделей Ollama есть модели, способные конвертировать HTML-контент в Markdown, что полезно для задач преобразования контента. Это руководство является частью нашего Инструменты документации в 2026: Markdown, LaTeX, PDF и рабочие процессы печати хаба.

Например, модель reader-lm, основанная на qwen2, обучена выполнять эту задачу.

llama is pulling html cart

ReaderLM-v2

Я попробовал следующую версию такой модели — reader-lm-v2. ReaderLM-v2 построена на Qwen2.5-1.5B-Instruction. Я могу подтвердить: это работает, но преобразование каким-то образом медленное…

Можете ли вы представить себе веб-страницу HTML объемом 500 КБ, из которой нужно извлечь текст? Может быть, там 100000 токенов? или пусть даже 10 000 токенов.

Я взял образец страницы размером 121 КБ, и время преобразования на моем ПК составляет: ~1 сек.

Вызов командной строки Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Чтение содержимого файла как приглашения
PROMPT="Извлеките основной контент из предоставленного HTML и преобразуйте его в формат Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Вызов Ollama и сохранение ответа
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ответ Ollama сохранен в $OUTPUT_FILE"

Полезные ссылки