Преобразуйте содержимое HTML в Markdown с использованием LLM и Ollama

LLM для извлечения текста из HTML...

Содержимое страницы

В библиотеке моделей Ollama есть модели, способные конвертировать HTML-контент в Markdown,
что полезно для задач преобразования контента.

Например, модель reader-lm, основанная на qwen2, обучена выполнять эту задачу.

llama тянет html-телегу

ReaderLM-v2

Я попробовал следующую версию такой модели — reader-lm-v2.
ReaderLM-v2 построена на Qwen2.5-1.5B-Instruction.
Я могу подтвердить: это работает, но преобразование как-то медленное…

Можете представить себе веб-страницу HTML размером 500 КБ, из которой нужно извлечь текст?
Может быть, там 100 000 токенов? Или пусть даже 10 000 токенов.

Я взял образец страницы размером 121 КБ, и время преобразования на моём ПК составляет: ~1 сек.

Вызов командной строки Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Чтение содержимого файла как приглашения
PROMPT="Извлеките основной контент из предоставленного HTML и преобразуйте его в формат Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Вызов Ollama и сохранение ответа
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ответ Ollama сохранён в $OUTPUT_FILE"

Полезные ссылки