Преобразуйте содержимое HTML в Markdown с использованием LLM и Ollama
LLM для извлечения текста из HTML...
Содержимое страницы
В библиотеке моделей Ollama есть модели, способные конвертировать HTML-контент в Markdown,
что полезно для задач преобразования контента.
Например, модель reader-lm
, основанная на qwen2
, обучена выполнять эту задачу.
ReaderLM-v2
Я попробовал следующую версию такой модели — reader-lm-v2
.
ReaderLM-v2 построена на Qwen2.5-1.5B-Instruction.
Я могу подтвердить: это работает, но преобразование как-то медленное…
Можете представить себе веб-страницу HTML размером 500 КБ, из которой нужно извлечь текст?
Может быть, там 100 000 токенов? Или пусть даже 10 000 токенов.
Я взял образец страницы размером 121 КБ, и время преобразования на моём ПК составляет: ~1 сек.
Вызов командной строки Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Чтение содержимого файла как приглашения
PROMPT="Извлеките основной контент из предоставленного HTML и преобразуйте его в формат Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Вызов Ollama и сохранение ответа
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ответ Ollama сохранён в $OUTPUT_FILE"
Полезные ссылки
- Как Ollama использует производительность и эффективные ядра процессора Intel
- Как Ollama обрабатывает параллельные запросы
- Облачные провайдеры LLM
- Справочник Ollama
- Перемещение моделей Ollama на другой диск или папку
- Альтернативы Beautiful Soup для Go
- Переранжирование текстовых документов с использованием Ollama и модели Qwen3 Embedding — на Go