Converta conteúdo HTML em Markdown usando LLM e Ollama

LLM para extrair texto de HTML...

Conteúdo da página

Na biblioteca de modelos do Ollama existem modelos que são capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo.

Por exemplo, o modelo reader-lm, que é baseado em qwen2, foi treinado para isso.

llama is pulling html cart

ReaderLM-v2

Testei a próxima versão desse tipo de modelo - reader-lm-v2. O ReaderLM-v2 é construído sobre Qwen2.5-1.5B-Instruction. Posso confirmar: funciona, mas a conversão é de alguma forma lenta…

Você consegue imaginar uma página HTML de 500KB da qual você precisa extrair o texto? Talvez tenha 100000 tokens? ou deixe ser até mesmo 10k tokens.

Eu peguei uma página de exemplo de 121KB e o tempo de conversão no meu PC é: ~1 segundo.

Chamando o Ollama via linha de comando

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Leia o conteúdo do arquivo como prompt
PROMPT="Extraia o conteúdo principal do HTML fornecido e converta-o para o formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Chame o Ollama e salve a resposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Resposta do Ollama salva em $OUTPUT_FILE"