Converta conteúdo HTML em Markdown usando LLM e Ollama
LLM para extrair texto de HTML...
Na biblioteca de modelos do Ollama existem modelos que são capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo. Este guia faz parte do nosso Ferramentas de Documentação em 2026: Markdown, LaTeX, PDF e Fluxos de Trabalho de Impressão hub.
Por exemplo, o modelo reader-lm, que é baseado em qwen2, foi treinado para isso.

ReaderLM-v2
Testei a próxima versão desse tipo de modelo - reader-lm-v2.
O ReaderLM-v2 é construído sobre Qwen2.5-1.5B-Instruction.
Posso confirmar: funciona, mas a conversão é de alguma forma lenta…
Você consegue imaginar uma página HTML de 500KB da qual você precisa extrair o texto? Talvez tenha 100000 tokens? ou sejamos mesmo 10k tokens.
Eu peguei uma página de exemplo de 121KB e o tempo de conversão no meu PC é: ~1 segundo.
Chamando o Ollama Command Line
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Leia o conteúdo do arquivo como prompt
PROMPT="Extraia o conteúdo principal do HTML fornecido e converta-o para o formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Chame o Ollama e salve a resposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Resposta do Ollama salva em $OUTPUT_FILE"