Converta conteúdo HTML para Markdown usando LLM e Ollama.
LLM para extrair texto de HTML...
Na biblioteca de modelos do Ollama, existem modelos capazes de converter conteúdo HTML para Markdown, o que é útil para tarefas de conversão de conteúdo.
Este guia faz parte do nosso hub Ferramentas de Documentação em 2026: Markdown, LaTeX, PDF e Fluxos de Impressão.
Por exemplo, o modelo reader-lm, que é baseado no qwen2, foi treinado para realizar essa tarefa.

ReaderLM-v2
Testei a próxima versão deste modelo - reader-lm-v2.
O ReaderLM-v2 é construído sobre o Qwen2.5-1.5B-Instruction.
Posso confirmar: funciona, mas a conversão é um pouco lenta…
Você consegue imaginar uma página HTML de 500KB da qual você precisa extrair o texto? Talvez haja 100.000 tokens? Ou mesmo 10k tokens.
Peguei uma página de exemplo de 121KB e o tempo de conversão no meu PC foi: ~1 segundo.
Chamando a Linha de Comando do Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Read file content as prompt
PROMPT="Extract the main content from the given HTML and convert it to Markdown format.\nhtml:\n $(cat "$INPUT_FILE")"
# Call Ollama and save the response
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama response saved to $OUTPUT_FILE"