Converta conteúdo HTML em Markdown usando LLM e Ollama
LLM para extrair texto de HTML...
Conteúdo da página
Na biblioteca de modelos do Ollama existem modelos que são capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo.
Por exemplo, o modelo reader-lm
, que é baseado em qwen2
, foi treinado para isso.
ReaderLM-v2
Testei a próxima versão desse tipo de modelo - reader-lm-v2
.
O ReaderLM-v2 é construído sobre Qwen2.5-1.5B-Instruction.
Posso confirmar: funciona, mas a conversão é de alguma forma lenta…
Você consegue imaginar uma página HTML de 500KB da qual você precisa extrair o texto? Talvez tenha 100000 tokens? ou deixe ser até mesmo 10k tokens.
Eu peguei uma página de exemplo de 121KB e o tempo de conversão no meu PC é: ~1 segundo.
Chamando o Ollama via linha de comando
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Leia o conteúdo do arquivo como prompt
PROMPT="Extraia o conteúdo principal do HTML fornecido e converta-o para o formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Chame o Ollama e salve a resposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Resposta do Ollama salva em $OUTPUT_FILE"
Links úteis
- Como o Ollama utiliza o desempenho da CPU Intel e núcleos eficientes
- Como o Ollama lida com solicitações paralelas
- Fornecedores de LLM em nuvem
- Dica rápida do Ollama
- Mover modelos do Ollama para um disco ou pasta diferente
- Alternativas ao BeautifulSoup para Go
- Reclassificação de documentos de texto com Ollama e modelo de embedding Qwen3 - em Go