Convierte contenido HTML a Markdown utilizando LLM y Ollama
LLM para extraer texto de HTML...
En la biblioteca de modelos de Ollama hay modelos que pueden convertir contenido HTML a Markdown, lo cual es útil para tareas de conversión de contenido. Esta guía forma parte de nuestro Herramientas de Documentación en 2026: Markdown, LaTeX, PDF y Flujos de Trabajo de Impresión hub.
Por ejemplo, el modelo reader-lm, que se basa en qwen2, está entrenado para hacer esto.

ReaderLM-v2
He probado la siguiente versión de este tipo de modelo: reader-lm-v2.
ReaderLM-v2 se basa en Qwen2.5-1.5B-Instruction.
Puedo confirmar: funciona, pero la conversión es algo lenta…
¿Puedes imaginar una página web de 500KB que necesitas convertir para extraer el texto? Quizás haya 100000 tokens, o incluso 10k tokens.
Tomé una página de ejemplo de 121KB y el tiempo de conversión en mi PC es: ~1 segundo.
Llamada a la línea de comandos de Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Leer el contenido del archivo como prompt
PROMPT="Extraer el contenido principal del HTML dado y convertirlo al formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Llamar a Ollama y guardar la respuesta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "La respuesta de Ollama se guardó en $OUTPUT_FILE"