Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama

LLM pour extraire du texte à partir d'HTML...

Sommaire

Dans la bibliothèque de modèles Ollama, il existe des modèles capables de convertir du contenu HTML en Markdown, ce qui est utile pour les tâches de conversion de contenu. Ce guide fait partie de notre Outils de Documentation en 2026 : Markdown, LaTeX, PDF et Flux de Travail d’Impression hub.

Par exemple, le modèle reader-lm basé sur qwen2 est entraîné pour faire cela.

llama is pulling html cart

ReaderLM-v2

J’ai essayé la version suivante de ce modèle : reader-lm-v2. ReaderLM-v2 est construit sur Qwen2.5-1.5B-Instruction. Je peux confirmer : ça fonctionne, mais la conversion est quelque peu lente…

Pensez-vous à une page HTML de 500 Ko dont vous devez extraire le texte ? Peut-être qu’il y a 100 000 tokens ? ou même 10 000 tokens.

J’ai pris un exemple de page de 121 Ko et le temps de conversion sur mon PC est : ~1 seconde.

Appel de la ligne de commande Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Lire le contenu du fichier comme prompt
PROMPT="Extrayez le contenu principal à partir du HTML donné et convertissez-le au format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Appelez Ollama et enregistrez la réponse
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "La réponse d'Ollama a été enregistrée dans $OUTPUT_FILE"

Liens utiles