Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama
LLM pour extraire du texte à partir d'HTML...
Sommaire
Dans la bibliothèque de modèles Ollama, il existe des modèles capables de convertir du contenu HTML en Markdown, ce qui est utile pour les tâches de conversion de contenu.
Par exemple, le modèle reader-lm
basé sur qwen2
est entraîné pour cela.
ReaderLM-v2
J’ai testé la version suivante de ce type de modèle : reader-lm-v2
.
ReaderLM-v2 est construit sur Qwen2.5-1.5B-Instruction.
Je peux confirmer : ça fonctionne, mais la conversion est quelque peu lente…
Imaginez une page HTML de 500 Ko dont vous devez extraire le texte ? Peut-être qu’elle contient 100 000 tokens ? ou même 10 000 tokens.
J’ai pris un exemple de page de 121 Ko et le temps de conversion sur mon PC est : ~1 seconde.
Appel de la ligne de commande Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Lire le contenu du fichier comme prompt
PROMPT="Extrayez le contenu principal du HTML donné et convertissez-le au format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Appeler Ollama et sauvegarder la réponse
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "La réponse d'Ollama a été sauvegardée dans $OUTPUT_FILE"
Liens utiles
- Comment Ollama utilise les cœurs de performance et les cœurs efficaces d’Intel
- Comment Ollama gère les requêtes parallèles
- Fournisseurs de modèles LLM en nuage
- Feuille de triche d’Ollama
- Déplacer les modèles Ollama vers un autre disque ou dossier
- Alternatives à Beautiful Soup pour Go
- Réordonnancement de documents texte avec Ollama et modèle d’embedding Qwen3 - en Go