Q: Comment extraire du Markdown à partir d’HTML à l’aide d’Ollama ?

Utilisez un modèle au style lecteur tel que ReaderLM-v2 ( milkey/reader-lm-v2:latest ). Exécutez Ollama avec un prompt demandant d’extraire le contenu principal à partir de l’HTML donné et de le convertir en Markdown ; le billet inclut un exemple de script bash.

Q: Comment appeler Ollama depuis la ligne de commande pour convertir HTML en Markdown ?

Utilisez ollama run milkey/reader-lm-v2 et transmettez un prompt contenant votre HTML et instructez le modèle pour qu’il extraye le contenu principal et produise du Markdown. Redirigez la sortie vers un fichier, par exemple ollama run "$MODEL" "$PROMPT" > response.md . Le billet contient un script bash complet.

Q: Quelle invite dois-je utiliser pour convertir du HTML en Markdown avec un LLM ?

Demandez au modèle d’extraire le contenu principal à partir du HTML fourni et de le convertir au format Markdown. Exemple : “Extraire le contenu principal à partir du HTML fourni et le convertir au format Markdown”, puis fournissez le HTML. La formulation exacte peut varier ; les modèles lecteurs sont optimisés pour cette tâche.

Q: Existent-il des alternatives à l’utilisation d’un LLM pour convertir HTML en Markdown ?

Oui. Des bibliothèques dédiées en Python (p. ex. html2text , markdownify , html2md ) sont généralement plus rapides et plus déterministes. Consultez notre guide Convertir HTML en Markdown en Python dans la section Outils de documentation. Les LLM sont utiles lorsque vous avez besoin d’extraction sémantique ou de traitement d’HTML désordonné ou non standard.

Question 1

Comment extraire du Markdown à partir d&rsquo;HTML à l&rsquo;aide d&rsquo;Ollama ?

Accepted Answer

Utilisez un modèle au style lecteur tel que ReaderLM-v2 (milkey/reader-lm-v2:latest). Exécutez Ollama avec un prompt demandant d’extraire le contenu principal à partir de l’HTML donné et de le convertir en Markdown ; le billet inclut un exemple de script bash.

Question 2

Quel modèle Ollama convertit l&rsquo;HTML en Markdown ?

Accepted Answer

ReaderLM-v2 (basé sur Qwen2.5-1.5B-Instruction) a été entraîné à cette fin. Téléchargez-le avec la commande ollama pull milkey/reader-lm-v2 et utilisez-le avec un prompt qui inclut votre HTML et demande une sortie au format Markdown.

Question 3

La conversion HTML-to-Markdown avec Ollama est-elle rapide ?

Accepted Answer

Cela dépend de la taille du HTML et de votre matériel. Les pages volumineuses (par exemple, 100 000 tokens ou plus) peuvent être lentes. Dans le billet, un exemple de 121 Ko a pris environ une seconde sur un ordinateur typique. Pour de petits extraits, c&rsquo;est tout à fait acceptable ; pour de grandes quantités ou des pages très volumineuses, des bibliothèques Python (par exemple, celles décrites dans notre guide « Convertir HTML en Markdown avec Python ») peuvent être plus rapides.

Question 4

Comment appeler Ollama depuis la ligne de commande pour convertir HTML en Markdown ?

Accepted Answer

Utilisez ollama run milkey/reader-lm-v2 et transmettez un prompt contenant votre HTML et instructez le modèle pour qu’il extraye le contenu principal et produise du Markdown. Redirigez la sortie vers un fichier, par exemple ollama run "$MODEL" "$PROMPT" > response.md. Le billet contient un script bash complet.

Question 5

Quelle invite dois-je utiliser pour convertir du HTML en Markdown avec un LLM ?

Accepted Answer

Demandez au modèle d&rsquo;extraire le contenu principal à partir du HTML fourni et de le convertir au format Markdown. Exemple : &ldquo;Extraire le contenu principal à partir du HTML fourni et le convertir au format Markdown&rdquo;, puis fournissez le HTML. La formulation exacte peut varier ; les modèles lecteurs sont optimisés pour cette tâche.

Question 6

Existent-il des alternatives à l&rsquo;utilisation d&rsquo;un LLM pour convertir HTML en Markdown ?

Accepted Answer

Oui. Des bibliothèques dédiées en Python (p. ex. html2text, markdownify, html2md) sont généralement plus rapides et plus déterministes. Consultez notre guide Convertir HTML en Markdown en Python dans la section Outils de documentation. Les LLM sont utiles lorsque vous avez besoin d’extraction sémantique ou de traitement d’HTML désordonné ou non standard.

Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama

ReaderLM-v2

Appel de la ligne de commande Ollama

Liens utiles