Q: Como extrair Markdown de HTML usando Ollama?

Use um modelo no estilo de leitor, como ReaderLM-v2 ( milkey/reader-lm-v2:latest ). Execute o Ollama com um prompt que solicite a extração do conteúdo principal do HTML fornecido e sua conversão em Markdown; o post inclui um exemplo de script bash.

Q: Como faço para chamar o Ollama via linha de comando para converter HTML em Markdown?

Use ollama run milkey/reader-lm-v2 e forneça um prompt que contenha seu HTML e instrua o modelo a extrair o conteúdo principal e a saída em Markdown. Redirecione a saída para um arquivo, por exemplo, ollama run "$MODEL" "$PROMPT" > response.md . O post contém um script completo de bash.

Q: Existem alternativas para o uso de um LLM para converter HTML em Markdown?

Sim. Bibliotecas dedicadas de Python (por exemplo, html2text , markdownify , html2md ) geralmente são mais rápidas e determinísticas. Veja nosso guia de Conversão de HTML para Markdown em Python na seção Ferramentas de Documentação. LLMs são úteis quando você precisa de extração semântica ou manipulação de HTML desorganizado ou não padrão.

Question 1

Como extrair Markdown de HTML usando Ollama?

Accepted Answer

Use um modelo no estilo de leitor, como ReaderLM-v2 (milkey/reader-lm-v2:latest). Execute o Ollama com um prompt que solicite a extração do conteúdo principal do HTML fornecido e sua conversão em Markdown; o post inclui um exemplo de script bash.

Question 2

Qual modelo Ollama converte HTML em Markdown?

Accepted Answer

O ReaderLM-v2 (construído sobre o Qwen2.5-1.5B-Instruction) foi treinado para isso. Puxe-o com ollama pull milkey/reader-lm-v2 e use-o com um prompt que inclua seu HTML e solicite saída em Markdown.

Question 3

A conversão de HTML para Markdown com Ollama é rápida?

Accepted Answer

Depende do tamanho do HTML e do seu hardware. Páginas grandes (por exemplo, 100k+ tokens) podem ser lentas. No post, uma amostra de 121 KB levou cerca de 1 segundo em um PC típico. Para muitos trechos pequenos, está tudo bem; para volumes ou páginas muito grandes, bibliotecas em Python (por exemplo, no nosso guia Converter HTML para Markdown em Python) podem ser mais rápidas.

Question 4

Como faço para chamar o Ollama via linha de comando para converter HTML em Markdown?

Accepted Answer

Use ollama run milkey/reader-lm-v2 e forneça um prompt que contenha seu HTML e instrua o modelo a extrair o conteúdo principal e a saída em Markdown. Redirecione a saída para um arquivo, por exemplo, ollama run "$MODEL" "$PROMPT" > response.md. O post contém um script completo de bash.

Question 5

Qual prompt devo usar para converter HTML em Markdown com um LLM?

Accepted Answer

Peça ao modelo para extrair o conteúdo principal do HTML fornecido e convertê-lo para o formato Markdown. Exemplo: &ldquo;Extraia o conteúdo principal do HTML fornecido e converta-o para o formato Markdown&rdquo;, em seguida, forneça o HTML. A formulação exata pode variar; modelos leitores estão ajustados para essa tarefa.

Question 6

Existem alternativas para o uso de um LLM para converter HTML em Markdown?

Accepted Answer

Sim. Bibliotecas dedicadas de Python (por exemplo, html2text, markdownify, html2md) geralmente são mais rápidas e determinísticas. Veja nosso guia de Conversão de HTML para Markdown em Python na seção Ferramentas de Documentação. LLMs são úteis quando você precisa de extração semântica ou manipulação de HTML desorganizado ou não padrão.

Converta conteúdo HTML em Markdown usando LLM e Ollama

ReaderLM-v2

Chamando o Ollama Command Line

Links úteis