Come estrarre il testo markdown da HTML utilizzando LLM Ollama?

Per estrarre il testo markdown da HTML utilizzando LLM Ollama è possibile utilizzare il modello ReaderLM-v2.

Converti il contenuto HTML in Markdown utilizzando LLM e Ollama

LLM per estrarre il testo da HTML...

Indice

Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto.

Ad esempio, il modello reader-lm basato su qwen2, è addestrato per farlo.

llama is pulling html cart

ReaderLM-v2

Ho provato la versione successiva di questo modello - reader-lm-v2. ReaderLM-v2 è costruito su Qwen2.5-1.5B-Instruction. Posso confermare: funziona, ma la conversione è in qualche modo lenta…

Riesci a immaginare una pagina HTML di 500KB da cui devi estrarre del testo? Forse ci sono 100.000 token? o anche solo 10.000 token.

Ho preso un esempio di pagina di 121KB e il tempo di conversione sul mio PC è: ~1sec.

Chiamata al comando riga di comando di Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Leggi il contenuto del file come prompt
PROMPT="Estrai il contenuto principale dall'HTML fornito e convertilo in formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Chiama Ollama e salva la risposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "La risposta di Ollama è stata salvata in $OUTPUT_FILE"

ReaderLM-v2

Chiamata al comando riga di comando di Ollama

Link utili