Converti il contenuto HTML in Markdown utilizzando LLM e Ollama

LLM per estrarre testo da HTML...

Indice

Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto.

Ad esempio, il modello reader-lm basato su qwen2, è addestrato per farlo.

llama is pulling html cart

ReaderLM-v2

Ho provato la versione successiva di questo modello - reader-lm-v2. ReaderLM-v2 è costruito su Qwen2.5-1.5B-Instruction. Posso confermare: funziona, ma la conversione è in qualche modo lenta…

Ti puoi immaginare una pagina HTML di 500KB da cui devi estrarre del testo? Forse ci sono 100000 token? o anche solo 10k token.

Ho preso un esempio di pagina di 121KB e il tempo di conversione sul mio PC è: ~1sec.

Chiamata al comando riga di comando di Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Leggi il contenuto del file come prompt
PROMPT="Estrai il contenuto principale dall'HTML fornito e convertiscilo in formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Chiama Ollama e salva la risposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "La risposta di Ollama è stata salvata in $OUTPUT_FILE"