Converti il contenuto HTML in Markdown utilizzando LLM e Ollama
LLM per estrarre testo da HTML...
Indice
Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto.
Ad esempio, il modello reader-lm
basato su qwen2
, è addestrato per farlo.
ReaderLM-v2
Ho provato la versione successiva di questo modello - reader-lm-v2
.
ReaderLM-v2 è costruito su Qwen2.5-1.5B-Instruction.
Posso confermare: funziona, ma la conversione è in qualche modo lenta…
Ti puoi immaginare una pagina HTML di 500KB da cui devi estrarre del testo? Forse ci sono 100000 token? o anche solo 10k token.
Ho preso un esempio di pagina di 121KB e il tempo di conversione sul mio PC è: ~1sec.
Chiamata al comando riga di comando di Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Leggi il contenuto del file come prompt
PROMPT="Estrai il contenuto principale dall'HTML fornito e convertiscilo in formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Chiama Ollama e salva la risposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "La risposta di Ollama è stata salvata in $OUTPUT_FILE"
Link utili
- Come Ollama utilizza le prestazioni del processore Intel e i core efficienti
- Come Ollama gestisce le richieste parallele
- Fornitori di LLM in cloud
- Scheda di riferimento per Ollama
- Spostare i modelli Ollama su un diverso disco o cartella
- Alternative a Beautiful Soup per Go
- Riordinare documenti di testo con Ollama e modello di embedding Qwen3 - in Go