使用LLM和Ollama将HTML内容转换为Markdown
使用LLM从HTML中提取文本...
目录
在 Ollama 模型库中,有一些模型能够 将 HTML 内容转换为 Markdown,这对内容转换任务非常有用。
例如基于 qwen2
的模型 reader-lm
,就是为此训练的。
ReaderLM-v2
我尝试了下一个此类模型版本 - reader-lm-v2
。
ReaderLM-v2 是基于 Qwen2.5-1.5B-Instruction 构建的。
我可以确认:它有效,但转换速度似乎有些慢…
你能想象需要从 500KB 的 HTML 网页中提取文本吗? 也许有 100,000 个 token?或者干脆是 10,000 个 token。
我取了一个 121KB 的示例页面,转换时间在我的电脑上是:约 1 秒。
调用 Ollama 命令行
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# 读取文件内容作为提示
PROMPT="从给定的 HTML 中提取主要内容并将其转换为 Markdown 格式。\nhtml:\n $(cat "$INPUT_FILE")"
# 调用 Ollama 并保存响应
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama 响应已保存到 $OUTPUT_FILE"