使用LLM和Ollama将HTML内容转换为Markdown

使用LLM从HTML中提取文本...

目录

在 Ollama 模型库中,有一些模型能够 将 HTML 内容转换为 Markdown,这对内容转换任务非常有用。

例如基于 qwen2 的模型 reader-lm,就是为此训练的。

llama is pulling html cart

ReaderLM-v2

我尝试了下一个此类模型版本 - reader-lm-v2。 ReaderLM-v2 是基于 Qwen2.5-1.5B-Instruction 构建的。 我可以确认:它有效,但转换速度似乎有些慢…

你能想象需要从 500KB 的 HTML 网页中提取文本吗? 也许有 100,000 个 token?或者干脆是 10,000 个 token。

我取了一个 121KB 的示例页面,转换时间在我的电脑上是:约 1 秒。

调用 Ollama 命令行

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# 读取文件内容作为提示
PROMPT="从给定的 HTML 中提取主要内容并将其转换为 Markdown 格式。\nhtml:\n $(cat "$INPUT_FILE")"

# 调用 Ollama 并保存响应
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama 响应已保存到 $OUTPUT_FILE"

有用的链接