如何使用 LLM Ollama 从 HTML 中提取 markdown 文本？

使用 LLM Ollama 提取 HTML 中的 markdown 文本时，可以使用 ReaderLM-v2 模型。

使用LLM和Ollama将HTML内容转换为Markdown

使用LLM从HTML中提取文本...

在 Ollama 模型库中，有一些模型可以将 HTML 内容转换为 Markdown，这对内容转换任务非常有用。

例如基于 qwen2 的模型 reader-lm，就是为此训练的。

llama is pulling html cart

ReaderLM-v2

我尝试了下一个此类模型版本 - reader-lm-v2。 ReaderLM-v2 是基于 Qwen2.5-1.5B-Instruction 构建的。我可以确认：它有效，但转换速度似乎有些慢…

你能想象需要从 500KB 的 HTML 网页中提取文本吗？也许有 100000 个 token？或者干脆是 10k 个 token。

我拿了一个 121KB 的示例页面，转换时间在我的电脑上是：约 1 秒。

调用 Ollama 命令行

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# 读取文件内容作为提示
PROMPT="从给定的 HTML 中提取主要内容并将其转换为 Markdown 格式。\nhtml:\n $(cat "$INPUT_FILE")"

# 调用 Ollama 并保存响应
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama 响应已保存到 $OUTPUT_FILE"

ReaderLM-v2

调用 Ollama 命令行

有用的链接