LLMとOllamaを使用してHTMLコンテンツをMarkdownに変換する

HTMLからテキストを抽出するLLM...

目次

Ollama モデルライブラリには、HTML コンテンツを Markdown に変換できるモデルが存在します。これはコンテンツ変換タスクに役立ちます。
HTML を Markdown に変換する

例えば、qwen2 に基づく reader-lm モデルは、このタスクに特化して訓練されています。

llama が HTML のカートを引いている

ReaderLM-v2

私は次のバージョンのモデル reader-lm-v2 も試してみました。
ReaderLM-v2 は Qwen2.5-1.5B-Instruction 上に構築されています。
動作は確認済みですが、変換処理はやや遅いです。

500KB の HTML ページからテキストを抽出する必要があると想像してみてください。
100,000トークン、あるいは10,000トークンくらいあるかもしれません。

私は121KBのサンプルページを試しました。私のPCでの変換時間は約1秒です。

Ollama コマンドラインの呼び出し

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# ファイルの内容をプロンプトとして読み込む
PROMPT="指定されたHTMLから主なコンテンツを抽出し、Markdown形式に変換してください。\nhtml:\n $(cat "$INPUT_FILE")"

# Ollamaを呼び出して応答を保存
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollamaの応答は $OUTPUT_FILE に保存されました"

有用なリンク