HTMLからLLM Ollamaを使用してMarkdownテキストを抽出する方法

HTMLからマークダウンテキストを抽出するには、LLM Ollamaを使用し、ReaderLM-v2モデルを活用してください。

LLMとOllamaを使用してHTMLコンテンツをMarkdownに変換する

HTMLからテキストを抽出するLLM...

Ollama モデルライブラリには、HTML コンテンツを Markdown に変換できるモデルが存在します。これはコンテンツ変換タスクに役立ちます。HTML を Markdown に変換。

例えば、qwen2 に基づいて構築された reader-lm モデルは、この作業に特化して訓練されています。

llama が HTML のカートを引いている

ReaderLM-v2

私は次のバージョンのモデル reader-lm-v2 も試してみました。ReaderLM-v2 は Qwen2.5-1.5B-Instruction 上に構築されています。動作することを確認しました：動作確認。ただし、変換処理はやや遅い傾向があります。

500KB の HTML ページからテキストを抽出する必要があると想像してみてください。100,000トークン？それとも10,000トークンでもあるかもしれません。

私は121KBのサンプルページを使用し、私のPCでの変換時間は約1秒でした。

Ollama コマンドラインの呼び出し

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# ファイル内容をプロンプトとして読み込む
PROMPT="指定されたHTMLから主要なコンテンツを抽出し、Markdown形式に変換してください。\nhtml:\n $(cat "$INPUT_FILE")"

# Ollama を呼び出し、結果を保存
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama の結果は $OUTPUT_FILE に保存されました"

ReaderLM-v2

Ollama コマンドラインの呼び出し

有用なリンク