LLMとOllamaを使用してHTMLコンテンツをMarkdownに変換する
HTMLからテキストを抽出するLLM...
目次
Ollama モデルライブラリには、HTML コンテンツを Markdown に変換できるモデルが存在します。これはコンテンツ変換タスクに役立ちます。
HTML を Markdown に変換する
例えば、qwen2
に基づく reader-lm
モデルは、このタスクに特化して訓練されています。
ReaderLM-v2
私は次のバージョンのモデル reader-lm-v2
も試してみました。
ReaderLM-v2 は Qwen2.5-1.5B-Instruction 上に構築されています。
動作は確認済みですが、変換処理はやや遅いです。
500KB の HTML ページからテキストを抽出する必要があると想像してみてください。
100,000トークン、あるいは10,000トークンくらいあるかもしれません。
私は121KBのサンプルページを試しました。私のPCでの変換時間は約1秒です。
Ollama コマンドラインの呼び出し
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# ファイルの内容をプロンプトとして読み込む
PROMPT="指定されたHTMLから主なコンテンツを抽出し、Markdown形式に変換してください。\nhtml:\n $(cat "$INPUT_FILE")"
# Ollamaを呼び出して応答を保存
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollamaの応答は $OUTPUT_FILE に保存されました"