Konversi konten HTML ke Markdown menggunakan LLM dan Ollama
LLM untuk mengekstrak teks dari HTML...
Konten Halaman
Dalam perpustakaan model Ollama terdapat model yang mampu mengubah konten HTML menjadi Markdown, yang berguna untuk tugas konversi konten.
Sebagai contoh, model reader-lm
yang berbasis pada qwen2
, dilatih untuk melakukan hal ini.
ReaderLM-v2
Saya telah mencoba versi model berikutnya - reader-lm-v2
.
ReaderLM-v2 dibangun berdasarkan Qwen2.5-1.5B-Instruction.
Saya dapat memastikan: itu berfungsi, tetapi konversinya sedikit lambat…
Bayangkan halaman HTML 500KB yang perlu Anda konversi untuk mengekstrak teks? Mungkin terdapat 100.000 token? atau bahkan 10.000 token.
Saya mengambil contoh halaman sebesar 121KB dan waktu konversi di PC saya adalah: ~1 detik.
Memanggil Perintah Baris Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Baca konten file sebagai prompt
PROMPT="Ekstrak konten utama dari HTML yang diberikan dan konversi ke format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Panggil Ollama dan simpan respons
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Respons Ollama disimpan ke $OUTPUT_FILE"
Tautan yang Berguna
- Bagaimana Ollama Menggunakan Kinerja dan Core Efisien Intel CPU
- Bagaimana Ollama Mengelola Permintaan Paralel
- Pemasok LLM Cloud
- Kartu cepat Ollama
- Pindahkan Model Ollama ke Drive atau Folder Berbeda
- Alternatif Beautiful Soup untuk Go
- Pemeringkatan ulang dokumen teks dengan Ollama dan Model Qwen3 Embedding - dalam Go