Konvertera Word-dokument till Markdown: En komplett guide
Använda pandoc, python eller onlineverktyg för konvertering till MD
Överföring av Word-dokument till Markdown-format är en mycket vanlig uppgift för tekniska skrivare, utvecklare och innehållsskapare som vill flytta sitt innehåll till plattformar med Markdown (som GitHub, GitLab, statiska webbplatsgenererare som Hugo).
Den här guiden täcker flera metoder och verktyg för att genomföra denna konvertering effektivt.

Varför konvertera Word till Markdown?
Markdown erbjuder flera fördelar jämfört med Word-dokument:
- Versionkontrollvänlig: Ren textformat fungerar bra med Git
- Plattformsoberoende: Läsbar på vilket system som helst utan specialprogram
- Framtidssäker: Enkelt textformat som inte kommer att bli föråldrat
- Webbklar: Lätt att konvertera till HTML för webbplatser och bloggar
- Lättviktigt: Mycket mindre filstorlekar
- Automatiseringsvänlig: Lätt att bearbeta programmatiskt
Vad Pandoc bevarar:
- Rubriker (konverteras till
#,##,###, etc.) - Fet och kursiv formatering
- Listor (punktlistor och numrerade)
- Länkar och referenser
- Tabeller (konverteras till Markdown-tabeller eller HTML)
- Kodblock och inline-kod
- Bilder (med
--extract-mediaalternativet) - Fotnoter
Metod 1: Använda Pandoc (Rekommenderas)
Pandoc är en universell dokumentkonverterare som utmärker sig vid konvertering mellan olika markupspråk. Det är det mest pålitliga verktyget för konvertering från Word till Markdown.
Installation av Pandoc
På Ubuntu/Debian:
sudo apt update
sudo apt install pandoc
På macOS:
# Användande av Homebrew
brew install pandoc
# Eller ladda ner från den officiella webbplatsen
# https://pandoc.org/installing.html
På Windows:
# Användande av Chocolatey
choco install pandoc
# Eller ladda ner installatören från:
# https://github.com/jgm/pandoc/releases
Verifiera installation:
pandoc --version
Konvertering med Pandoc
För DOCX-filer (moderna Word-format):
pandoc dokument.docx -o dokument.md
För äldre DOC-filer:
Pandoc kan inte direkt läsa .doc filer. Du måste först konvertera dem till .docx med LibreOffice:
# Konvertera först DOC till DOCX
libreoffice --headless --convert-to docx dokument.doc
# Konvertera sedan DOCX till Markdown
pandoc dokument.docx -o dokument.md
Avancerade Pandoc-alternativ:
# Konvertera med specifikt Markdown-variant
pandoc dokument.docx -t gfm -o dokument.md # GitHub Flavored Markdown
# Extrahera bilder till en mapp
pandoc dokument.docx --extract-media=./bilder -o dokument.md
# Bevara mer formatering
pandoc dokument.docx -t markdown+pipe_tables+raw_html -o dokument.md
# Konvertera med anpassad mall
pandoc dokument.docx --template=anpassad.mall -o dokument.md
Metod 2: Använda LibreOffice + Pandoc (För DOC-filer)
När du hanterar äldre .doc filer fungerar denna tvåstegsprocess bäst:
Installation av LibreOffice
På Ubuntu/Debian:
sudo apt update
sudo apt install libreoffice
På macOS:
brew install --cask libreoffice
På Windows: Ladda ner från LibreOffice webbplats
Konverteringsprocess:
# Steg 1: Konvertera DOC till DOCX
libreoffice --headless --convert-to docx dokument.doc
# Steg 2: Konvertera DOCX till Markdown med Pandoc
pandoc dokument.docx -o dokument.md
# Rensa mellanliggande fil (valfritt)
rm dokument.docx
Batchkonverteringsskript med pandoc:
Skapa ett skript för att konvertera flera filer:
#!/bin/bash
# convert-docs.sh
for file in *.doc; do
if [ -f "$file" ]; then
echo "Konverterar $file..."
# Konvertera DOC till DOCX
libreoffice --headless --convert-to docx "$file"
# Få filnamn utan filändelse
basename=$(basename "$file" .doc)
# Konvertera DOCX till Markdown
pandoc "${basename}.docx" -o "${basename}.md"
# Rensa mellanliggande DOCX-fil
rm "${basename}.docx"
echo "✓ Skapat ${basename}.md"
fi
done
Gör det exekverbart och kör:
chmod +x convert-docs.sh
./convert-docs.sh
Metod 3: Online-konverterare (Snabbt & enkelt)
För tillfälliga konverteringar kan onlineverktyg vara bekväma:
Populära online-konverterare:
- Pandoc Try: https://pandoc.org/try/
- Word till Markdown-konverterare: https://word2md.com/
- Dillinger: https://dillinger.io/ (har importfunktion)
Fördelar och nackdelar:
- Fördelar: Inget behov av installation, fungerar på vilket enhet som helst
- Nackdelar: Integritetskänslor, filstorleksbegränsningar, mindre kontroll över utgång
Metod 4: Använda Words inbyggda export (Begränsad)
Moderna versioner av Microsoft Word kan exportera till grundläggande Markdown:
- Öppna ditt dokument i Word
- Gå till Fil → Exportera → Ändra filtyp
- Välj Webbsida, filtrerad (*.html)
- Använd en HTML till Markdown-konverterare som Pandoc:
pandoc dokument.html -o dokument.md
Anmärkning: Den här metoden producerar ofta underlägsen kvalitet jämfört med direkt DOCX-konvertering.
Metod 5: Programmeringslösningar
Python med python-docx och markdownify:
#!/usr/bin/env python3
import sys
from docx import Document
from markdownify import markdownify
def docx_to_markdown(docx_path, md_path):
# Läs docx-filen
doc = Document(docx_path)
# Extrahera text (grundläggande konvertering)
full_text = []
for paragraph in doc.paragraphs:
full_text.append(paragraph.text)
# Konvertera till markdown (grundläggande)
markdown_content = '\n\n'.join(full_text)
# Skriv till fil
with open(md_path, 'w', encoding='utf-8') as f:
f.write(markdown_content)
if __name__ == "__main__":
if len(sys.argv) != 3:
print("Användning: python docx_to_md.py input.docx output.md")
sys.exit(1)
docx_to_markdown(sys.argv[1], sys.argv[2])
print(f"Konverterade {sys.argv[1]} till {sys.argv[2]}")
Installera beroenden:
pip install python-docx markdownify
Anmärkning: Detta är en grundläggande implementation. Pandoc kommer att producera bättre resultat för komplexa dokument.
Hantering av vanliga problem
1. Komplexa tabeller
# Använd pipe-tabeller för bättre kompatibilitet
pandoc dokument.docx -t markdown+pipe_tables -o dokument.md
2. Bilder konverteras inte
# Extrahera bilder till en separat mapp
pandoc dokument.docx --extract-media=./bilder -o dokument.md
3. Formateringsförlust
# Bevara mer HTML för komplex formatering
pandoc dokument.docx -t markdown+raw_html -o dokument.md
4. Teckenkodningsproblem
# Ange UTF-8-kodning
pandoc dokument.docx -t markdown -o dokument.md --from=docx --to=markdown
Bästa praxis
1. Förberedelse före konvertering
- Rensa ditt Word-dokument innan konvertering
- Använd konsekventa rubrikstilar (Rubrik 1, Rubrik 2, etc.)
- Undvik komplex formatering som inte översätts väl till Markdown
- Använd Words inbyggda listformatering istället för manuella punkter
2. Rensning efter konvertering
- Granska utgången för formateringsproblem
- Korrigera tabellformatering vid behov
- Justera bildvägar och alt-text
- Rensa extra radbrytningar eller avståndsproblem
3. Automatiseringstips
# Skapa en alias för vanlig konvertering
echo 'alias doc2md="pandoc --from=docx --to=markdown"' >> ~/.bashrc
# Funktion för batchkonvertering
doc2md_batch() {
for file in *.docx; do
pandoc "$file" -o "${file%.docx}.md"
done
}
Jämförelse av metoder
| Metod | Fördelar | Nackdelar | Bäst för |
|---|---|---|---|
| Pandoc | Utmärkt kvalitet, många alternativ | Kräver installation | Reguljära konverteringar, komplexa dokument |
| LibreOffice + Pandoc | Hanterar DOC-filer | Tvåstegsprocess | Äldre DOC-filer |
| Online-konverterare | Inget behov av installation | Integritet, begränsade funktioner | Snabba enstaka konverteringar |
| Words export | Inbyggt | Dålig kvalitet på utgång | Enkla dokument endast |
| Programmering | Anpassningsbar | Kräver kodning | Automatiserade flöden |
Liten sammanfattning
För de flesta användare är Pandoc det rekommenderade alternativet för att konvertera Word-dokument till Markdown. Det erbjuder den bästa balansen mellan kvalitet, funktioner och pålitlighet. För äldre .doc filer fungerar kombinationen LibreOffice + Pandoc utmärkt.
Nyckeln till framgångsrik konvertering är:
- Förbered ditt Word-dokument med konsekvent formatering
- Välj rätt verktyg för dina specifika behov
- Granska och rensa utgången
- Automatisera processen om du gör regelbundna konverteringar
Med dessa verktyg och tekniker kan du effektivt konvertera dina Word-dokument till Markdown-format samtidigt som du bevarar mesta delen av den ursprungliga formateringen och strukturen.
Snabbreferenskommandon
# Grundläggande konvertering (DOCX till Markdown)
pandoc dokument.docx -o dokument.md
# DOC till Markdown (två steg)
libreoffice --headless --convert-to docx dokument.doc
pandoc dokument.docx -o dokument.md
# GitHub Flavored Markdown
pandoc dokument.docx -t gfm -o dokument.md
# Extrahera bilder
pandoc dokument.docx --extract-media=./bilder -o dokument.md
# Batchkonvertera alla DOCX-filer
for file in *.docx; do pandoc "$file" -o "${file%.docx}.md"; done