Worddocumenten naar Markdown converteren: een compleet gids
Het gebruik van pandoc, python of online tools voor conversie naar MD ````
Worddocumenten naar Markdown-formaat converteren is een zeer veelvoorkomende taak voor technische schrijvers, ontwikkelaars en contentcreators die hun inhoud willen overbrengen naar platforms die Markdown gebruiken (zoals GitHub, GitLab, statische sitegenerators zoals Hugo).
Deze gids bespreekt meerdere aanpakken en tools om deze conversie effectief uit te voeren.
Waarom Worddocumenten naar Markdown converteren?
Markdown biedt verschillende voordelen ten opzichte van Worddocumenten:
- Vriendelijk voor versiebeheer: Tekstformaat werkt goed met Git
- Platformonafhankelijk: Leesbaar op elk systeem zonder speciale software
- Toekomstbestendig: Eenvoudig tekstformaat dat niet verouderd raakt
- Webgereed: Eenvoudig om te converteren naar HTML voor websites en blogs
- Lichtgewicht: Veel kleinere bestandsgrootte
- Automatisering vriendelijk: Eenvoudig om programmatisch te verwerken
Wat Pandoc behoudt:
- Koppen (geconverteerd naar
#
,##
,###
, enz.) - Vet en cursief opmaak
- Lijsten (ongenummerde en genummerde)
- Links en verwijzingen
- Tabellen (geconverteerd naar Markdown-tabellen of HTML)
- Codeblokken en inline code
- Afbeeldingen (met
--extract-media
optie) - Voetnoten
Methode 1: Gebruik Pandoc (Aanbevolen)
Pandoc is een universele documentconverter die uitstekend is in het converteren tussen verschillende markupformaten. Het is de meest betrouwbare tool voor het converteren van Worddocumenten naar Markdown.
Installeren van Pandoc
Op Ubuntu/Debian:
sudo apt update
sudo apt install pandoc
Op macOS:
# Gebruik Homebrew
brew install pandoc
# Of download van de officiële website
# https://pandoc.org/installing.html
Op Windows:
# Gebruik Chocolatey
choco install pandoc
# Of download de installer van:
# https://github.com/jgm/pandoc/releases
Installatie controleren:
pandoc --version
Converteren met Pandoc
Voor DOCX-bestanden (moderne Wordformaat):
pandoc document.docx -o document.md
Voor oudere DOC-bestanden:
Pandoc kan .doc
-bestanden niet direct lezen. Je moet ze eerst converteren naar .docx
met LibreOffice:
# Eerst DOC naar DOCX converteren
libreoffice --headless --convert-to docx document.doc
# Dan DOCX naar Markdown converteren
pandoc document.docx -o document.md
Geavanceerde Pandoc-opties:
# Converteren met specifieke Markdown-variant
pandoc document.docx -t gfm -o document.md # GitHub Flavored Markdown
# Afbeeldingen extraheren naar een map
pandoc document.docx --extract-media=./images -o document.md
# Meer opmaak behouden
pandoc document.docx -t markdown+pipe_tables+raw_html -o document.md
# Converteren met aangepast sjabloon
pandoc document.docx --template=custom.template -o document.md
Methode 2: Gebruik LibreOffice + Pandoc (Voor DOC-bestanden)
Bij het werken met oudere .doc
-bestanden werkt deze twee-stapsmethode het beste:
Installeren van LibreOffice
Op Ubuntu/Debian:
sudo apt update
sudo apt install libreoffice
Op macOS:
brew install --cask libreoffice
Op Windows: Download van LibreOffice website
Conversieproces:
# Stap 1: DOC naar DOCX converteren
libreoffice --headless --convert-to docx document.doc
# Stap 2: DOCX naar Markdown converteren met Pandoc
pandoc document.docx -o document.md
# Verwijder tussenliggend DOCX-bestand (optioneel)
rm document.docx
Batchconversie script met pandoc:
Maak een script om meerdere bestanden te converteren:
#!/bin/bash
# convert-docs.sh
for file in *.doc; do
if [ -f "$file" ]; then
echo "Converteer $file..."
# DOC naar DOCX converteren
libreoffice --headless --convert-to docx "$file"
# Bestandsnaam zonder extensie
basename=$(basename "$file" .doc)
# DOCX naar Markdown converteren
pandoc "${basename}.docx" -o "${basename}.md"
# Verwijder tussenliggend DOCX-bestand
rm "${basename}.docx"
echo "✓ Aangemaakt ${basename}.md"
fi
done
Maak het uitvoerbaar en voer uit:
chmod +x convert-docs.sh
./convert-docs.sh
Methode 3: Online converters (Snel en gemakkelijk)
Voor gelegenheden met zeldzame conversies kunnen online tools handig zijn:
Populaire online converters:
- Pandoc Try: https://pandoc.org/try/
- Word naar Markdown Converter: https://word2md.com/
- Dillinger: https://dillinger.io/ (heeft importfunctie)
Voordelen en nadelen:
- Voordelen: Geen installatie vereist, werkt op elk apparaat
- Nadelen: Privacyzorgen, bestandsgroottebeperkingen, minder controle over uitvoer
Methode 4: Gebruik van Word’s ingebouwde export (Beperkt)
Moderne versies van Microsoft Word kunnen exporteren naar basis Markdown:
- Open je document in Word
- Ga naar Bestand → Exporteren → Bestandsformaat wijzigen
- Selecteer Webpagina, gefilterd (*.html)
- Gebruik een HTML naar Markdown converter zoals Pandoc:
pandoc document.html -o document.md
Opmerking: Deze methode levert vaak minder goede resultaten op dan directe DOCX-conversie.
Methode 5: Programmeren oplossingen
Python met python-docx en markdownify:
#!/usr/bin/env python3
import sys
from docx import Document
from markdownify import markdownify
def docx_to_markdown(docx_path, md_path):
# Lees het docx-bestand
doc = Document(docx_path)
# Tekst extraheren (basisconversie)
full_text = []
for paragraph in doc.paragraphs:
full_text.append(paragraph.text)
# Converteren naar markdown (basis)
markdown_content = '\n\n'.join(full_text)
# Schrijf naar bestand
with open(md_path, 'w', encoding='utf-8') as f:
f.write(markdown_content)
if __name__ == "__main__":
if len(sys.argv) != 3:
print("Gebruik: python docx_to_md.py input.docx output.md")
sys.exit(1)
docx_to_markdown(sys.argv[1], sys.argv[2])
print(f"Geconverteerd {sys.argv[1]} naar {sys.argv[2]}")
Installeer afhankelijkheden:
pip install python-docx markdownify
Opmerking: Dit is een basisimplementatie. Pandoc levert betere resultaten voor complexe documenten.
Het omgaan met veelvoorkomende problemen
1. Complexe tabellen
# Gebruik pipe tables formaat voor betere compatibiliteit
pandoc document.docx -t markdown+pipe_tables -o document.md
2. Afbeeldingen die niet converteren
# Afbeeldingen extraheren naar een aparte map
pandoc document.docx --extract-media=./images -o document.md
3. Verlies van opmaak
# Meer HTML behouden voor complexe opmaak
pandoc document.docx -t markdown+raw_html -o document.md
4. Karakterscoderingsproblemen
# Specificeer UTF-8 codering
pandoc document.docx -t markdown -o document.md --from=docx --to=markdown
Beste praktijken
1. Voorbereiding voor conversie
- Reinig je Worddocument voor conversie
- Gebruik consistente kopstijlen (Kop 1, Kop 2, enz.)
- Vermijd complexe opmaak die niet goed overzet naar Markdown
- Gebruik de ingebouwde lijstopmaak van Word in plaats van handmatige bullets
2. Na-conversie opschonen
- Bekijk de uitvoer op opmaakproblemen
- Vervolg eventueel de tabelopmaak
- Aanpassen van afbeeldingspaden en alternatieve tekst
- Verwijder extra regelbreuken of spaties
3. Automatiseringstips
# Maak een alias voor veelgebruikte conversie
echo 'alias doc2md="pandoc --from=docx --to=markdown"' >> ~/.bashrc
# Functie voor batchconversie
doc2md_batch() {
for file in *.docx; do
pandoc "$file" -o "${file%.docx}.md"
done
}
Vergelijking van methoden
Methode | Voordelen | Nadelen | Beste voor |
---|---|---|---|
Pandoc | Uitstekende kwaliteit, veel opties | Installatie vereist | Regelmatige conversies, complexe documenten |
LibreOffice + Pandoc | Behandelt DOC-bestanden | Twee-stapsproces | Oude DOC-bestanden |
Online converters | Geen installatie vereist | Privacy, beperkte functies | Snel enkelvoudige conversies |
Word export | Ingebouwd | Slechte kwaliteit uitvoer | Eenvoudige documenten alleen |
Programmeren | Aanpasbaar | Vereist programmeren | Automatisering van workflows |
Korte samenvatting
Voor de meeste gebruikers is Pandoc de aanbevolen oplossing voor het converteren van Worddocumenten naar Markdown. Het biedt de beste balans tussen kwaliteit, functies en betrouwbaarheid. Voor oude .doc
-bestanden werkt de combinatie LibreOffice + Pandoc uitstekend.
De sleutel tot succesvolle conversie is:
- Voorbereiden van je Worddocument met consistente opmaak
- Kiezen van het juiste hulpmiddel voor jouw specifieke behoeften
- Bekijken en opschonen van de uitvoer
- Automatiseren van het proces als je regelmatig conversies doet
Met deze tools en technieken kun je efficiënt je Worddocumenten converteren naar Markdownformaat terwijl je de meeste oorspronkelijke opmaak en structuur behoudt.
Snel overzicht van opdrachten
# Basisconversie (DOCX naar Markdown)
pandoc document.docx -o document.md
# DOC naar Markdown (twee stappen)
libreoffice --headless --convert-to docx document.doc
pandoc document.docx -o document.md
# GitHub Flavored Markdown
pandoc document.docx -t gfm -o document.md
# Afbeeldingen extraheren
pandoc document.docx --extract-media=./images -o document.md
# Batch converteren van alle DOCX-bestanden
for file in *.docx; do pandoc "$file" -o "${file%.docx}.md"; done