ワードドキュメントをマーカードownに変換する:完全ガイド
pandoc、python、またはオンラインツールを使用してMDへの変換を行います。
WordドキュメントをMarkdown形式に変換することは、技術ライター、開発者、コンテンツクリエイターにとって非常に一般的なタスクです。彼らはMarkdownをサポートするプラットフォーム(GitHub、GitLab、静的サイトジェネレーターであるHugoなど)にコンテンツを移行したい場合に、この作業を行います。本ガイドは、私たちの2026年のドキュメンテーションツール: Markdown、LaTeX、PDFおよび印刷ワークフローハブの一部です。
本ガイドでは、この変換を効果的に行うための複数のアプローチとツールをカバーします。

なぜWordをMarkdownに変換するのか?
Markdownは、Wordドキュメントよりもいくつかの利点があります:
- バージョン管理に適している:テキスト形式はGitとよく一緒に動作します
- プラットフォームに依存しない:特別なソフトウェアなしでどのシステムでも読み取れます
- 将来性がある:シンプルなテキスト形式であり、古くなることはありません
- ウェブに適している:ウェブサイトやブログにHTMLに簡単に変換できます
- 軽量:ファイルサイズがはるかに小さくなります
- 自動化に適している:プログラムで簡単に処理できます
Pandocが保持するもの:
- 見出し(
#、##、###などに変換) - 太字と斜体のフォーマット
- リスト(箇条書きと番号付き)
- リンクおよび参照
- テーブル(MarkdownテーブルまたはHTMLに変換)
- コードブロックおよびインラインコード
- 画像(
--extract-mediaオプションを使用) - 脚注
方法1: Pandocを使用する(推奨)
Pandocは、さまざまなマークアップ形式間で変換を行う万能なドキュメントコンバーターです。WordからMarkdownへの変換において最も信頼性の高いツールです。
Pandocのインストール
Ubuntu/Debianで:
sudo apt update
sudo apt install pandoc
macOSで:
# Homebrewを使用
brew install pandoc
# または公式サイトからダウンロード
# https://pandoc.org/installing.html
Windowsで:
# Chocolateyを使用
choco install pandoc
# または以下からインストーラーをダウンロード:
# https://github.com/jgm/pandoc/releases
インストールの確認:
pandoc --version
Pandocでの変換
DOCXファイル(現代的なWord形式)の場合:
pandoc document.docx -o document.md
古いDOCファイルの場合:
Pandocは.docファイルを直接読み取ることはできません。まずLibreOfficeを使って.docxに変換する必要があります:
# まずDOCをDOCXに変換
libreoffice --headless --convert-to docx document.doc
# 次にDOCXをMarkdownに変換
pandoc document.docx -o document.md
Pandocの高度なオプション:
# 特定のMarkdownバリアントで変換
pandoc document.docx -t gfm -o document.md # GitHub Flavored Markdown
# 画像をフォルダーに抽出
pandoc document.docx --extract-media=./images -o document.md
# より多くのフォーマットを保持
pandoc document.docx -t markdown+pipe_tables+raw_html -o document.md
# カスタムテンプレートで変換
pandoc document.docx --template=custom.template -o document.md
方法2: LibreOffice + Pandocを使用する(DOCファイル用)
古い.docファイルを処理する場合、この二段階のプロセスが最適です:
LibreOfficeのインストール
Ubuntu/Debianで:
sudo apt update
sudo apt install libreoffice
macOSで:
brew install --cask libreoffice
Windowsで: LibreOffice公式サイトからダウンロード
変換プロセス:
# ステップ1: DOCをDOCXに変換
libreoffice --headless --convert-to docx document.doc
# ステップ2: DOCXをPandocでMarkdownに変換
pandoc document.docx -o document.md
# 中間ファイルのクリーンアップ(オプション)
rm document.docx
Pandocを使用したバッチ変換スクリプト:
複数のファイルを変換するスクリプトを作成します:
#!/bin/bash
# convert-docs.sh
for file in *.doc; do
if [ -f "$file" ]; then
echo "変換中: $file..."
# DOCをDOCXに変換
libreoffice --headless --convert-to docx "$file"
# 拡張子なしのファイル名を取得
basename=$(basename "$file" .doc)
# DOCXをMarkdownに変換
pandoc "${basename}.docx" -o "${basename}.md"
# 中間のDOCXファイルを削除
rm "${basename}.docx"
echo "✓ ${basename}.mdが作成されました"
fi
done
実行可能にして実行:
chmod +x convert-docs.sh
./convert-docs.sh
方法3: オンラインコンバーターを使用する(簡単で迅速)
たまに変換が必要な場合は、オンラインツールが便利です:
人気のあるオンラインコンバーター:
- Pandoc Try: https://pandoc.org/try/
- Word to Markdown Converter: https://word2md.com/
- Dillinger: https://dillinger.io/(インポート機能あり)
利点と欠点:
- 利点: インストール不要、どのデバイスでも動作
- 欠点: プライバシーの懸念、ファイルサイズの制限、出力のコントロールが少ない
方法4: Wordの組み込みエクスポート機能を使用する(制限あり)
現代のMicrosoft Wordでは、基本的なMarkdownにエクスポートできます:
- Wordでドキュメントを開く
- ファイル → エクスポート → ファイル形式の変更
- Webページ、フィルタ済み (*.html) を選択
- PandocなどのHTMLからMarkdownコンバーターを使用します:
pandoc document.html -o document.md
注意: この方法は、DOCX直接変換と比べて結果が劣る傾向があります。
方法5: プログラミングによるソリューション
Python と python-docx および markdownify を使用する:
#!/usr/bin/env python3
import sys
from docx import Document
from markdownify import markdownify
def docx_to_markdown(docx_path, md_path):
# DOCXファイルを読み取る
doc = Document(docx_path)
# テキストの抽出(基本的な変換)
full_text = []
for paragraph in doc.paragraphs:
full_text.append(paragraph.text)
# Markdownへの変換(基本)
markdown_content = '\n\n'.join(full_text)
# ファイルに書き込む
with open(md_path, 'w', encoding='utf-8') as f:
f.write(markdown_content)
if __name__ == "__main__":
if len(sys.argv) != 3:
print("使用法: python docx_to_md.py input.docx output.md")
sys.exit(1)
docx_to_markdown(sys.argv[1], sys.argv[2])
print(f"{sys.argv[1]}を{sys.argv[2]}に変換しました")
依存関係のインストール:
pip install python-docx markdownify
注意: これは基本的な実装です。Pandocは複雑なドキュメントに対してより良い結果を提供します。
一般的な問題の処理
1. 複雑なテーブル
# パイプテーブル形式を使用して互換性を向上
pandoc document.docx -t markdown+pipe_tables -o document.md
2. 画像が変換されない
# 画像を別のフォルダーに抽出
pandoc document.docx --extract-media=./images -o document.md
3. フォーマットの損失
# 複雑なフォーマットのためにHTMLを保持
pandoc document.docx -t markdown+raw_html -o document.md
4. 文字エンコーディングの問題
# UTF-8エンコーディングを指定
pandoc document.docx -t markdown -o document.md --from=docx --to=markdown
ベストプラクティス
1. 変換前の準備
- 変換前にWordドキュメントを整理してください
- 一貫した見出しスタイル(見出し1、見出し2など)を使用してください
- Markdownにうまく変換されない複雑なフォーマットは避けてください
- マニュアルな箇条書きではなく、Wordの組み込みリストフォーマットを使用してください
2. 変換後のクリーンアップ
- 出力のフォーマット問題を確認してください
- 必要に応じてテーブルのフォーマットを修正してください
- 画像のパスと代替テキストを調整してください
- 余分な改行やスペースの問題を修正してください
3. 自動化のヒント
# 一般的な変換用にエイリアスを作成
echo 'alias doc2md="pandoc --from=docx --to=markdown"' >> ~/.bashrc
# バッチ変換用の関数
doc2md_batch() {
for file in *.docx; do
pandoc "$file" -o "${file%.docx}.md"
done
}
方法の比較
| 方法 | 利点 | 欠点 | 最適な用途 |
|---|---|---|---|
| Pandoc | 良好な品質、多くのオプション | インストールが必要 | 定期的な変換、複雑なドキュメント |
| LibreOffice + Pandoc | DOCファイルを処理 | 二段階のプロセス | 旧式のDOCファイル |
| オンラインコンバーター | インストール不要 | プライバシー、機能制限 | 一時的な変換 |
| Wordエクスポート | 組み込み | 出力品質が劣る | 簡単なドキュメントのみ |
| プログラミング | カスタマイズ可能 | コーディングが必要 | 自動化ワークフロー |
小さな要約
ほとんどのユーザーにとって、PandocはWordドキュメントをMarkdownに変換するための推奨されるソリューションです。品質、機能、信頼性のバランスが最適です。旧式の.docファイルには、LibreOffice + Pandocの組み合わせが非常に優れています。
変換に成功するための鍵は次の通りです:
- 一貫したフォーマットでWordドキュメントを準備する
- 特定のニーズに合った適切なツールを選ぶ
- 出力を確認し、クリーンアップする
- 定期的な変換が必要な場合は、プロセスを自動化する
これらのツールと技術を使用することで、元のフォーマットと構造の大部分を保持しながら、Wordドキュメントを効率的にMarkdown形式に変換できます。
クイックリファレンスコマンド
# 基本的な変換(DOCXからMarkdown)
pandoc document.docx -o document.md
# DOCからMarkdownへの変換(二段階)
libreoffice --headless --convert-to docx document.doc
pandoc document.docx -o document.md
# GitHub Flavored Markdown
pandoc document.docx -t gfm -o document.md
# 画像の抽出
pandoc document.docx --extract-media=./images -o document.md
# すべてのDOCXファイルをバッチ変換
for file in *.docx; do pandoc "$file" -o "${file%.docx}.md"; done