استخراج الصور من ملفات الـ PDF
عندما تحتاج إلى استخراج صورة من ملف PDF
في بعض الأحيان، هناك حاجة حقيقية لحفظ صورة من ملف PDF دون الحاجة إلى التقاط لقطات شاشة أو عرض ملف PDF على الشاشة.
يقدم pdfimages
حلًا لهذه المشكلة.
للحصول على صور من ملف PDF في Linux، فإن الأداة الأكثر شيوعًا وفعالية هي الأداة من سطر الأوامر pdfimages،
وهي جزء من حزمة poppler-utils
.
استخدام أداة pdfimages
في Linux: تعليمات خطوة بخطوة
1. تثبيت pdfimages
(إذا لم يكن مثبتًا بالفعل):
تتضمن معظم توزيعات Linux أداة pdfimages
بشكل افتراضي. إذا لم تكن مثبتة، قم بتثبيتها باستخدام مدير الحزم الخاص بك:
sudo apt-get install poppler-utils
أو لمستخدمي Fedora:
sudo dnf install poppler-utils
2. فتح نافذة الطرفية:
اضغط على Ctrl + Alt + T
لفتح نافذة الطرفية.
3. تشغيل pdfimages
لاستخراج الصور:
البنية الأساسية:
pdfimages
مثال:
pdfimages /path/to/file.pdf /path/to/output/image
- سيقوم هذا بسحب جميع الصور من ملف
file.pdf
وحفظها كـimage-000.ppm
،image-001.ppm
، إلخ، في الدليل المحدد.
4. استخراج الصور بصيغة JPEG (إذا أردت):
للحصول على الصور بصيغة JPEG (عندما يكون ذلك ممكنًا)، استخدم الخيار -j
:
pdfimages -j /path/to/file.pdf /path/to/output/image
- سيقوم هذا بحفظ الصور بصيغة
.jpg
.
5. استخراج الصور من صفحات معينة:
- لاستخراج الصور من نطاق معين من الصفحات، استخدم
-f
(الصفحة الأولى) و-l
(الصفحة الأخيرة):
pdfimages -f 2 -l 5 -j /path/to/file.pdf /path/to/output/image
- هذا يستخرج الصور من الصفحات 2 إلى 5.
6. خيارات إضافية:
- لاستخراج الصور بصيغة PNG: استخدم
-png
(إذا دعمتها نسختك). - لمستندات PDF المحمية بكلمة مرور، استخدم
-opw 'ownerpassword'
أو-upw 'userpassword'
.
ملاحظات
- الصيغة الافتراضية للإخراج هي PPM (اللون) أو PBM (أسود وأبيض). استخدم
-j
للحصول على JPEG، أو قم بتحويل ملفات PPM/PBM إلى صيغ أخرى باستخدام أدوات مثلconvert
من ImageMagick إذا لزم الأمر. - يتم ترقيم الملفات تلقائيًا وتُحفظ في الدليل المحدد.
جدول ملخص
مثال الأمر | الوصف |
---|---|
pdfimages input.pdf image |
يستخرج جميع الصور بصيغة الافتراضية PPM/PBM |
pdfimages -j input.pdf image |
يستخرج الصور بصيغة JPEG عندما يكون ذلك ممكنًا |
pdfimages -f 3 -l 5 input.pdf image |
يستخرج الصور من الصفحات 3 إلى 5 |
pdfimages -opw 'password' -j input.pdf image |
يستخرج الصور من ملف PDF محمي بكلمة مرور مالكة |
هذا الأسلوب فعّال ويُعمل مع معظم الملفات PDF التي تحتوي على صور مدمجة. ولكن:
pdfimages
يستخرج الصور فقط بجودتها الأصلية.- لضبط جودة الإخراج، استخدم أداة معالجة PDF مثل PyMuPDF وحدد الدقة المطلوبة عند إنشاء الصورة.
كيفية حفظ الصور من ملف PDF بجودة معينة.
لا يمكنك تحديد دقة الصور المستخرجة عند استخدام pdfimages
، لأن هذه الأداة تستخرج الصور المدمجة بصيغتها الأصلية ودقتها دون إعادة تampling أو تعديل الجودة. تُحدد الدقة بناءً على كيفية تخزين الصور في ملف PDF، ولا تقدم pdfimages
خيارًا لزيادة أو تقليل الدقة أثناء الاستخراج.
إذا أردت استخراج الصور بجودة معينة (على سبيل المثال، إنشاء صورة لصفحة أو جزء من الصفحة بجودة محددة)، فعليك استخدام مكتبة معالجة PDF أو أداة مثل PyMuPDF (fitz
). مع PyMuPDF، يمكنك تحديد الدقة المطلوبة باستخدام معلمة dpi
عند إنشاء الصورة من الصفحة:
import fitz # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0) # الصفحة الأولى
pix = page.get_pixmap(dpi=300) # إنشاء صورة بـ 300 DPI
pix.save("output.png")
هذا النهج ينشئ صورة رسترية للصفحة بـ DPI المحدد، بدلًا من استخراج الصور المدمجة الأصلية.
أدوات أخرى لاستخراج الصور من ملفات PDF
أفضل البرامج لاستخراج الصور من ملفات PDF دون فقدان الجودة هي تلك التي تستخرج الصور المدمجة الأصلية مباشرة، بدلًا من عرضها أو إعادة تamplingها. الخيارات الأفضل تشمل:
-
Adobe Acrobat Pro: يوفر ميزة مخصصة “التصدير الكامل للصور”، والتي تستخرج الصور بصيغتها الأصلية والجودة كملفات منفصلة. هذا الأسلوب موثوق جدًا ويحافظ على الدقة والجودة الدقيقة للصور كما تم تخزينها في ملف PDF.
-
pdfimages (من حزمة XPDF/Poppler): أداة مجانية ومفتوحة المصدر من سطر الأوامر متاحة على Linux وغيرها من المنصات.
pdfimages
تستخرج جميع الصور من ملف PDF بصيغتها الأصلية ودقتها، بما في ذلك الدعم لـ JPEG، JPEG2000، وغيرها من الصيغ. تُنصح على نطاق واسع للمستخدمين الذين يبحثون عن عملية استخراج عالية الجودة دون تكلفة. -
أدوات عبر الإنترنت (مثل PDF24 Tools، PDFCandy، pdfforge): هذه الخدمات تسمح لك بتحميل ملف PDF وتنزيل الصور المستخرجة، مع الحفاظ على الدقة الأصلية. إنها مريحة لمهام سريعة ولا تتطلب تثبيت، لكنها قد تثير مخاوف بشأن الخصوصية لمستندات حساسة.
جدول ملخص
البرنامج/الأداة | المنصة | الحفاظ على الدقة الأصلية | ملاحظات |
---|---|---|---|
Adobe Acrobat Pro | Windows/Mac | نعم | مدفوع، احترافي، موثوق جدًا |
pdfimages (Poppler) | Linux/Windows | نعم | مجاني، مفتوح المصدر، أداة من سطر الأوامر |
PDF24 Tools، PDFCandy | عبر الإنترنت | نعم | مجاني، سهل الاستخدام، مخاوف الخصوصية |
نقطة رئيسية:
استخدم دائمًا أدوات تُستخرج (بدلاً من عرض أو التقاط لقطات شاشة) الصور. كل من Adobe Acrobat Pro وpdfimages
هي معايير صناعية لهذا الغرض، مما يضمن حفظ الصور تمامًا كما هي في ملف PDF، دون أي فقدان في الدقة.
خيارات سطر الأوامر لـ pdfutils
عند تنفيذ pdfimages /help
سيقوم بطباعة شيء مثل:
$ pdfimages /help
pdfimages version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
-f <int> : first page to convert
-l <int> : last page to convert
-png : change the default output format to PNG
-tiff : change the default output format to TIFF
-j : write JPEG images as JPEG files
-jp2 : write JPEG2000 images as JP2 files
-jbig2 : write JBIG2 images as JBIG2 files
-ccitt : write CCITT images as CCITT files
-all : equivalent to -png -tiff -j -jp2 -jbig2 -ccitt
-list : print list of images instead of saving
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-p : include page numbers in output file names
-q : don't print any messages or errors
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information