Extraire des images à partir de PDF
Lorsque vous avez besoin d'extraire une image d'un fichier PDF
Parfois, il existe un besoin réel d’enregistrer une image d’un PDF sans prendre de capture d’écran ou sans afficher le PDF à l’écran.
pdfimages
permet de réaliser cela.
Pour extraire des images d’un fichier PDF sous Linux, l’outil le plus courant et le plus efficace est l’utilitaire en ligne de commande pdfimages,
qui fait partie du package poppler-utils
.
Utilisation de l’outil pdfimages
sous Linux : Instructions étape par étape
1. Installer pdfimages (si ce n’est pas déjà fait) :
La plupart des distributions Linux incluent pdfimages
par défaut. Si nécessaire, installez-le à l’aide de votre gestionnaire de paquets :
sudo apt-get install poppler-utils
ou pour Fedora :
sudo dnf install poppler-utils
2. Ouvrir un terminal :
Appuyez sur Ctrl + Alt + T
pour ouvrir une fenêtre de terminal.
3. Exécuter pdfimages pour extraire des images :
Syntaxe de base :
pdfimages
Exemple :
pdfimages /chemin/vers/fichier.pdf /chemin/vers/sortie/image
- Cela extraira toutes les images de
fichier.pdf
et les enregistrera sous forme deimage-000.ppm
,image-001.ppm
, etc., dans le répertoire de sortie spécifié.
4. Extraire des images au format JPEG (si souhaité) :
Pour extraire des images au format JPEG (quand cela est possible), utilisez l’option -j
:
pdfimages -j /chemin/vers/fichier.pdf /chemin/vers/sortie/image
- Cela enregistrera les images JPEG sous forme de fichiers
.jpg
.
5. Extraire des images de pages spécifiques :
- Pour extraire des images d’une plage de pages, utilisez
-f
(première page) et-l
(dernière page) :
pdfimages -f 2 -l 5 -j /chemin/vers/fichier.pdf /chemin/vers/sortie/image
- Cela extrait les images des pages 2 à 5.
6. Options supplémentaires :
- Pour extraire des images au format PNG : utilisez
-png
(si pris en charge par votre version). - Pour les PDF protégés par mot de passe, utilisez
-opw 'motdepassepropriétaire'
ou-upw 'motdepasseutilisateur'
.
Notes
- Le format de sortie par défaut est PPM (en couleur) ou PBM (en noir et blanc). Utilisez
-j
pour JPEG, ou convertissez les fichiers PPM/PBM en d’autres formats à l’aide d’outils commeconvert
d’ImageMagick si nécessaire. - Les fichiers de sortie sont automatiquement numérotés et enregistrés dans le répertoire spécifié.
Tableau récapitulatif
Exemple de commande | Description |
---|---|
pdfimages input.pdf image |
Extrait toutes les images au format PPM/PBM par défaut |
pdfimages -j input.pdf image |
Extrait les images au format JPEG quand cela est possible |
pdfimages -f 3 -l 5 input.pdf image |
Extrait les images des pages 3 à 5 |
pdfimages -opw 'motdepasse' -j input.pdf image |
Extrait les images d’un PDF protégé par un mot de passe propriétaire |
Cette méthode est efficace et fonctionne pour la plupart des PDF contenant des images intégrées. Cependant :
pdfimages
extrait les images à leur résolution d’origine uniquement.- Pour contrôler la résolution de sortie, utilisez une bibliothèque de rendu PDF comme PyMuPDF et spécifiez la valeur DPI souhaitée lors de la création de l’image.
Comment sauvegarder des images d’un PDF avec une résolution spécifique.
Vous ne pouvez pas spécifier la résolution des images extraites lors de l’utilisation de pdfimages
, car cet outil extrait les images intégrées telles quelles, sans redimensionnement ni altération de la qualité. La résolution est déterminée par la manière dont les images ont été stockées dans le PDF, et pdfimages
ne propose pas d’option pour agrandir ou réduire la résolution lors de l’extraction.
Si vous souhaitez extraire des images à une résolution spécifique (par exemple, rendre une page ou une partie d’une page en image à une résolution choisie en DPI), vous devrez utiliser une bibliothèque de rendu PDF ou un outil comme PyMuPDF (fitz
). Avec PyMuPDF, vous pouvez spécifier la résolution souhaitée à l’aide du paramètre dpi
lors du rendu d’une page en image :
import fitz # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0) # première page
pix = page.get_pixmap(dpi=300) # rendu à 300 DPI
pix.save("output.png")
Cette approche crée une image rasterisée de la page à la résolution spécifiée, plutôt qu’extraire les images intégrées telles quelles.
Autres outils pour extraire des images de PDF
Le meilleur logiciel pour extraire des images de PDF sans perdre de résolution sont ceux qui extraient les images intégrées d’origine directement, plutôt que de les rendre ou de les redimensionner. Les meilleures options incluent :
-
Adobe Acrobat Pro : Propose une fonction dédiée « Exporter toutes les images », qui extrait les images dans leur qualité et format d’origine en tant que fichiers autonomes. Cette méthode est très fiable et préserve exactement la résolution et la qualité des images telles qu’elles sont stockées dans le PDF.
-
pdfimages (du [XPDF/Poppler suite(https://www.glukhov.org/fr/post/2025/04/ubuntu-poppler/ “Outils de manipulation de PDF sous Ubuntu - Poppler”)) : Un outil gratuit, open source, en ligne de commande disponible sur Linux et d’autres plateformes.
pdfimages
extrait toutes les images d’un PDF dans leur format et résolution d’origine, y compris le support pour JPEG, JPEG2000 et d’autres formats. Il est largement recommandé pour les utilisateurs souhaitant un processus d’extraction sans coût, de haute fidélité. -
Outils en ligne (par exemple, PDF24 Tools, PDFCandy, pdfforge) : Ces services permettent de télécharger un PDF et de télécharger les images extraites, tout en maintenant la résolution d’origine. Ils sont pratiques pour des tâches rapides et n’exigent pas d’installation, mais peuvent soulever des préoccupations de confidentialité pour les documents sensibles.
Tableau récapitulatif
Logiciel/outil | Plateforme | Maintient la résolution d’origine | Notes |
---|---|---|---|
Adobe Acrobat Pro | Windows/Mac | Oui | Payant, professionnel, très fiable |
pdfimages (Poppler) | Linux/Windows | Oui | Gratuit, open source, utilitaire en ligne de commande |
PDF24 Tools, PDFCandy | Web-based | Oui | Gratuit, facile à utiliser, préoccupations de confidentialité |
Point clé :
Utilisez toujours des outils qui extraient (et non rendent ou prennent des captures d’écran) des images. À la fois Adobe Acrobat Pro et pdfimages
sont des normes de l’industrie à cet égard, assurant que les images sont enregistrées exactement telles qu’elles existent dans le PDF, sans perte de résolution.
Options de ligne de commande de pdfutils
Lors de l’exécution de pdfimages /help
cela affichera quelque chose comme :
$ pdfimages /help
pdfimages version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Utilisation : pdfimages [options] <PDF-fichier> <racine-image>
-f <int> : première page à convertir
-l <int> : dernière page à convertir
-png : changer le format de sortie par défaut en PNG
-tiff : changer le format de sortie par défaut en TIFF
-j : écrire les images JPEG en tant que fichiers JPEG
-jp2 : écrire les images JPEG2000 en tant que fichiers JP2
-jbig2 : écrire les images JBIG2 en tant que fichiers JBIG2
-ccitt : écrire les images CCITT en tant que fichiers CCITT
-all : équivalent à -png -tiff -j -jp2 -jbig2 -ccitt
-list : imprimer la liste des images au lieu de les sauvegarder
-opw <string> : mot de passe propriétaire (pour les fichiers chiffrés)
-upw <string> : mot de passe utilisateur (pour les fichiers chiffrés)
-p : inclure les numéros de page dans les noms des fichiers de sortie
-q : ne pas afficher aucun message ou erreur
-v : afficher les informations de copyright et de version
-h : afficher les informations d'utilisation
-help : afficher les informations d'utilisation
--help : afficher les informations d'utilisation
-? : afficher les informations d'utilisation