Extraire des images à partir de PDF

Lorsque vous avez besoin d'extraire une image d'un fichier PDF

Sommaire

Parfois, il existe un besoin réel d’enregistrer une image d’un PDF sans prendre de capture d’écran ou sans afficher le PDF à l’écran.
pdfimages permet de réaliser cela.

Une image de bande dessinée d’un homme qui prend une photo du diagramme à l’écran

Pour extraire des images d’un fichier PDF sous Linux, l’outil le plus courant et le plus efficace est l’utilitaire en ligne de commande pdfimages,
qui fait partie du package poppler-utils.

Utilisation de l’outil pdfimages sous Linux : Instructions étape par étape

1. Installer pdfimages (si ce n’est pas déjà fait) :

La plupart des distributions Linux incluent pdfimages par défaut. Si nécessaire, installez-le à l’aide de votre gestionnaire de paquets :

sudo apt-get install poppler-utils

ou pour Fedora :

sudo dnf install poppler-utils

2. Ouvrir un terminal :

Appuyez sur Ctrl + Alt + T pour ouvrir une fenêtre de terminal.

3. Exécuter pdfimages pour extraire des images :

Syntaxe de base :

pdfimages  

Exemple :

pdfimages /chemin/vers/fichier.pdf /chemin/vers/sortie/image
  • Cela extraira toutes les images de fichier.pdf et les enregistrera sous forme de image-000.ppm, image-001.ppm, etc., dans le répertoire de sortie spécifié.

4. Extraire des images au format JPEG (si souhaité) :

Pour extraire des images au format JPEG (quand cela est possible), utilisez l’option -j :

pdfimages -j /chemin/vers/fichier.pdf /chemin/vers/sortie/image
  • Cela enregistrera les images JPEG sous forme de fichiers .jpg.

5. Extraire des images de pages spécifiques :

  • Pour extraire des images d’une plage de pages, utilisez -f (première page) et -l (dernière page) :
pdfimages -f 2 -l 5 -j /chemin/vers/fichier.pdf /chemin/vers/sortie/image
  • Cela extrait les images des pages 2 à 5.

6. Options supplémentaires :

  • Pour extraire des images au format PNG : utilisez -png (si pris en charge par votre version).
  • Pour les PDF protégés par mot de passe, utilisez -opw 'motdepassepropriétaire' ou -upw 'motdepasseutilisateur'.

Notes

  • Le format de sortie par défaut est PPM (en couleur) ou PBM (en noir et blanc). Utilisez -j pour JPEG, ou convertissez les fichiers PPM/PBM en d’autres formats à l’aide d’outils comme convert d’ImageMagick si nécessaire.
  • Les fichiers de sortie sont automatiquement numérotés et enregistrés dans le répertoire spécifié.

Tableau récapitulatif

Exemple de commande Description
pdfimages input.pdf image Extrait toutes les images au format PPM/PBM par défaut
pdfimages -j input.pdf image Extrait les images au format JPEG quand cela est possible
pdfimages -f 3 -l 5 input.pdf image Extrait les images des pages 3 à 5
pdfimages -opw 'motdepasse' -j input.pdf image Extrait les images d’un PDF protégé par un mot de passe propriétaire

Cette méthode est efficace et fonctionne pour la plupart des PDF contenant des images intégrées. Cependant :

  • pdfimages extrait les images à leur résolution d’origine uniquement.
  • Pour contrôler la résolution de sortie, utilisez une bibliothèque de rendu PDF comme PyMuPDF et spécifiez la valeur DPI souhaitée lors de la création de l’image.

Comment sauvegarder des images d’un PDF avec une résolution spécifique.

Vous ne pouvez pas spécifier la résolution des images extraites lors de l’utilisation de pdfimages, car cet outil extrait les images intégrées telles quelles, sans redimensionnement ni altération de la qualité. La résolution est déterminée par la manière dont les images ont été stockées dans le PDF, et pdfimages ne propose pas d’option pour agrandir ou réduire la résolution lors de l’extraction.

Si vous souhaitez extraire des images à une résolution spécifique (par exemple, rendre une page ou une partie d’une page en image à une résolution choisie en DPI), vous devrez utiliser une bibliothèque de rendu PDF ou un outil comme PyMuPDF (fitz). Avec PyMuPDF, vous pouvez spécifier la résolution souhaitée à l’aide du paramètre dpi lors du rendu d’une page en image :

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0)  # première page
pix = page.get_pixmap(dpi=300)  # rendu à 300 DPI
pix.save("output.png")

Cette approche crée une image rasterisée de la page à la résolution spécifiée, plutôt qu’extraire les images intégrées telles quelles.

Autres outils pour extraire des images de PDF

Le meilleur logiciel pour extraire des images de PDF sans perdre de résolution sont ceux qui extraient les images intégrées d’origine directement, plutôt que de les rendre ou de les redimensionner. Les meilleures options incluent :

  • Adobe Acrobat Pro : Propose une fonction dédiée « Exporter toutes les images », qui extrait les images dans leur qualité et format d’origine en tant que fichiers autonomes. Cette méthode est très fiable et préserve exactement la résolution et la qualité des images telles qu’elles sont stockées dans le PDF.

  • pdfimages (du [XPDF/Poppler suite(https://www.glukhov.org/fr/post/2025/04/ubuntu-poppler/ “Outils de manipulation de PDF sous Ubuntu - Poppler”)) : Un outil gratuit, open source, en ligne de commande disponible sur Linux et d’autres plateformes. pdfimages extrait toutes les images d’un PDF dans leur format et résolution d’origine, y compris le support pour JPEG, JPEG2000 et d’autres formats. Il est largement recommandé pour les utilisateurs souhaitant un processus d’extraction sans coût, de haute fidélité.

  • Outils en ligne (par exemple, PDF24 Tools, PDFCandy, pdfforge) : Ces services permettent de télécharger un PDF et de télécharger les images extraites, tout en maintenant la résolution d’origine. Ils sont pratiques pour des tâches rapides et n’exigent pas d’installation, mais peuvent soulever des préoccupations de confidentialité pour les documents sensibles.

Tableau récapitulatif

Logiciel/outil Plateforme Maintient la résolution d’origine Notes
Adobe Acrobat Pro Windows/Mac Oui Payant, professionnel, très fiable
pdfimages (Poppler) Linux/Windows Oui Gratuit, open source, utilitaire en ligne de commande
PDF24 Tools, PDFCandy Web-based Oui Gratuit, facile à utiliser, préoccupations de confidentialité

Point clé :
Utilisez toujours des outils qui extraient (et non rendent ou prennent des captures d’écran) des images. À la fois Adobe Acrobat Pro et pdfimages sont des normes de l’industrie à cet égard, assurant que les images sont enregistrées exactement telles qu’elles existent dans le PDF, sans perte de résolution.

Options de ligne de commande de pdfutils

Lors de l’exécution de pdfimages /help cela affichera quelque chose comme :

$ pdfimages /help
pdfimages version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Utilisation : pdfimages [options] <PDF-fichier> <racine-image>
  -f <int>       : première page à convertir
  -l <int>       : dernière page à convertir
  -png           : changer le format de sortie par défaut en PNG
  -tiff          : changer le format de sortie par défaut en TIFF
  -j             : écrire les images JPEG en tant que fichiers JPEG
  -jp2           : écrire les images JPEG2000 en tant que fichiers JP2
  -jbig2         : écrire les images JBIG2 en tant que fichiers JBIG2
  -ccitt         : écrire les images CCITT en tant que fichiers CCITT
  -all           : équivalent à -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : imprimer la liste des images au lieu de les sauvegarder
  -opw <string>  : mot de passe propriétaire (pour les fichiers chiffrés)
  -upw <string>  : mot de passe utilisateur (pour les fichiers chiffrés)
  -p             : inclure les numéros de page dans les noms des fichiers de sortie
  -q             : ne pas afficher aucun message ou erreur
  -v             : afficher les informations de copyright et de version
  -h             : afficher les informations d'utilisation
  -help          : afficher les informations d'utilisation
  --help         : afficher les informations d'utilisation
  -?             : afficher les informations d'utilisation

Liens utiles