Estrai immagini da PDF
Quando è necessario estrarre un'immagine da un file PDF
A volte c’è un reale bisogno di salvare un’immagine da un PDF senza effettuare uno screenshot o rendere il PDF a schermo.
pdfimages
è utile in questo caso.
Per estrarre immagini da un file PDF in Linux, lo strumento più comune ed efficace è l’utilità da riga di comando pdfimages,
che fa parte del pacchetto poppler-utils
.
Utilizzo dell’utilità pdfimages
in Linux: Istruzioni passo passo
1. Installare pdfimages (se non già installato):
La maggior parte delle distribuzioni Linux include pdfimages
di default. Se necessario, installalo utilizzando il tuo gestore dei pacchetti:
sudo apt-get install poppler-utils
o per Fedora:
sudo dnf install poppler-utils
2. Aprire un Terminale:
Premi Ctrl + Alt + T
per aprire una finestra del terminale.
3. Eseguire pdfimages per estrarre le immagini:
Sintassi base:
pdfimages
Esempio:
pdfimages /path/to/file.pdf /path/to/output/image
- Questo estrarrà tutte le immagini da
file.pdf
e le salverà comeimage-000.ppm
,image-001.ppm
, ecc., nella directory di output specificata.
4. Estrarre immagini in formato JPEG (se desiderato):
Per estrarre immagini in formato JPEG (quando possibile), utilizza l’opzione -j
:
pdfimages -j /path/to/file.pdf /path/to/output/image
- Questo salverà le immagini JPEG come file
.jpg
.
5. Estrarre immagini da specifiche pagine:
- Per estrarre immagini da un intervallo di pagine, utilizza
-f
(prima pagina) e-l
(ultima pagina):
pdfimages -f 2 -l 5 -j /path/to/file.pdf /path/to/output/image
- Questo estrae le immagini dalle pagine 2 a 5.
6. Opzioni aggiuntive:
- Per estrarre immagini in formato PNG: utilizza
-png
(se supportato dalla tua versione). - Per i PDF protetti da password, utilizza
-opw 'ownerpassword'
o-upw 'userpassword'
.
Note
- Il formato di output predefinito è PPM (a colori) o PBM (in bianco e nero). Utilizza
-j
per JPEG, o converte i file PPM/PBM in altri formati utilizzando strumenti comeconvert
da ImageMagick se necessario. - I file di output vengono automaticamente numerati e salvati nella directory specificata.
Tabella Riepilogativa
Esempio di Comando | Descrizione |
---|---|
pdfimages input.pdf image |
Estrae tutte le immagini nel formato predefinito PPM/PBM |
pdfimages -j input.pdf image |
Estrae le immagini in formato JPEG quando possibile |
pdfimages -f 3 -l 5 input.pdf image |
Estrae le immagini dalle pagine 3 a 5 |
pdfimages -opw 'password' -j input.pdf image |
Estrae le immagini da un PDF protetto da password dell’owner |
Questo metodo è efficiente e funziona per la maggior parte dei PDF che contengono immagini incorporate. Tuttavia:
pdfimages
estrae le immagini solo alla loro risoluzione originale.- Per controllare la risoluzione di output, utilizza una libreria di rendering PDF come PyMuPDF e specifica la risoluzione desiderata in DPI quando si crea l’immagine.
Come salvare immagini da PDF con una risoluzione specifica.
Non è possibile specificare la risoluzione delle immagini estratte utilizzando pdfimages
, poiché questo strumento estrae le immagini incorporate nel loro formato e risoluzione originale senza ridimensionamento o alterazione della qualità. La risoluzione è determinata da come le immagini sono state archiviate nel PDF, e pdfimages
non fornisce un’opzione per ingrandire o ridurre durante l’estrazione.
Se si desidera estrarre immagini a una risoluzione specifica (ad esempio, rendendo una pagina o una parte di una pagina come immagine a una risoluzione scelta in DPI), è necessario utilizzare una libreria di rendering PDF o uno strumento come PyMuPDF (fitz
). Con PyMuPDF, è possibile specificare la risoluzione desiderata utilizzando il parametro dpi
quando si rende una pagina in un’immagine:
import fitz # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0) # prima pagina
pix = page.get_pixmap(dpi=300) # rendi a 300 DPI
pix.save("output.png")
Questo approccio crea un’immagine rasterizzata della pagina alla risoluzione specificata, invece di estrarre le immagini incorporate originali.
Altri strumenti per l’estrazione di immagini da PDF
Il miglior software per l’estrazione di immagini da PDF senza perdere la risoluzione sono quelli che estraggono le immagini incorporate originali direttamente, invece di renderle o ridimensionarle. Le opzioni principali includono:
-
Adobe Acrobat Pro: Offre una funzione dedicata “Export All Images”, che estrae le immagini nel loro formato e qualità originale come file autonomi. Questo metodo è molto affidabile e preserva esattamente la risoluzione e la qualità delle immagini come archiviate nel PDF.
-
pdfimages (dalla suite XPDF/Poppler): Un tool gratuito, open-source da riga di comando disponibile su Linux e su altre piattaforme.
pdfimages
estrae tutte le immagini da un PDF nel loro formato e risoluzione originale, incluso il supporto per JPEG, JPEG2000 e altri formati. È ampiamente raccomandato per gli utenti che cercano un processo di estrazione gratuito e ad alta fedeltà. -
Strumenti online (ad esempio, PDF24 Tools, PDFCandy, pdfforge): Questi servizi permettono di caricare un PDF e scaricare le immagini estratte, mantenendo la risoluzione originale. Sono convenienti per compiti rapidi e non richiedono l’installazione, ma potrebbero sollevare preoccupazioni sulla privacy per documenti sensibili.
Tabella Riepilogativa
Software/Strumento | Piattaforma | Mantiene la Risoluzione Originale | Note |
---|---|---|---|
Adobe Acrobat Pro | Windows/Mac | Sì | A pagamento, professionale, molto affidabile |
pdfimages (Poppler) | Linux/Windows | Sì | Gratuito, open-source, utilità da riga di comando |
PDF24 Tools, PDFCandy | Web-based | Sì | Gratuito, facile da usare, considerazioni sulla privacy |
Punto chiave:
Utilizza sempre strumenti che estranno (non renderanno o scattino screenshot) le immagini. Sia Adobe Acrobat Pro che pdfimages
sono standard dell’industria per questo scopo, assicurando che le immagini vengano salvate esattamente come esistono nel PDF, senza alcuna perdita di risoluzione.
Opzioni della riga di comando di pdfutils
Quando si esegue pdfimages /help
verrà stampato qualcosa come:
$ pdfimages /help
pdfimages version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
-f <int> : prima pagina da convertire
-l <int> : ultima pagina da convertire
-png : cambia il formato di output predefinito in PNG
-tiff : cambia il formato di output predefinito in TIFF
-j : scrivi immagini JPEG come file JPEG
-jp2 : scrivi immagini JPEG2000 come file JP2
-jbig2 : scrivi immagini JBIG2 come file JBIG2
-ccitt : scrivi immagini CCITT come file CCITT
-all : equivalente a -png -tiff -j -jp2 -jbig2 -ccitt
-list : stampa l'elenco delle immagini invece di salvare
-opw <string> : password dell'owner (per i file crittografati)
-upw <string> : password dell'utente (per i file crittografati)
-p : include i numeri delle pagine nei nomi dei file di output
-q : non stampare alcun messaggio o errore
-v : stampa informazioni sulla versione e sul copyright
-h : stampa le informazioni sull'uso
-help : stampa le informazioni sull'uso
--help : stampa le informazioni sull'uso
-? : stampa le informazioni sull'uso