Come estrarre immagini da un PDF?

Per estrarre immagini da un PDF è possibile utilizzare lo strumento pdfimages di poppler-utils: pdfimages /path/to/file.pdf /path/to/output/image

Estrai immagini da PDF

Quando è necessario estrarre un'immagine da un file PDF

Indice

A volte c’è un reale bisogno di salvare un’immagine da un PDF senza effettuare uno screenshot o rendere il PDF a schermo.
pdfimages è utile in questo caso.

Un’immagine a fumetti di un uomo che sta scattando una foto al diagramma sullo schermo

Per estrarre immagini da un file PDF in Linux, lo strumento più comune ed efficace è l’utilità da riga di comando pdfimages,
che fa parte del pacchetto poppler-utils.

Utilizzo dell’utilità `pdfimages` in Linux: Istruzioni passo passo

1. Installare pdfimages (se non già installato):

La maggior parte delle distribuzioni Linux include pdfimages di default. Se necessario, installalo utilizzando il tuo gestore dei pacchetti:

sudo apt-get install poppler-utils

o per Fedora:

sudo dnf install poppler-utils

2. Aprire un Terminale:

Premi Ctrl + Alt + T per aprire una finestra del terminale.

3. Eseguire pdfimages per estrarre le immagini:

Sintassi base:

pdfimages

Esempio:

pdfimages /path/to/file.pdf /path/to/output/image

Questo estrarrà tutte le immagini da file.pdf e le salverà come image-000.ppm, image-001.ppm, ecc., nella directory di output specificata.

4. Estrarre immagini in formato JPEG (se desiderato):

Per estrarre immagini in formato JPEG (quando possibile), utilizza l’opzione -j:

pdfimages -j /path/to/file.pdf /path/to/output/image

Questo salverà le immagini JPEG come file .jpg.

5. Estrarre immagini da specifiche pagine:

Per estrarre immagini da un intervallo di pagine, utilizza -f (prima pagina) e -l (ultima pagina):

pdfimages -f 2 -l 5 -j /path/to/file.pdf /path/to/output/image

Questo estrae le immagini dalle pagine 2 a 5.

6. Opzioni aggiuntive:

Per estrarre immagini in formato PNG: utilizza -png (se supportato dalla tua versione).
Per i PDF protetti da password, utilizza -opw 'ownerpassword' o -upw 'userpassword'.

Note

Il formato di output predefinito è PPM (a colori) o PBM (in bianco e nero). Utilizza -j per JPEG, o converte i file PPM/PBM in altri formati utilizzando strumenti come convert da ImageMagick se necessario.
I file di output vengono automaticamente numerati e salvati nella directory specificata.

Tabella Riepilogativa

Esempio di Comando	Descrizione
`pdfimages input.pdf image`	Estrae tutte le immagini nel formato predefinito PPM/PBM
`pdfimages -j input.pdf image`	Estrae le immagini in formato JPEG quando possibile
`pdfimages -f 3 -l 5 input.pdf image`	Estrae le immagini dalle pagine 3 a 5
`pdfimages -opw 'password' -j input.pdf image`	Estrae le immagini da un PDF protetto da password dell’owner

Questo metodo è efficiente e funziona per la maggior parte dei PDF che contengono immagini incorporate. Tuttavia:

pdfimages estrae le immagini solo alla loro risoluzione originale.
Per controllare la risoluzione di output, utilizza una libreria di rendering PDF come PyMuPDF e specifica la risoluzione desiderata in DPI quando si crea l’immagine.

Come salvare immagini da PDF con una risoluzione specifica.

Non è possibile specificare la risoluzione delle immagini estratte utilizzando pdfimages, poiché questo strumento estrae le immagini incorporate nel loro formato e risoluzione originale senza ridimensionamento o alterazione della qualità. La risoluzione è determinata da come le immagini sono state archiviate nel PDF, e pdfimages non fornisce un’opzione per ingrandire o ridurre durante l’estrazione.

Se si desidera estrarre immagini a una risoluzione specifica (ad esempio, rendendo una pagina o una parte di una pagina come immagine a una risoluzione scelta in DPI), è necessario utilizzare una libreria di rendering PDF o uno strumento come PyMuPDF (fitz). Con PyMuPDF, è possibile specificare la risoluzione desiderata utilizzando il parametro dpi quando si rende una pagina in un’immagine:

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")
page = doc.load_page(0)  # prima pagina
pix = page.get_pixmap(dpi=300)  # rendi a 300 DPI
pix.save("output.png")

Questo approccio crea un’immagine rasterizzata della pagina alla risoluzione specificata, invece di estrarre le immagini incorporate originali.

Altri strumenti per l’estrazione di immagini da PDF

Il miglior software per l’estrazione di immagini da PDF senza perdere la risoluzione sono quelli che estraggono le immagini incorporate originali direttamente, invece di renderle o ridimensionarle. Le opzioni principali includono:

Adobe Acrobat Pro: Offre una funzione dedicata “Export All Images”, che estrae le immagini nel loro formato e qualità originale come file autonomi. Questo metodo è molto affidabile e preserva esattamente la risoluzione e la qualità delle immagini come archiviate nel PDF.
pdfimages (dalla suite XPDF/Poppler): Un tool gratuito, open-source da riga di comando disponibile su Linux e su altre piattaforme. pdfimages estrae tutte le immagini da un PDF nel loro formato e risoluzione originale, incluso il supporto per JPEG, JPEG2000 e altri formati. È ampiamente raccomandato per gli utenti che cercano un processo di estrazione gratuito e ad alta fedeltà.
Strumenti online (ad esempio, PDF24 Tools, PDFCandy, pdfforge): Questi servizi permettono di caricare un PDF e scaricare le immagini estratte, mantenendo la risoluzione originale. Sono convenienti per compiti rapidi e non richiedono l’installazione, ma potrebbero sollevare preoccupazioni sulla privacy per documenti sensibili.

Tabella Riepilogativa

Software/Strumento	Piattaforma	Mantiene la Risoluzione Originale	Note
Adobe Acrobat Pro	Windows/Mac	Sì	A pagamento, professionale, molto affidabile
pdfimages (Poppler)	Linux/Windows	Sì	Gratuito, open-source, utilità da riga di comando
PDF24 Tools, PDFCandy	Web-based	Sì	Gratuito, facile da usare, considerazioni sulla privacy

Punto chiave:
Utilizza sempre strumenti che estranno (non renderanno o scattino screenshot) le immagini. Sia Adobe Acrobat Pro che pdfimages sono standard dell’industria per questo scopo, assicurando che le immagini vengano salvate esattamente come esistono nel PDF, senza alcuna perdita di risoluzione.

Opzioni della riga di comando di pdfutils

Quando si esegue pdfimages /help verrà stampato qualcosa come:

$ pdfimages /help
pdfimages version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
  -f <int>       : prima pagina da convertire
  -l <int>       : ultima pagina da convertire
  -png           : cambia il formato di output predefinito in PNG
  -tiff          : cambia il formato di output predefinito in TIFF
  -j             : scrivi immagini JPEG come file JPEG
  -jp2           : scrivi immagini JPEG2000 come file JP2
  -jbig2         : scrivi immagini JBIG2 come file JBIG2
  -ccitt         : scrivi immagini CCITT come file CCITT
  -all           : equivalente a -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : stampa l'elenco delle immagini invece di salvare
  -opw <string>  : password dell'owner (per i file crittografati)
  -upw <string>  : password dell'utente (per i file crittografati)
  -p             : include i numeri delle pagine nei nomi dei file di output
  -q             : non stampare alcun messaggio o errore
  -v             : stampa informazioni sulla versione e sul copyright
  -h             : stampa le informazioni sull'uso
  -help          : stampa le informazioni sull'uso
  --help         : stampa le informazioni sull'uso
  -?             : stampa le informazioni sull'uso

Utilizzo dell’utilità pdfimages in Linux: Istruzioni passo passo