Ubuntu 中的 PDF 操作工具 - Poppler

有时候你需要将页面添加到 PDF 中...

目录

或另一天你想从PDF中提取图像和文本

扳手们正忙于追逐便携式文档 上图是由Flux 1模型生成的AI图像,展示了“扳手们正忙于追逐便携式文档”的场景。

关于Poppler

Poppler是一个免费且开源的PDF渲染库,用于Linux系统,包括Ubuntu。它提供了用于操作和转换PDF文件的命令行工具。以下是Ubuntu中Poppler工具的概述及其使用方法:

Ubuntu中的Poppler是什么?

  • Poppler是基于xpdf-3.0代码库的PDF渲染库。
  • 它包含多个命令行工具,用于提取文本、图像、合并/拆分PDF以及将PDF转换为其他格式。
  • 常用于GNOME和KDE桌面环境。

安装

要在Ubuntu中安装Poppler工具,请运行:

sudo apt-get install poppler-utils

Poppler是基于Xpdf PDF查看器的PDF渲染库。

此软件包包含基于Poppler的命令行工具,用于获取PDF文档的信息、将其转换为其他格式或对其进行操作:

  • pdfdetach – 列出或提取嵌入文件(附件)
  • pdffonts – 字体分析器
  • pdfimages – 图像提取器
  • pdfinfo – 文档信息
  • pdfseparate – 页面提取工具
  • pdfsig – 验证数字签名
  • pdftocairo – 使用Cairo将PDF转换为PNG/JPEG/PDF/PS/EPS/SVG
  • pdftohtml – PDF到HTML转换器
  • pdftoppm – 将PDF转换为PPM/PNG/JPEG图像
  • pdftops – PDF到PostScript(PS)转换器
  • pdftotext – 文本提取
  • pdfunite – 文档合并工具

关键Poppler工具及其使用方法

  1. pdfinfo – 获取PDF元数据(标题、作者、页数等)

    pdfinfo file.pdf
    
  2. pdftotext – 从PDF中提取文本

    pdftotext file.pdf [output.txt]
    
  3. pdfimages – 从PDF中提取图像

    pdfimages file.pdf output_prefix
    
  4. pdftoppm / pdftocairo – 将PDF页面转换为图像(PNG、JPEG等)

    pdftoppm -png file.pdf output_prefix
    
  5. pdfseparate – 将PDF拆分为单独的页面

    pdfseparate file.pdf output_%d.pdf
    
  6. pdfunite – 合并多个PDF为一个

    pdfunite file1.pdf file2.pdf merged.pdf
    
  7. pdftohtml – 将PDF转换为HTML

    pdftohtml file.pdf [output.html]
    
  8. pdffonts – 列出PDF中使用的字体

    pdffonts file.pdf
    

其他注意事项

  • 大多数命令支持 -h--help 以获取详细选项。
  • Poppler 预装在许多 Linux 系统中,如果缺失,可以通过 apt 安装 poppler-utils

Ubuntu Launchpad 软件包信息

https://launchpad.net/ubuntu/+source/poppler

gir1.2-poppler-0.18: 为 poppler-glib 提供的 GObject introspection 数据
libpoppler-cpp-dev: PDF 渲染库 -- 开发文件(CPP 接口)
libpoppler-cpp1: PDF 渲染库(CPP 共享库)
libpoppler-cpp1-dbgsym: Ubuntu plucky 中 libpoppler-cpp1-dbgsym 没有摘要信息。
libpoppler-dev: PDF 渲染库 -- 开发文件
libpoppler-glib-dev: PDF 渲染库 -- 开发文件(GLib 接口)
libpoppler-glib-doc: PDF 渲染库 -- GLib 接口文档
libpoppler-glib8t64: 基于 GLib 的 PDF 渲染库共享库
libpoppler-glib8t64-dbgsym: libpoppler-glib8t64 的调试符号
libpoppler-private-dev: PDF 渲染库 -- 私有开发文件
libpoppler-qt5-1t64: 基于 Qt 5 的 PDF 渲染库共享库
libpoppler-qt5-1t64-dbgsym: libpoppler-qt5-1t64 的调试符号
libpoppler-qt5-dev: PDF 渲染库 -- 开发文件(Qt 5 接口)
libpoppler-qt6-3t64: 基于 Qt 6 的 PDF 渲染库共享库
libpoppler-qt6-3t64-dbgsym: libpoppler-qt6-3t64 的调试符号
libpoppler-qt6-dev: PDF 渲染库 -- 开发文件(Qt 6 接口)
libpoppler140: PDF 渲染库
libpoppler140-dbgsym: libpoppler140 的调试符号
poppler-utils: 基于 Poppler 的 PDF 工具
poppler-utils-dbgsym: poppler-utils 的调试符号

有用的链接