场景解决方案2026年6月27日

几十 MB 的扫描 PDF 发不出去,怎么压到能发?

扫描件、合同照片拼成的 PDF 动辄几十 MB,邮箱和微信都发不了。本文讲清扫描 PDF 为什么这么大、压缩到底在压什么、能压到多小不糊,以及什么情况压不动。

一份扫描合同三十多 MB,邮箱限制 20MB、微信发文件也卡,重新扫又麻烦。问题的根子不是"页数多",而是扫描 PDF 本质上是一叠高分辨率图片。看懂这点,就知道该压哪里、能压到多小、什么时候压不动。

扫描 PDF 是一叠高分辨率位图,压缩后变小

扫描的 PDF 为什么这么大?

因为扫描件 PDF 里存的不是文字,而是每页一张位图照片。扫描仪或手机把纸拍成图片,再塞进 PDF 容器,所以决定体积的是图片的分辨率和色深,跟这页有多少字毫无关系——一页空白纸和一页密密麻麻的合同,扫出来的大小可能差不多。

算一笔账就清楚了:一页 A4 用 300 DPI 彩色扫描,约 2480×3508 像素,未压缩的位图接近 25MB。哪怕扫描软件做了基础 JPEG 压缩,单页也常有 1–3MB,十几页叠起来轻松几十 MB。这和从 Word 直接"导出 PDF"的文字型文档是两回事:后者存的是文字和矢量,一份几十页的报告可能才几百 KB。

所以判断一份 PDF 能不能压、能压多少,第一步是分清它是文字型还是图片/扫描型。前者压缩空间小,后者才是压缩的主战场。

压缩 PDF 到底在压什么?

PDF 压缩主要做两件事:去掉冗余结构重新编码图片。对扫描件来说,真正省体积的是后者。

  • 无损优化:清理重复对象、未使用的资源、冗余的元数据,把内部结构整理紧凑。这一步不改任何画面,但对纯图片 PDF 省不了多少。
  • 图片重编码:把页面里的位图按目标分辨率重新采样,再用 JPEG 之类的有损算法压缩。这是扫描件能从几十 MB 掉到几 MB 的关键——降一半分辨率,数据量大约降到四分之一。

一个稳妥的做法是两阶段压缩:先做无损整理,再对每一页图片逐页重编码。这样既不会无脑破坏画质,又能在图片层拿到主要收益。PDF 压缩工具就是按这个思路,对扫描件和图片型 PDF 通常能压到原大小的 10%–30%。

压到多小才不糊?分辨率怎么定

关键结论先说:屏幕阅读和普通打印,150–200 DPI 就够用,再高基本是浪费;低于 100 DPI 才会明显发虚。用途决定该保留多少分辨率:

用途 建议分辨率 说明
微信/邮件传阅、屏幕看 120–150 DPI 体积最小,屏幕上完全够清晰
普通打印、存档 200–300 DPI 打印不发虚,体积适中
需要 OCR 或放大看细节 ≥300 DPI 不建议大幅压缩,优先保真

经验上,把一份 300 DPI 的彩色扫描件降到 150 DPI、转成适度 JPEG,体积常能掉到原来的 1/5 左右,而手机和电脑屏幕上几乎看不出差别。如果是黑白文字扫描件,还可以考虑灰度化进一步省空间。

压完还是太大怎么办?

如果单纯调分辨率仍超过收件方限制,换个思路拆或转:

  • 页数太多:用 PDF 拆分合并工具 按页码范围拆成几份分别发送,每份都在限制以内。
  • 对方只要看不要 PDF:直接用 PDF 转图片 把需要的几页导成 JPG 发过去,往往比整份 PDF 更小、对方也更好打开。
  • 图片本身就糊:扫描时分辨率就低,压缩只会更糊,这时压缩帮不上忙,只能重新扫描。

边界:什么时候压缩没用

压缩不是万能的,这几种情况收益很小甚至为零:

  • 文字矢量 PDF:从 Word/网页导出的纯文字文档本来就小,里面没有大图,压完可能只小几个百分点。
  • 已经压过一次:对方发来的 PDF 若已被压过,再压一次画质会进一步劣化,体积却降不了多少。
  • 含大量矢量图/表格:这类内容已是高效编码,图片重采样对它无效。

判断标准很简单:体积大的 PDF 几乎都是图片型,压缩才有意义;体积本来就小的文字型 PDF,不必折腾。

小结

扫描 PDF 大,是因为它本质是一叠高分辨率图片,体积由分辨率和色深决定,与字数无关。压缩的核心是先无损整理、再按用途把图片重采样到 150–200 DPI 并重编码,屏幕阅读场景常能压到原来的 10%–30% 而几乎不糊。压不动时,就用拆分转图片换条路;而纯文字 PDF 本来就小,不用压。所有处理都在浏览器本地完成,合同、证件这类敏感文件不必担心上传。

本文用到的工具

常见问题

因为扫描件 PDF 里装的不是文字,而是每一页一张高分辨率位图。一页 A4 用 300 DPI 彩色扫描,未压缩约 2500×3500 像素、接近 25MB,十几页叠加就是几百 MB。文件大小由图片分辨率和色深决定,跟纸上字数无关。