扫描的 PDF 为什么动不动就几十 MB？

因为扫描件 PDF 里装的不是文字，而是每一页一张高分辨率位图。一页 A4 用 300 DPI 彩色扫描，未压缩约 2500×3500 像素、接近 25MB，十几页叠加就是几百 MB。文件大小由图片分辨率和色深决定，跟纸上字数无关。

PDF 压缩会让文字变模糊吗？

取决于压多狠。扫描件本身是图片，适度降低分辨率到 150–200 DPI、用 JPEG 重编码，屏幕阅读和普通打印几乎看不出差别；但如果压到 72 DPI 以下，放大或打印时边缘会发虚。文字型（非扫描）PDF 压缩主要去冗余，几乎不损画质。

为什么有的 PDF 怎么压都压不小？

如果 PDF 已经是优化过的文字矢量文档（如从 Word 导出），里面没有大体积图片，压缩空间本来就很小，压完可能只小几个百分点。体积大的几乎都是图片型/扫描型 PDF，压缩收益才明显。

几十 MB 的扫描 PDF 发不出去，怎么压到能发？

一份扫描合同三十多 MB，邮箱限制 20MB、微信发文件也卡，重新扫又麻烦。问题的根子不是"页数多"，而是扫描 PDF 本质上是一叠高分辨率图片。看懂这点，就知道该压哪里、能压到多小、什么时候压不动。

扫描 PDF 是一叠高分辨率位图，压缩后变小

扫描的 PDF 为什么这么大？

因为扫描件 PDF 里存的不是文字，而是每页一张位图照片。扫描仪或手机把纸拍成图片，再塞进 PDF 容器，所以决定体积的是图片的分辨率和色深，跟这页有多少字毫无关系——一页空白纸和一页密密麻麻的合同，扫出来的大小可能差不多。

算一笔账就清楚了：一页 A4 用 300 DPI 彩色扫描，约 2480×3508 像素，未压缩的位图接近 25MB。哪怕扫描软件做了基础 JPEG 压缩，单页也常有 1–3MB，十几页叠起来轻松几十 MB。这和从 Word 直接"导出 PDF"的文字型文档是两回事：后者存的是文字和矢量，一份几十页的报告可能才几百 KB。

所以判断一份 PDF 能不能压、能压多少，第一步是分清它是文字型还是图片/扫描型。前者压缩空间小，后者才是压缩的主战场。

压缩 PDF 到底在压什么？

PDF 压缩主要做两件事：去掉冗余结构和重新编码图片。对扫描件来说，真正省体积的是后者。

无损优化：清理重复对象、未使用的资源、冗余的元数据，把内部结构整理紧凑。这一步不改任何画面，但对纯图片 PDF 省不了多少。
图片重编码：把页面里的位图按目标分辨率重新采样，再用 JPEG 之类的有损算法压缩。这是扫描件能从几十 MB 掉到几 MB 的关键——降一半分辨率，数据量大约降到四分之一。

一个稳妥的做法是两阶段压缩：先做无损整理，再对每一页图片逐页重编码。这样既不会无脑破坏画质，又能在图片层拿到主要收益。PDF 压缩工具就是按这个思路，对扫描件和图片型 PDF 通常能压到原大小的 10%–30%。

压到多小才不糊？分辨率怎么定

关键结论先说：屏幕阅读和普通打印，150–200 DPI 就够用，再高基本是浪费；低于 100 DPI 才会明显发虚。用途决定该保留多少分辨率：

用途	建议分辨率	说明
微信/邮件传阅、屏幕看	120–150 DPI	体积最小,屏幕上完全够清晰
普通打印、存档	200–300 DPI	打印不发虚,体积适中
需要 OCR 或放大看细节	≥300 DPI	不建议大幅压缩,优先保真

经验上，把一份 300 DPI 的彩色扫描件降到 150 DPI、转成适度 JPEG，体积常能掉到原来的 1/5 左右，而手机和电脑屏幕上几乎看不出差别。如果是黑白文字扫描件，还可以考虑灰度化进一步省空间。

压完还是太大怎么办？

如果单纯调分辨率仍超过收件方限制，换个思路拆或转：

页数太多：用 PDF 拆分合并工具按页码范围拆成几份分别发送，每份都在限制以内。
对方只要看不要 PDF：直接用 PDF 转图片把需要的几页导成 JPG 发过去，往往比整份 PDF 更小、对方也更好打开。
图片本身就糊：扫描时分辨率就低，压缩只会更糊，这时压缩帮不上忙，只能重新扫描。

边界：什么时候压缩没用

压缩不是万能的，这几种情况收益很小甚至为零：

文字矢量 PDF：从 Word/网页导出的纯文字文档本来就小，里面没有大图，压完可能只小几个百分点。
已经压过一次：对方发来的 PDF 若已被压过，再压一次画质会进一步劣化，体积却降不了多少。
含大量矢量图/表格：这类内容已是高效编码，图片重采样对它无效。

判断标准很简单：体积大的 PDF 几乎都是图片型，压缩才有意义；体积本来就小的文字型 PDF，不必折腾。

小结

扫描 PDF 大,是因为它本质是一叠高分辨率图片,体积由分辨率和色深决定,与字数无关。压缩的核心是先无损整理、再按用途把图片重采样到 150–200 DPI 并重编码,屏幕阅读场景常能压到原来的 10%–30% 而几乎不糊。压不动时,就用拆分或转图片换条路;而纯文字 PDF 本来就小,不用压。所有处理都在浏览器本地完成,合同、证件这类敏感文件不必担心上传。

几十 MB 的扫描 PDF 发不出去，怎么压到能发？

扫描的 PDF 为什么这么大？

压缩 PDF 到底在压什么？

压到多小才不糊？分辨率怎么定

压完还是太大怎么办？

边界：什么时候压缩没用

小结

本文用到的工具

PDF 压缩

PDF 合并拆分

PDF 转图片

常见问题

扫描的 PDF 为什么动不动就几十 MB？

PDF 压缩会让文字变模糊吗？

为什么有的 PDF 怎么压都压不小？