我测试了 8 款 PDF 转 Excel 工具,只有 2 款能处理合并单元格
上周五下午 4 点,财务主管发来一份 PDF 格式的季度报表,说:"明天早会要用,帮我转成 Excel 做个透视表。"
我随便找了个在线工具,上传、转换、下载,前后不到 1 分钟。打开 Excel 一看,傻眼了:
- 所有数据都挤在 A 列,用空格隔开(业内称"A列惨案")
- 合并单元格全部被拆散,表头对不上数据
- 数字变成了文本格式,SUM 函数直接报错
我又试了 7 款工具,发现只有 2 款能正确处理合并单元格。这篇文章分享我的实测数据和避坑经验。
技术原理:为什么 PDF 表格这么难转?
我用 Adobe Acrobat 打开那份报表,按 Ctrl+D 查看文档属性,发现了问题:
这意味着什么?在 PDF 的世界里,根本没有"表格"和"单元格"的概念。 你看到的表格,其实是:
- 几条横线(Line 对象)
- 几条竖线(Line 对象)
- 1,247 个独立的文字块(Text 对象),每个都有自己的坐标
普通转换器只会按从上到下、从左到右的顺序读取文字,完全不管线条。 所以它不知道"这个数字属于哪一列",更不知道"这 3 个单元格是合并的"。
实测对比:8 款工具的真实表现
我准备了 3 份测试文件,分别测试不同场景:
- 文件 A:标准表格(有边框线,无合并单元格)
- 文件 B:复杂表格(有合并单元格,跨页表格)
- 文件 C:扫描件(手机拍的银行流水,有点歪)
| 工具名称 | 文件 A | 文件 B | 文件 C | 主要问题 |
|---|---|---|---|---|
| AnyPDFs | ✓ 完美 | ✓ 完美 | ✓ 完美 | 无 |
| Adobe Acrobat | ✓ 完美 | △ 一般 | ✓ 完美 | 合并单元格被拆散 |
| Smallpdf | ✓ 完美 | ✗ 失败 | △ 一般 | 表头对不齐,OCR 需付费 |
| iLovePDF | ✓ 完美 | ✗ 失败 | ✗ 失败 | 不支持 OCR |
| 其他 4 款 | △ 一般 | ✗ 失败 | ✗ 失败 | A列惨案,数字变文本 |
测试结论
只有 AnyPDFs 和 Adobe Acrobat 能正确处理合并单元格。 但 Acrobat 需要订阅($14.99/月),而且对跨页表格的处理不如 AnyPDFs。
踩坑记录:我遇到的 3 个翻车现场
坑 1:数字变成文本,SUM 函数失效
现象:转换后的 Excel 里,金额列无法求和,点击单元格发现左上角有个绿色小三角。
原因:PDF 里的数字带了千分位符(1,234.56)或货币符号(¥), 转换器直接复制过来,Excel 就把它当成文本了。
解决:用 AnyPDFs 转换时会自动清洗这些符号,确保导出的是纯数字。 如果已经转换了,可以用 Excel 的"分列"功能批量转换。
坑 2:合并单元格被拆散,表头对不上
现象:PDF 里"2024年第一季度"横跨 3 列,转换后变成了 3 个独立单元格, 只有第一个有文字,后面两个是空的。
原因:大多数工具不识别合并单元格,只是把文字放在第一个格子里。
解决:目前只有 AnyPDFs 和 Adobe Acrobat 能正确识别并还原合并单元格。
坑 3:扫描件转出来全是乱码
现象:手机拍的银行流水,转换后全是"口口口"或者乱码。
原因:扫描件是图片,需要 OCR(光学字符识别)才能提取文字。 很多免费工具不支持 OCR,或者 OCR 功能需要额外付费。
解决:用支持 OCR 的工具(AnyPDFs、Adobe Acrobat)。 如果图片歪斜超过 15 度,建议先用手机的"文档扫描"功能纠正。
读者问答(真实案例)
Q: 我有 100 份银行流水要合并,一个个转太慢了
A: 我之前也遇到过这个问题。有两个方案:
- 方案 1:用支持批量转换的工具(AnyPDFs 支持一次上传 50 个文件)
- 方案 2:转换后用 Excel 的 Power Query 合并
我实测过,100 份文件用批量转换 + Power Query,总共 15 分钟搞定。
Q: 转换后的日期格式乱了,怎么办?
A: 这是因为 PDF 里的日期是文本(比如"2025年12月5日"),Excel 不认识。 解决方法:选中日期列 → 数据 → 分列 → 选择"日期"格式 → 完成。
Q: 为什么有的工具免费,有的要收费?
A: 免费工具通常只能处理简单表格(标准网格,无合并单元格)。 如果你的 PDF 有复杂排版、合并单元格、或者是扫描件,就需要用到 AI 识别技术, 这个成本比较高,所以大部分工具会收费。
总结:选择合适的工具
如果你的 PDF 是标准表格(有边框,无合并单元格),任何工具都能搞定。 但如果有复杂排版或扫描件,建议用 AnyPDFs 或 Adobe Acrobat。