每次有高关注度的文档泄出并在网上疯传,我的信息流里都会出现同一种 PDF 争论。
这次是 “爱泼斯坦文件” PDF:大家放大那些被涂黑的页面,追问这些“脱敏”到底是真脱敏,还是只是盖了几块黑色矩形。

我不想重谈具体事件本身。但这场争论很有价值,因为它再次暴露了一个比很多团队愿意承认的更常见错误:

黑条通常只是视觉遮挡。真正的脱敏,是把内容从数据层面移除。

没错,这两者完全不是一回事。

为什么“看起来黑了”仍然有风险

PDF 并不总是“一张页面截图”。它更像一个容器。一个文件里可以同时有:

  • 可见页面
  • 可选中文本
  • 隐藏 OCR 文本(看不见,但能被搜索)
  • 注释层(高亮、形状、评论)
  • 元数据(作者、标题、主题等)

所以你可以把屏幕上的内容遮住,却仍然把底层文本、OCR 或遗留对象一起发出去。这就是大家说的 无效脱敏。不是什么高深攻击,通常只是流程把“遮住”当成了“删除”。

如果你的流程是“在 Word/PowerPoint 里画黑框再导出 PDF”,那就是在赌运气。可能没事,也可能翻车。而在你检查要发出去的最终文件之前,你根本不知道结果。

我在发“已脱敏 PDF”前会做的快速检查

这不是什么合规体系,只是一套 60–90 秒的朴素流程,专门抓低级错误。

我只检查 最终导出的那个文件(也就是马上要上传/发邮件/分享的版本):

  • 搜索敏感词(姓名、证件号、邮箱片段、地址)
  • 在黑框附近尝试选中并 复制/粘贴 到纯文本编辑器
  • 两个不同阅读器 打开(桌面端 + 浏览器通常就够)
  • 检查有没有残留 注释/评论(高亮、便签、形状)
  • 如果文档要外发,再看一眼 元数据(作者/标题/主题)

如果文档最初来自扫描件,或者做过 OCR,我会更谨慎,因为隐藏可搜索文本就是经典“惊喜层”。

就这些。简单、可重复,而且很有效。

让我少踩坑的发布流程

只要文档里有敏感信息,我会强迫自己把流程做得很“笨”但清晰:

  1. 先做真正脱敏(删除内容,不是叠加遮挡)
  2. 再清理额外层(注释、附件、隐藏层、元数据)
  3. 验证最终导出文件(按上面的清单)
  4. 生成可发送版本(通常是扫描风格、外观统一、状态最终)

最后这一步比很多人想象中更重要。不是为了“安全表演”,而是为了减少意外差异,让输出在不同设备上更一致。

Look Scanned 在我流程里的位置

我不用 Look Scanned 做脱敏,它不是这个工具。
我把它放在 最后一公里交付

文档完成正规脱敏并通过最终校验后,我会用 Look Scanned 生成干净的 扫描风格 PDF,也就是在提交材料和正式往来里大家更容易接受的那种成品形态。

实际收益通常是:

  • 更少出现“你这份在我电脑上版式变了”的沟通
  • 文档更像“最终成品”(尤其对方明确希望看到扫描件时)
  • 输出更干净,随机标注层混进去的概率更低(取决于你的导出链路)

顺序才是关键:先移除 → 再验证 → 最后定稿

简短结论

如果“爱泼斯坦文件”PDF 的争论又一次带来什么启发,那就是:
黑框不是证据。

把脱敏当成数据操作,验证你真正要发布的那一个文件,然后再考虑把它做成“看起来像扫描件”的最终形态。

试试 Look Scanned:https://lookscanned.io