Tuần trước tôi đã kiểm tra metadata trên một file PDF mà tôi sắp gửi đi. Nó vẫn còn tên đầy đủ của tôi, đường dẫn file nội bộ của công ty và timestamp chính xác của mọi lần chỉnh sửa tôi đã thực hiện trong tháng qua.

Trang trông sạch sẽ. Nhưng file thì không.

Hầu hết mọi người không bao giờ mở bảng thuộc tính của PDF trước khi chia sẻ. Nội dung hiển thị nhận được toàn bộ sự chú ý. Nhưng bản thân file có thể nói nhiều hơn những gì được in trên trang, và lớp ẩn đó chính là nội dung bài viết này.

Câu trả lời ngắn gọn

Metadata của PDF có thể bao gồm tên của bạn, phần mềm bạn đã sử dụng, timestamp tạo và chỉnh sửa, lịch sử chỉnh sửa, bình luận và thậm chí tọa độ GPS từ hình ảnh nhúng.

Để xóa nó, bạn có một vài lựa chọn:

  • sử dụng trình chỉnh sửa metadata hoặc công cụ sanitization để loại bỏ các trường cụ thể
  • sử dụng công cụ dòng lệnh như exiftool để kiểm soát hoàn toàn
  • chuyển đổi PDF thành file dạng hình ảnh kiểu scan, thay thế toàn bộ cấu trúc tài liệu và xóa tất cả dữ liệu ẩn cùng một lúc

Nếu tài liệu là bản cuối cùng và sắp ra ngoài tổ chức của bạn, lựa chọn cuối cùng là bước đơn lẻ triệt để nhất mà bạn có thể thực hiện.

Metadata của PDF thực sự chứa gì

Một PDF có thể mang ba lớp thông tin ngoài những gì bạn thấy trên trang.

Lớp đầu tiên là thuộc tính tài liệu (Document Properties). Đây là metadata mà hầu hết mọi người nghĩ đến: tên tác giả, tiêu đề, chủ đề, ngày tạo, ngày chỉnh sửa và phần mềm đã tạo ra file. Mở bất kỳ PDF nào trong trình xem, kiểm tra File > Properties, và bạn có thể sẽ thấy các trường như “Author: Jane Smith” và “Producer: Microsoft Word 2021.” Thông tin này đi theo file bất cứ đâu nó đến.

Lớp thứ hai là XMP và metadata nhúng. Lớp này ít hiển thị hơn nhưng thường tiết lộ nhiều hơn. Nếu PDF của bạn chứa hình ảnh nhúng, những hình ảnh đó có thể vẫn mang dữ liệu EXIF gốc, bao gồm model máy ảnh, timestamp và tọa độ GPS. Metadata XMP cũng có thể bao gồm lịch sử chỉnh sửa, tag tùy chỉnh và thông tin cấp phép font. Hầu hết mọi người không biết lớp này tồn tại vì các trình xem PDF tiêu chuẩn không hiển thị nó.

Lớp thứ ba là dữ liệu cấu trúc ẩn. Tùy thuộc vào cách PDF được tạo và chỉnh sửa, file có thể chứa lịch sử chỉnh sửa, văn bản đã xóa nhưng có thể khôi phục, bình luận, chú thích, giá trị mặc định của trường biểu mẫu, lớp ẩn, JavaScript và tệp đính kèm nhúng. Đây là lớp gây thiệt hại nhiều nhất khi bị rò rỉ, vì nó có thể bao gồm nội dung mà tác giả nghĩ họ đã xóa.

Nếu bạn đã nghĩ về loại dữ liệu ẩn này trong bối cảnh tải file lên các công cụ web, Sử dụng công cụ PDF trực tuyến cho tài liệu nhạy cảm có an toàn không? đề cập đến mô hình tin cậy rộng hơn.

Tại sao điều này quan trọng hơn mọi người nghĩ

Rò rỉ metadata không kịch tính. Chúng im lặng, cụ thể và khó hoàn tác khi file đã được chia sẻ.

Nhận dạng tác giả khi tính ẩn danh quan trọng. Nếu PDF được tạo bởi một người cụ thể, trường tác giả hoặc đường dẫn file nội bộ có thể liên kết ngược về họ. Điều này quan trọng đối với người tố giác, báo cáo ẩn danh, tài liệu bị rò rỉ hoặc bất kỳ tình huống nào mà danh tính người gửi phải nằm ngoài file.

Lịch sử chỉnh sửa tiết lộ chiến lược đàm phán. Một PDF hợp đồng vẫn còn chứa các thay đổi được theo dõi hoặc metadata chỉnh sửa có thể tiết lộ vị thế ban đầu của bạn, những gì bạn đã xóa và những gì bạn đã giảm nhẹ trước khi gửi phiên bản cuối cùng. Phía bên kia không cần phải am hiểu kỹ thuật để tình cờ thấy điều này. Một số trình xem PDF hiển thị dữ liệu chỉnh sửa tự động.

Timestamp tiết lộ thời điểm nhạy cảm. Ngày tạo và chỉnh sửa cho ai đó biết khi nào tài liệu được bắt đầu, khi nào được thay đổi lần cuối và đã được chỉnh sửa bao nhiêu lần. Trong bối cảnh pháp lý, tuân thủ hoặc cạnh tranh, loại thông tin thời gian này có thể quan trọng hơn cả nội dung.

Tọa độ GPS từ hình ảnh nhúng. Nếu bạn dán một bức ảnh vào PDF và bức ảnh đó vẫn mang dữ liệu vị trí EXIF, tọa độ GPS của nơi hình ảnh được chụp giờ đã nhúng trong file. Hầu hết mọi người không nghĩ về điều này vì metadata nằm bên trong đối tượng hình ảnh, không phải trong bảng thuộc tính PDF.

Phiên bản phần mềm tiết lộ công cụ nội bộ. Các trường như “Producer: Adobe Acrobat Pro DC 24.1.30225” hoặc “Creator: Microsoft Word for Microsoft 365” cho ai đó biết tổ chức của bạn sử dụng công cụ và phiên bản gì. Đối với hầu hết tài liệu, điều này không đáng kể. Đối với bối cảnh nhạy cảm, đây là một rò rỉ thông tin không cần thiết.

Không có điều nào trong số này là giả thuyết. Đây là những rò rỉ metadata nhàm chán nhưng thực sự xảy ra.

Cách kiểm tra PDF của bạn chứa metadata gì

Trước khi xóa bất cứ thứ gì, hãy xem thực sự có gì trong file.

Hộp thoại thuộc tính của trình xem PDF. Trong hầu hết trình đọc PDF, File > Properties hoặc Document Properties hiển thị các trường cơ bản: tác giả, tiêu đề, chủ đề, ngày tạo, ngày chỉnh sửa và ứng dụng producer. Điều này bắt được lớp đầu tiên nhưng bỏ lỡ gần như mọi thứ khác.

exiftool trên dòng lệnh. Chạy exiftool document.pdf sẽ hiển thị mọi thứ: thuộc tính tài liệu, dữ liệu XMP, EXIF hình ảnh nhúng và trường tùy chỉnh. Đây là phương pháp kiểm tra đầy đủ nhất, nhưng cần quen với terminal. Nếu bạn chưa bao giờ sử dụng, nó đáng để cài đặt chỉ để xem một PDF đơn lẻ có thể chứa những gì.

Trình xem metadata trực tuyến. Một số trang web cho phép bạn tải PDF lên để kiểm tra metadata. Nếu lý do bạn kiểm tra metadata là quyền riêng tư, việc tải file lên dịch vụ bên thứ ba để kiểm tra là một bước đáng ngờ. Bạn đang cố tìm hiểu xem file có rò rỉ thông tin không, và bước đầu tiên là gửi nó cho người lạ.

Khi bạn biết file chứa gì, câu hỏi là làm thế nào để xóa nó.

Các phương pháp xóa metadata PDF

Không có phương pháp tốt nhất duy nhất. Lựa chọn đúng phụ thuộc vào những gì bạn cần giữ lại và mức độ triệt để cần thiết.

Adobe Acrobat (Sanitize Document)

Acrobat Pro bao gồm tính năng “Remove Hidden Information” và “Sanitize Document” có thể loại bỏ metadata, văn bản ẩn, bình luận, dữ liệu biểu mẫu, tệp đính kèm và nội dung không hiển thị khác. Đây là một trong những cách tiếp cận đầy đủ nhất nếu bạn cần giữ lớp văn bản nguyên vẹn và file có thể tìm kiếm được.

Hạn chế là nó yêu cầu giấy phép Acrobat Pro trả phí. Nếu bạn đã có, đây là lựa chọn mạnh mẽ. Nếu không, đây không phải loại vấn đề biện minh cho việc đăng ký chỉ vì nó.

exiftool và các công cụ CLI khác

exiftool có thể xóa chính xác các trường metadata cụ thể hoặc loại bỏ mọi thứ khỏi PDF trong một lệnh. Nó miễn phí, chạy trên mọi nền tảng và cho phép kiểm soát chính xác những gì bị xóa.

Hạn chế là rào cản kỹ thuật. Nó cũng tập trung vào các trường metadata thay vì dữ liệu cấu trúc ẩn. Nếu PDF chứa lịch sử chỉnh sửa, lớp ẩn hoặc đối tượng nhúng, exiftool sẽ không bắt được chúng. Nó xuất sắc ở những gì nó làm, nhưng không bao phủ mọi lớp.

Công cụ xóa metadata trực tuyến

Nhiều trang web cho phép bạn tải PDF lên, loại bỏ metadata và tải xuống phiên bản sạch. Quy trình đơn giản và không cần cài đặt phần mềm.

Hạn chế nên rõ ràng. Bạn đang tải một tài liệu lên máy chủ bên thứ ba để giải quyết vấn đề quyền riêng tư. Điều đó giống như đưa nhật ký cho người lạ để họ xé trang có địa chỉ của bạn.

Nếu file có rủi ro thấp, điều đó có thể chấp nhận được. Nếu bạn xóa metadata vì tài liệu nhạy cảm, cách tiếp cận này tạo ra chính xác loại phơi nhiễm mà bạn đang cố tránh. Để biết thêm về sự đánh đổi đó, Sử dụng công cụ PDF trực tuyến cho tài liệu nhạy cảm có an toàn không? đề cập chi tiết.

In lại PDF qua máy in ảo tạo ra file mới thường loại bỏ một số metadata và làm phẳng một số phần tử. Nó miễn phí và được tích hợp sẵn trong hầu hết hệ điều hành.

Kết quả không nhất quán. Một số máy in ảo chèn metadata của riêng chúng vào đầu ra. Một số loại bỏ dữ liệu XMP, một số thì không. EXIF hình ảnh nhúng có thể sống sót hoặc không qua vòng lặp. Nếu bạn sử dụng phương pháp này, luôn xác minh kết quả thay vì giả định rằng nó sạch.

Chuyển đổi sang PDF kiểu scan

Cách tiếp cận này chuyển đổi mọi trang của PDF thành hình ảnh, sau đó gói những hình ảnh đó vào một PDF mới. Vì toàn bộ cấu trúc tài liệu bị thay thế, tất cả dữ liệu ẩn đều bị xóa: metadata, lớp văn bản, bình luận, lịch sử chỉnh sửa, tệp nhúng, trường biểu mẫu, JavaScript, mọi thứ. Đầu ra là một PDF mới chỉ chứa hình ảnh trang đã render.

Sự đánh đổi là file không còn tìm kiếm được bằng văn bản nữa. Nó hoạt động giống như một bức ảnh của mỗi trang. Đối với tài liệu là bản cuối cùng và ra ngoài tổ chức, sự đánh đổi này thường đáng giá. Đối với tài liệu vẫn cần tìm kiếm, trích dẫn hoặc chỉnh sửa tiếp, thì không.

Đó là công việc mà Look Scanned thực hiện. Nó chuyển đổi PDF sang phiên bản kiểu scan ngay trong trình duyệt của bạn, vì vậy file không bao giờ rời khỏi thiết bị. Kết quả là một PDF dạng hình ảnh sạch không có dữ liệu ẩn, không có lớp văn bản, không có metadata từ bản gốc và không có xử lý phía máy chủ để lo lắng.

So sánh

Phương phápXóa thuộc tính tài liệuXóa lớp ẩnXóa EXIF hình ảnhGiữ văn bản tìm kiếm đượcYêu cầu tải lênChi phí
Adobe Acrobat (Sanitize)Tùy thuộc cài đặtKhôngTrả phí
exiftool / CLIMột phầnKhôngMiễn phí
Công cụ metadata trực tuyếnThường thì cóThường thì khôngĐôi khiMiễn phí
Print to PDFMột phầnMột phầnĐôi khiThường thì cóKhôngMiễn phí
Chuyển đổi kiểu scan (vd. Look Scanned)KhôngKhông (trình duyệt cục bộ)Miễn phí

Không có hàng nào hoàn hảo cho mọi tình huống. Câu hỏi luôn là sự đánh đổi nào quan trọng cho file cụ thể này.

Khi nào mỗi phương pháp phù hợp

Tài liệu vẫn đang được làm việc. Loại bỏ metadata bằng Acrobat hoặc exiftool. Giữ lớp văn bản. Xóa metadata ở giai đoạn này là công việc dọn dẹp, không phải sự kiện chính.

Tài liệu là bản cuối cùng và ra ngoài tổ chức. Nếu khả năng tìm kiếm không quan trọng, chuyển đổi kiểu scan là bước đơn lẻ triệt để nhất. Nó xóa mọi thứ trong một lần. Nếu file vẫn cần tìm kiếm được, hãy sử dụng tính năng Sanitize của Acrobat thay thế và xác minh kết quả.

Tài liệu rất nhạy cảm. Kết hợp các phương pháp. Xử lý redaction đúng cách trước, sau đó dọn dẹp metadata, rồi chuyển đổi kiểu scan cuối cùng. Mỗi bước bao phủ một lớp khác nhau. Nếu redaction là phần trong quy trình của bạn, Thanh đen không phải là Redaction giải thích tại sao che bằng hình ảnh không đủ.

Bạn không chắc file chứa gì. Kiểm tra trước bằng exiftool hoặc bảng thuộc tính. Sau đó quyết định dựa trên những gì bạn tìm thấy và file sẽ đi đâu. Chọn phương pháp xóa trước khi hiểu cần xóa gì dẫn đến hoặc quá mức hoặc bỏ sót dữ liệu.

Nếu bạn đang cân nhắc liệu PDF kiểu scan có phải là định dạng phù hợp cho tình huống của mình không, PDF scan vs PDF có thể chỉnh sửa: Nên gửi loại nào? đề cập đến quyết định đó rộng hơn.

Quy trình tôi thực sự sử dụng

  1. Hoàn thành nội dung tài liệu trước. Đừng dọn dẹp metadata trên file vẫn đang thay đổi.
  2. Kiểm tra metadata trên bản xuất cuối cùng. Ít nhất File > Properties. exiftool nếu cần thiết.
  3. Xóa hoặc sanitize dựa trên những gì tôi tìm thấy và điểm đến nhạy cảm đến mức nào.
  4. Nếu file ra ngoài và không cần tìm kiếm được, tôi chuyển đổi sang PDF kiểu scan. Look Scanned xử lý bước đó trong trình duyệt mà không cần tải file lên.
  5. Mở kết quả trong trình xem mới và xác minh. Kiểm tra thuộc tính, thử chọn văn bản, tìm kiếm các thuật ngữ lẽ ra đã biến mất.

Bước cuối cùng đó bắt được nhiều dữ liệu còn sót hơn mọi người nghĩ.

Nếu làm phẳng là đủ cho tình huống của bạn và bạn không cần chuyển đổi kiểu scan đầy đủ, Cách làm phẳng PDF trước khi gửi đề cập đến giải pháp trung gian đó.

Câu hỏi thường gặp

Chuyển đổi sang PDF scan có xóa tất cả metadata không?

Có. Chuyển đổi sang PDF dạng hình ảnh thay thế toàn bộ cấu trúc file. Kết quả không chứa lớp văn bản, không có đối tượng ẩn, không có thuộc tính tài liệu từ bản gốc và không có metadata file nhúng. Đầu ra là PDF mới chỉ chứa hình ảnh trang đã render.

Ai đó có thể khôi phục metadata từ PDF kiểu scan không?

Không thể từ chính PDF đó. Cấu trúc gốc đã biến mất. Metadata duy nhất trong file mới là những gì công cụ chuyển đổi ghi, chẳng hạn tag producer của chính nó. Nếu việc chuyển đổi diễn ra cục bộ trong trình duyệt, cũng không tồn tại bản sao phía máy chủ.

Xóa metadata có giống với redaction không?

Không. Xóa metadata loại bỏ thuộc tính ẩn và dữ liệu cấp tài liệu. Redaction xóa nội dung hiển thị khỏi trang. Nếu bạn cần xóa tên, số hoặc văn bản khỏi chính trang đó, đó là bước riêng biệt phải thực hiện trước khi dọn dẹp metadata. Thanh đen không phải là Redaction giải thích tại sao che bằng hình ảnh không đủ.

Tôi có nên xóa metadata khỏi mọi PDF tôi gửi không?

Không nhất thiết. Đối với tài liệu thường xuyên đã công khai hoặc rủi ro thấp, metadata vô hại. Câu hỏi trở nên quan trọng khi tài liệu nhạy cảm, người nhận là bên ngoài hoặc danh tính tác giả phải nằm ngoài file.

Suy nghĩ cuối cùng

Hầu hết mọi người không bao giờ kiểm tra PDF của họ nói gì về mình trước khi gửi.

File có thể sạch. Hoặc nó có thể chứa tên bạn, lịch sử chỉnh sửa và tọa độ GPS của quán cà phê nơi bạn chỉnh sửa nó vào thứ Ba tuần trước.

Nếu tài liệu đủ quan trọng để chia sẻ cẩn thận, nó đủ quan trọng để kiểm tra. Và nếu việc kiểm tra tiết lộ nhiều hơn bạn mong đợi, có những cách đơn giản để sửa trước khi bạn nhấn gửi.