สัปดาห์ที่แล้วผมตรวจสอบเมตาดาต้าของ PDF ที่กำลังจะส่ง มันยังมีชื่อเต็มของผม เส้นทางไฟล์ภายในของบริษัท และ timestamp ที่แน่นอนของทุกการแก้ไขที่ผมทำตลอดเดือนที่ผ่านมา

หน้าดูสะอาดดี แต่ไฟล์ไม่ใช่

คนส่วนใหญ่ไม่เคยเปิดแผงคุณสมบัติของ PDF ก่อนแชร์ เนื้อหาที่มองเห็นได้รับความสนใจทั้งหมด แต่ตัวไฟล์เองสามารถบอกอะไรได้มากกว่าที่พิมพ์อยู่บนหน้า และชั้นที่ซ่อนอยู่นี้คือสิ่งที่โพสต์นี้จะพูดถึง

คำตอบสั้นๆ

เมตาดาต้าของ PDF อาจรวมถึงชื่อของคุณ ซอฟต์แวร์ที่คุณใช้ timestamp การสร้างและแก้ไข ประวัติการแก้ไข ความคิดเห็น และแม้แต่พิกัด GPS จากรูปภาพที่ฝังอยู่

ในการลบ คุณมีตัวเลือกหลายทาง:

  • ใช้โปรแกรมแก้ไขเมตาดาต้าหรือเครื่องมือ sanitization เพื่อลบฟิลด์เฉพาะ
  • ใช้เครื่องมือ command-line เช่น exiftool เพื่อควบคุมได้เต็มที่
  • แปลง PDF เป็นไฟล์ภาพสไตล์สแกน ซึ่งแทนที่โครงสร้างเอกสารทั้งหมดและลบข้อมูลที่ซ่อนอยู่ทั้งหมดในครั้งเดียว

หากเอกสารเป็นฉบับสุดท้ายและกำลังจะออกนอกองค์กรของคุณ ตัวเลือกสุดท้ายคือขั้นตอนเดียวที่ครอบคลุมที่สุดที่คุณสามารถทำได้

เมตาดาต้าของ PDF จริงๆ แล้วมีอะไรบ้าง

PDF สามารถบรรจุข้อมูลสามชั้นนอกเหนือจากสิ่งที่คุณเห็นบนหน้า

ชั้นแรกคือ คุณสมบัติเอกสาร (Document Properties) นี่คือเมตาดาต้าที่คนส่วนใหญ่นึกถึง: ชื่อผู้เขียน ชื่อเรื่อง หัวข้อ วันที่สร้าง วันที่แก้ไข และซอฟต์แวร์ที่สร้างไฟล์ เปิด PDF ใดๆ ในโปรแกรมดู ตรวจสอบ File > Properties แล้วคุณจะเห็นฟิลด์เช่น “Author: Jane Smith” และ “Producer: Microsoft Word 2021” ข้อมูลนี้เดินทางไปกับไฟล์ทุกที่ที่มันไป

ชั้นที่สองคือ XMP และเมตาดาต้าที่ฝังอยู่ สิ่งนี้มองเห็นได้น้อยกว่าแต่มักเปิดเผยมากกว่า หาก PDF ของคุณมีรูปภาพที่ฝังอยู่ รูปภาพเหล่านั้นอาจยังมีข้อมูล EXIF ดั้งเดิม รวมถึงรุ่นกล้อง timestamp และพิกัด GPS เมตาดาต้า XMP ยังอาจรวมถึงประวัติการแก้ไข แท็กที่กำหนดเอง และข้อมูลสิทธิ์การใช้ฟอนต์ คนส่วนใหญ่ไม่รู้ว่าชั้นนี้มีอยู่เพราะโปรแกรมดู PDF มาตรฐานไม่แสดงมัน

ชั้นที่สามคือ ข้อมูลโครงสร้างที่ซ่อนอยู่ ขึ้นอยู่กับว่า PDF ถูกสร้างและแก้ไขอย่างไร ไฟล์อาจมีประวัติการแก้ไข ข้อความที่ลบแล้วแต่กู้คืนได้ ความคิดเห็น คำอธิบายประกอบ ค่าเริ่มต้นของฟิลด์ฟอร์ม เลเยอร์ที่ซ่อนอยู่ JavaScript และไฟล์แนบที่ฝังอยู่ นี่คือชั้นที่สร้างความเสียหายมากที่สุดเมื่อรั่วไหล เพราะอาจรวมถึงเนื้อหาที่ผู้เขียนคิดว่าลบไปแล้ว

หากคุณเคยคิดเกี่ยวกับข้อมูลที่ซ่อนอยู่ประเภทนี้ในบริบทของการอัปโหลดไฟล์ไปยังเครื่องมือเว็บ การใช้เครื่องมือ PDF ออนไลน์สำหรับเอกสารที่มีความละเอียดอ่อนปลอดภัยหรือไม่? ครอบคลุมโมเดลความไว้วางใจในวงกว้าง

ทำไมสิ่งนี้สำคัญมากกว่าที่คนคิด

การรั่วไหลของเมตาดาต้าไม่ได้น่าตื่นเต้น มันเงียบ เฉพาะเจาะจง และยากที่จะย้อนกลับเมื่อแชร์ไฟล์ไปแล้ว

การระบุตัวตนผู้เขียนเมื่อความเป็นนิรนามสำคัญ หาก PDF ถูกสร้างโดยบุคคลเฉพาะ ฟิลด์ผู้เขียนหรือเส้นทางไฟล์ภายในสามารถเชื่อมโยงกลับไปหาพวกเขาได้ สิ่งนี้สำคัญสำหรับผู้แจ้งเบาะแส รายงานนิรนาม เอกสารที่รั่วไหล หรือสถานการณ์ใดๆ ที่ตัวตนของผู้ส่งควรอยู่นอกไฟล์

ประวัติการแก้ไขเปิดเผยกลยุทธ์การเจรจา PDF สัญญาที่ยังมีการเปลี่ยนแปลงที่ติดตามหรือเมตาดาต้าการแก้ไขสามารถเปิดเผยจุดยืนเริ่มต้นของคุณ สิ่งที่คุณลบ และสิ่งที่คุณลดทอนก่อนส่งฉบับสุดท้าย อีกฝ่ายไม่จำเป็นต้องมีความเชี่ยวชาญทางเทคนิคเพื่อเจอสิ่งนี้ โปรแกรมดู PDF บางตัวแสดงข้อมูลการแก้ไขโดยอัตโนมัติ

Timestamp เปิดเผยเวลาที่ละเอียดอ่อน วันที่สร้างและแก้ไขบอกใครบางคนว่าเอกสารเริ่มต้นเมื่อไหร่ เปลี่ยนแปลงล่าสุดเมื่อไหร่ และถูกแตะกี่ครั้ง ในบริบททางกฎหมาย การปฏิบัติตามกฎระเบียบ หรือการแข่งขัน ข้อมูลเวลาแบบนี้อาจสำคัญกว่าเนื้อหาเอง

พิกัด GPS จากรูปภาพที่ฝังอยู่ หากคุณวางรูปภาพลงใน PDF และรูปภาพนั้นยังมีข้อมูลตำแหน่ง EXIF พิกัด GPS ของสถานที่ที่ถ่ายรูปจะฝังอยู่ในไฟล์ คนส่วนใหญ่ไม่คิดเรื่องนี้เพราะเมตาดาต้าอยู่ภายในวัตถุรูปภาพ ไม่ใช่ในแผงคุณสมบัติ PDF

เวอร์ชันซอฟต์แวร์เปิดเผยเครื่องมือภายใน ฟิลด์เช่น “Producer: Adobe Acrobat Pro DC 24.1.30225” หรือ “Creator: Microsoft Word for Microsoft 365” บอกใครบางคนว่าองค์กรของคุณใช้เครื่องมือและเวอร์ชันอะไร สำหรับเอกสารส่วนใหญ่นี่ไม่สำคัญ สำหรับบริบทที่ละเอียดอ่อน นี่คือการรั่วไหลของข้อมูลที่ไม่จำเป็น

ไม่มีข้อใดเป็นสมมติฐาน เหล่านี้คือการรั่วไหลของเมตาดาต้าที่น่าเบื่อแต่เกิดขึ้นจริง

วิธีตรวจสอบว่า PDF ของคุณมีเมตาดาต้าอะไร

ก่อนลบอะไร ดูก่อนว่ามีอะไรอยู่ในไฟล์จริงๆ

กล่องโต้ตอบคุณสมบัติของโปรแกรมดู PDF ในโปรแกรมอ่าน PDF ส่วนใหญ่ File > Properties หรือ Document Properties แสดงฟิลด์พื้นฐาน: ผู้เขียน ชื่อเรื่อง หัวข้อ วันที่สร้าง วันที่แก้ไข และแอปพลิเคชันผู้ผลิต นี่จับชั้นแรกได้แต่พลาดเกือบทุกอย่างอื่น

exiftool บน command line การรัน exiftool document.pdf จะแสดงทุกอย่าง: คุณสมบัติเอกสาร ข้อมูล XMP ข้อมูล EXIF ของรูปภาพที่ฝัง และฟิลด์ที่กำหนดเอง นี่คือวิธีตรวจสอบที่สมบูรณ์ที่สุด แต่ต้องคุ้นเคยกับ terminal ถ้าคุณไม่เคยใช้มาก่อน มันคุ้มค่าที่จะติดตั้งเพียงเพื่อดูว่า PDF ไฟล์เดียวสามารถมีอะไรได้บ้าง

โปรแกรมดูเมตาดาต้าออนไลน์ บางเว็บไซต์ให้คุณอัปโหลด PDF เพื่อตรวจสอบเมตาดาต้า ถ้าเหตุผลที่คุณตรวจสอบเมตาดาต้าคือความเป็นส่วนตัว การอัปโหลดไฟล์ไปยังบริการของบุคคลที่สามเพื่อตรวจสอบเป็นเรื่องที่น่าสงสัย คุณพยายามหาว่าไฟล์รั่วไหลข้อมูลหรือไม่ และขั้นตอนแรกคือส่งมันไปให้คนแปลกหน้า

เมื่อคุณรู้แล้วว่ามีอะไรในไฟล์ คำถามคือจะลบมันอย่างไร

วิธีลบเมตาดาต้าจาก PDF

ไม่มีวิธีที่ดีที่สุดเพียงวิธีเดียว ตัวเลือกที่ถูกต้องขึ้นอยู่กับว่าคุณต้องเก็บอะไรไว้และต้องครอบคลุมแค่ไหน

Adobe Acrobat (Sanitize Document)

Acrobat Pro มีฟีเจอร์ “Remove Hidden Information” และ “Sanitize Document” ที่สามารถลบเมตาดาต้า ข้อความที่ซ่อน ความคิดเห็น ข้อมูลฟอร์ม ไฟล์แนบ และเนื้อหาที่ไม่สามารถมองเห็นได้อื่นๆ นี่คือหนึ่งในวิธีที่สมบูรณ์ที่สุดหากคุณต้องการเก็บชั้นข้อความไว้และให้ไฟล์ค้นหาได้

ข้อจำกัดคือต้องมีใบอนุญาต Acrobat Pro แบบเสียเงิน ถ้าคุณมีอยู่แล้ว นี่คือตัวเลือกที่แข็งแกร่ง ถ้าไม่มี นี่ไม่ใช่ปัญหาที่จะสมเหตุสมผลในการซื้อสมาชิกเพียงเพื่อสิ่งนี้

exiftool และเครื่องมือ CLI อื่นๆ

exiftool สามารถลบฟิลด์เมตาดาต้าเฉพาะอย่างแม่นยำหรือลบทุกอย่างจาก PDF ในคำสั่งเดียว มันฟรี ทำงานบนทุกแพลตฟอร์ม และให้การควบคุมที่แม่นยำว่าลบอะไรออก

ข้อจำกัดคืออุปสรรคทางเทคนิค มันยังเน้นที่ฟิลด์เมตาดาต้ามากกว่าข้อมูลโครงสร้างที่ซ่อนอยู่ หาก PDF มีประวัติการแก้ไข เลเยอร์ที่ซ่อน หรือวัตถุที่ฝังอยู่ exiftool จะไม่จับสิ่งเหล่านั้น มันเก่งในสิ่งที่ทำ แต่ไม่ครอบคลุมทุกชั้น

เครื่องมือลบเมตาดาต้าออนไลน์

หลายเว็บไซต์ให้คุณอัปโหลด PDF ลบเมตาดาต้า และดาวน์โหลดเวอร์ชันที่สะอาด ขั้นตอนง่ายและไม่ต้องติดตั้งซอฟต์แวร์

ข้อจำกัดควรชัดเจน คุณกำลังอัปโหลดเอกสารไปยังเซิร์ฟเวอร์ของบุคคลที่สามเพื่อแก้ปัญหาความเป็นส่วนตัว มันเหมือนกับส่งไดอารี่ให้คนแปลกหน้าเพื่อให้เขาฉีกหน้าที่มีที่อยู่ของคุณออก

ถ้าไฟล์มีความเสี่ยงต่ำ อาจเป็นที่ยอมรับได้ ถ้าคุณลบเมตาดาต้าเพราะเอกสารมีความละเอียดอ่อน วิธีนี้สร้างการเปิดเผยแบบเดียวกับที่คุณพยายามหลีกเลี่ยง สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อแลกเปลี่ยนนี้ การใช้เครื่องมือ PDF ออนไลน์สำหรับเอกสารที่มีความละเอียดอ่อนปลอดภัยหรือไม่? ครอบคลุมรายละเอียด

การพิมพ์ PDF ใหม่ผ่านเครื่องพิมพ์เสมือนจะสร้างไฟล์ใหม่ที่มักลบเมตาดาต้าบางส่วนและทำให้องค์ประกอบบางอย่างแบนราบ มันฟรีและมีในระบบปฏิบัติการส่วนใหญ่

ผลลัพธ์ไม่สม่ำเสมอ เครื่องพิมพ์เสมือนบางตัวใส่เมตาดาต้าของตัวเองลงในผลลัพธ์ บางตัวลบข้อมูล XMP บางตัวไม่ลบ EXIF ของรูปภาพที่ฝังอาจรอดหรือไม่รอดจากรอบทริป หากคุณใช้วิธีนี้ ตรวจสอบผลลัพธ์เสมอแทนที่จะสันนิษฐานว่าสะอาด

การแปลงเป็น PDF สไตล์สแกน

วิธีนี้แปลงทุกหน้าของ PDF เป็นรูปภาพ แล้วห่อรูปภาพเหล่านั้นเป็น PDF ใหม่ เพราะโครงสร้างเอกสารทั้งหมดถูกแทนที่ ข้อมูลที่ซ่อนอยู่ทั้งหมดจะถูกลบ: เมตาดาต้า ชั้นข้อความ ความคิดเห็น ประวัติการแก้ไข ไฟล์ที่ฝัง ฟิลด์ฟอร์ม JavaScript ทุกอย่าง ผลลัพธ์คือ PDF ใหม่ที่มีเฉพาะรูปภาพหน้าที่เรนเดอร์แล้ว

ข้อแลกเปลี่ยนคือไฟล์จะไม่สามารถค้นหาข้อความได้อีก มันทำงานเหมือนรูปภาพของแต่ละหน้า สำหรับเอกสารที่เป็นฉบับสุดท้ายและออกนอกองค์กร ข้อแลกเปลี่ยนนี้มักคุ้มค่า สำหรับเอกสารที่ยังต้องค้นหา อ้างอิง หรือแก้ไขต่อไป มันไม่คุ้ม

นั่นคือสิ่งที่ Look Scanned ทำ มันแปลง PDF เป็นเวอร์ชันสไตล์สแกนในเบราว์เซอร์ของคุณ ดังนั้นไฟล์จะไม่ออกจากอุปกรณ์ของคุณ ผลลัพธ์คือ PDF ภาพที่สะอาดโดยไม่มีข้อมูลที่ซ่อน ไม่มีชั้นข้อความ ไม่มีเมตาดาต้าจากต้นฉบับ และไม่มีการประมวลผลฝั่งเซิร์ฟเวอร์ให้ต้องกังวล

เปรียบเทียบ

วิธีลบคุณสมบัติเอกสารลบเลเยอร์ที่ซ่อนลบ EXIF ของรูปภาพเก็บข้อความค้นหาได้ต้องอัปโหลดค่าใช้จ่าย
Adobe Acrobat (Sanitize)ใช่ใช่ขึ้นอยู่กับการตั้งค่าใช่ไม่เสียเงิน
exiftool / CLIใช่บางส่วนใช่ใช่ไม่ฟรี
เครื่องมือเมตาดาต้าออนไลน์โดยทั่วไปโดยทั่วไปไม่บางครั้งใช่ใช่ฟรี
Print to PDFบางส่วนบางส่วนบางครั้งโดยทั่วไปไม่ฟรี
การแปลงสไตล์สแกน (เช่น Look Scanned)ใช่ใช่ใช่ไม่ไม่ (เบราว์เซอร์ในเครื่อง)ฟรี

ไม่มีแถวใดสมบูรณ์แบบสำหรับทุกสถานการณ์ คำถามคือข้อแลกเปลี่ยนใดสำคัญสำหรับไฟล์เฉพาะนี้เสมอ

แต่ละวิธีเหมาะเมื่อไหร่

เอกสารยังอยู่ระหว่างการทำงาน ลบเมตาดาต้าด้วย Acrobat หรือ exiftool เก็บชั้นข้อความ การลบเมตาดาต้าในขั้นตอนนี้เป็นงานทำความสะอาด ไม่ใช่งานหลัก

เอกสารเป็นฉบับสุดท้ายและออกนอกองค์กร หากการค้นหาไม่สำคัญ การแปลงสไตล์สแกนคือขั้นตอนเดียวที่ครอบคลุมที่สุด มันลบทุกอย่างในรอบเดียว หากไฟล์ยังต้องค้นหาได้ ใช้ฟีเจอร์ Sanitize ของ Acrobat แทน และตรวจสอบผลลัพธ์

เอกสารมีความละเอียดอ่อนสูง รวมวิธีการเข้าด้วยกัน จัดการการปิดบังข้อมูลอย่างเหมาะสมก่อน จากนั้นทำความสะอาดเมตาดาต้า แล้วแปลงสไตล์สแกนเป็นขั้นสุดท้าย แต่ละขั้นตอนครอบคลุมชั้นที่แตกต่างกัน หากการปิดบังข้อมูลเป็นส่วนหนึ่งของกระบวนการของคุณ แถบดำไม่ใช่การปิดบัง อธิบายว่าทำไมการปิดด้วยภาพเพียงอย่างเดียวไม่เพียงพอ

คุณไม่แน่ใจว่าไฟล์มีอะไร ตรวจสอบก่อนด้วย exiftool หรือแผงคุณสมบัติ จากนั้นตัดสินใจตามสิ่งที่คุณพบและไฟล์กำลังไปไหน การเลือกวิธีลบก่อนเข้าใจว่าต้องลบอะไรนำไปสู่การทำมากเกินไปหรือข้อมูลที่พลาด

หากคุณกำลังชั่งน้ำหนักว่า PDF สไตล์สแกนเป็นรูปแบบที่เหมาะกับสถานการณ์ของคุณหรือไม่ PDF ที่สแกน vs PDF ที่แก้ไขได้: ควรส่งแบบไหน? ครอบคลุมการตัดสินใจนั้นในวงกว้างกว่า

ขั้นตอนที่ผมใช้จริง

  1. ทำเนื้อหาเอกสารให้เสร็จก่อน อย่าทำความสะอาดเมตาดาต้าบนไฟล์ที่ยังเปลี่ยนแปลง
  2. ตรวจสอบเมตาดาต้าในการส่งออกฉบับสุดท้าย อย่างน้อย File > Properties ถ้าสำคัญก็ exiftool
  3. ลบหรือ sanitize ตามสิ่งที่พบและปลายทางมีความละเอียดอ่อนแค่ไหน
  4. หากไฟล์ออกนอกและไม่ต้องค้นหาได้ ผมแปลงเป็น PDF สไตล์สแกน Look Scanned จัดการขั้นตอนนี้ในเบราว์เซอร์โดยไม่อัปโหลดไฟล์
  5. เปิดผลลัพธ์ในโปรแกรมดูใหม่และตรวจสอบ ตรวจสอบคุณสมบัติ ลองเลือกข้อความ ค้นหาคำที่ควรหายไป

ขั้นตอนสุดท้ายจับข้อมูลที่เหลืออยู่ได้มากกว่าที่คนคาดคิด

หากการทำให้แบนราบเพียงพอสำหรับสถานการณ์ของคุณและไม่ต้องการการแปลงสไตล์สแกนเต็มรูปแบบ วิธีทำให้ PDF แบนราบก่อนส่ง ครอบคลุมจุดกึ่งกลางนั้น

คำถามที่พบบ่อย

การแปลงเป็น PDF ที่สแกนจะลบเมตาดาต้าทั้งหมดหรือไม่?

ใช่ การแปลงเป็น PDF ภาพจะแทนที่โครงสร้างไฟล์ทั้งหมด ผลลัพธ์ไม่มีชั้นข้อความ ไม่มีวัตถุที่ซ่อน ไม่มีคุณสมบัติเอกสารจากต้นฉบับ และไม่มีเมตาดาต้าไฟล์ที่ฝัง ผลลัพธ์คือ PDF ใหม่ที่มีเฉพาะรูปภาพหน้าที่เรนเดอร์แล้ว

ใครสามารถกู้คืนเมตาดาต้าจาก PDF สไตล์สแกนได้หรือไม่?

ไม่ได้จากตัว PDF โครงสร้างดั้งเดิมหายไป เมตาดาต้าเดียวในไฟล์ใหม่คือสิ่งที่เครื่องมือแปลงเขียน เช่น แท็ก producer ของมันเอง หากการแปลงเกิดขึ้นในเบราว์เซอร์ในเครื่อง จะไม่มีสำเนาฝั่งเซิร์ฟเวอร์ด้วย

การลบเมตาดาต้าเหมือนกับการปิดบังข้อมูลหรือไม่?

ไม่ การลบเมตาดาต้าจะลบคุณสมบัติที่ซ่อนและข้อมูลระดับเอกสาร การปิดบังข้อมูลจะลบเนื้อหาที่มองเห็นได้จากหน้า หากคุณต้องลบชื่อ ตัวเลข หรือข้อความจากหน้าเอง นั่นเป็นขั้นตอนแยกที่ต้องทำก่อนการทำความสะอาดเมตาดาต้า แถบดำไม่ใช่การปิดบัง อธิบายว่าทำไมการปิดด้วยภาพเพียงอย่างเดียวไม่นับ

ผมควรลบเมตาดาต้าจากทุก PDF ที่ส่งหรือไม่?

ไม่จำเป็น สำหรับเอกสารทั่วไปที่เป็นสาธารณะหรือมีความเสี่ยงต่ำอยู่แล้ว เมตาดาต้าไม่เป็นอันตราย คำถามจะสำคัญเมื่อเอกสารมีความละเอียดอ่อน ผู้รับเป็นภายนอก หรือตัวตนของผู้เขียนควรอยู่นอกไฟล์

ความคิดสุดท้าย

คนส่วนใหญ่ไม่เคยตรวจสอบว่า PDF ของพวกเขาบอกอะไรเกี่ยวกับตัวเองก่อนส่ง

ไฟล์อาจสะอาด หรืออาจมีชื่อของคุณ ประวัติการแก้ไข และพิกัด GPS ของร้านกาแฟที่คุณแก้ไขมันเมื่อวันอังคารที่แล้ว

หากเอกสารสำคัญพอที่จะแชร์อย่างระมัดระวัง มันก็สำคัญพอที่จะตรวจสอบ และหากการตรวจสอบเผยให้เห็นมากกว่าที่คาดไว้ มีวิธีตรงไปตรงมาในการแก้ไขก่อนกดส่ง