בדקתי את המטא-דאטה בקובץ PDF שעמדתי לשלוח בשבוע שעבר. הוא עדיין הכיל את שמי המלא, את נתיב הקובץ הפנימי של החברה שלי, ואת חותמת הזמן המדויקת של כל גרסה שערכתי במהלך החודש האחרון.

העמוד נראה נקי. הקובץ לא היה כזה.

רוב האנשים אף פעם לא פותחים את חלונית המאפיינים של PDF לפני שיתוף. התוכן הנראה מקבל את כל תשומת הלב. אבל הקובץ עצמו יכול לומר הרבה יותר ממה שמודפס על העמוד, והשכבה המוסתרת הזו היא הנושא של פוסט זה.

התשובה הקצרה

מטא-דאטה של PDF יכול לכלול את שמך, את התוכנה שבה השתמשת, חותמות זמן של יצירה ושינוי, היסטוריית גרסאות, הערות, ואפילו קואורדינטות GPS מתמונות מוטמעות.

כדי להסיר אותו, יש לך כמה אפשרויות:

  • שימוש בעורך מטא-דאטה או כלי ניקוי כדי להסיר שדות ספציפיים
  • שימוש בכלי שורת פקודה כמו exiftool לשליטה מלאה
  • המרת ה-PDF לקובץ מבוסס תמונות בסגנון סריקה, שמחליף את כל מבנה המסמך ומסיר את כל הנתונים המוסתרים בבת אחת

אם המסמך סופי ויוצא מהארגון שלך, האפשרות האחרונה היא הצעד היסודי ביותר שאתה יכול לנקוט.

מה מטא-דאטה של PDF באמת מכיל

PDF יכול לשאת שלוש שכבות מידע מעבר למה שאתה רואה בעמוד.

השכבה הראשונה היא מאפייני המסמך. זהו המטא-דאטה שרוב האנשים חושבים עליו: שם המחבר, כותרת, נושא, תאריך יצירה, תאריך שינוי, והתוכנה שיצרה את הקובץ. פתח כל PDF בתוכנת צפייה, בדוק קובץ > מאפיינים, וסביר שתראה שדות כמו “Author: Jane Smith” ו-“Producer: Microsoft Word 2021.” מידע זה נוסע עם הקובץ לכל מקום שהוא הולך.

השכבה השנייה היא XMP ומטא-דאטה מוטמע. זה פחות גלוי אבל לעתים קרובות יותר חושפני. אם ה-PDF שלך מכיל תמונות מוטמעות, תמונות אלו עשויות עדיין לשאת את נתוני ה-EXIF המקוריים שלהן, כולל דגם מצלמה, חותמות זמן וקואורדינטות GPS. מטא-דאטה XMP יכול גם לכלול היסטוריית עריכה, תגיות מותאמות אישית ומידע רישוי גופנים. רוב האנשים לא יודעים שהשכבה הזו קיימת כי תוכנות צפייה סטנדרטיות ל-PDF לא מציגות אותה.

השכבה השלישית היא נתונים מבניים מוסתרים. בהתאם לאופן שבו ה-PDF נוצר ונערך, הקובץ עשוי להכיל היסטוריית גרסאות, טקסט שנמחק אך ניתן לשחזור, הערות, ביאורים, ברירות מחדל של שדות טפסים, שכבות מוסתרות, JavaScript וקבצים מצורפים מוטמעים. זוהי השכבה שגורמת לנזק הגדול ביותר כשהיא דולפת, כי היא יכולה לכלול תוכן שהמחבר חשב שהסיר.

אם כבר חשבת על סוג זה של נתונים מוסתרים בהקשר של העלאת קבצים לכלי אינטרנט, האם בטוח להשתמש בכלי PDF מקוונים למסמכים רגישים? מכסה את מודל האמון הרחב יותר.

למה זה חשוב יותר ממה שאנשים חושבים

דליפות מטא-דאטה אינן דרמטיות. הן שקטות, ספציפיות, וקשה לבטל אותן ברגע שהקובץ שותף.

זיהוי המחבר כשאנונימיות חשובה. אם ה-PDF נוצר על ידי אדם ספציפי, שדה המחבר או נתיב הקובץ הפנימי יכולים לקשר חזרה אליו. זה חשוב לחושפי שחיתות, דוחות אנונימיים, מסמכים שדלפו, או כל מצב שבו זהות השולח אמורה להישאר מחוץ לקובץ.

היסטוריית גרסאות חושפת אסטרטגיית משא ומתן. PDF של חוזה שעדיין מכיל שינויים מעוקבים או מטא-דאטה של גרסאות יכול לחשוף את עמדתך ההתחלתית, מה מחקת, ומה ריככת לפני שליחת הגרסה הסופית. הצד השני לא צריך להיות טכני כדי למצוא את זה. חלק מתוכנות צפייה ל-PDF מציגות נתוני גרסאות אוטומטית.

חותמות זמן חושפות תזמון רגיש. תאריכי יצירה ושינוי אומרים למישהו מתי המסמך התחיל, מתי הוא שונה לאחרונה, וכמה פעמים נגעו בו. בהקשרים משפטיים, רגולטוריים או תחרותיים, מידע תזמון כזה יכול להיות חשוב יותר מהתוכן עצמו.

קואורדינטות GPS מתמונות מוטמעות. אם הדבקת תמונה ב-PDF והתמונה עדיין נושאת נתוני מיקום EXIF, קואורדינטות ה-GPS של המקום שבו התמונה צולמה מוטמעות עכשיו בקובץ. רוב האנשים לא חושבים על זה כי המטא-דאטה חי בתוך אובייקט התמונה, לא בחלונית מאפייני ה-PDF.

גרסאות תוכנה חושפות כלים פנימיים. שדות כמו “Producer: Adobe Acrobat Pro DC 24.1.30225” או “Creator: Microsoft Word for Microsoft 365” אומרים למישהו אילו כלים וגרסאות הארגון שלך משתמש בהם. ברוב המסמכים זה טריוויאלי. בהקשרים רגישים, זו דליפת מידע מיותרת.

אף אחד מאלה אינו היפותטי. אלו דליפות המטא-דאטה המשעממות שבאמת קורות.

כיצד לבדוק אילו מטא-דאטה הקובץ מכיל

לפני שמסירים משהו, בדוק מה באמת נמצא בקובץ.

חלון מאפייני תוכנת צפייה ל-PDF. ברוב קוראי PDF, קובץ > מאפיינים או מאפייני מסמך מציג את השדות הבסיסיים: מחבר, כותרת, נושא, תאריך יצירה, תאריך שינוי ויישום המפיק. זה תופס את השכבה הראשונה אבל מפספס כמעט כל דבר אחר.

exiftool בשורת הפקודה. הרצת exiftool document.pdf תראה לך הכול: מאפייני מסמך, נתוני XMP, EXIF של תמונות מוטמעות ושדות מותאמים אישית. זוהי שיטת הבדיקה המקיפה ביותר, אבל היא דורשת נוחות עם טרמינל. אם מעולם לא השתמשת בה, שווה להתקין אותה רק כדי לראות מה PDF בודד יכול להכיל.

צופי מטא-דאטה מקוונים. חלק מהאתרים מאפשרים לך להעלות PDF כדי לבדוק את המטא-דאטה שלו. אם הסיבה שאתה בודק מטא-דאטה היא פרטיות, העלאת הקובץ לשירות צד שלישי כדי לבדוק אותו היא צעד מפוקפק. אתה מנסה לגלות אם הקובץ מדליף מידע, והצעד הראשון הוא לשלוח אותו לזר.

ברגע שאתה יודע מה נמצא בקובץ, השאלה היא כיצד להסיר אותו.

שיטות להסרת מטא-דאטה מ-PDF

אין שיטה אחת טובה מכולן. הבחירה הנכונה תלויה במה שאתה צריך לשמור ובמידת היסודיות הנדרשת.

Adobe Acrobat (ניקוי מסמך)

Acrobat Pro כולל תכונות “הסרת מידע מוסתר” ו"ניקוי מסמך" שיכולות להסיר מטא-דאטה, טקסט מוסתר, הערות, נתוני טפסים, קבצים מצורפים ותוכן לא נראה אחר. זוהי אחת הגישות המקיפות ביותר אם אתה צריך לשמור על שכבת הטקסט שלמה והקובץ ניתן לחיפוש.

המגבלה היא שזה דורש רישיון Acrobat Pro בתשלום. אם כבר יש לך, זו אפשרות חזקה. אם אין לך, זה לא סוג הבעיה שמצדיק את המנוי בפני עצמו.

exiftool וכלי שורת פקודה אחרים

exiftool יכול להסיר כירורגית שדות מטא-דאטה ספציפיים או למחוק הכול מ-PDF בפקודה אחת. הוא חינמי, רץ על כל פלטפורמה ונותן שליטה מדויקת על מה בדיוק מוסר.

המגבלה היא המחסום הטכני. הוא גם מתמקד בשדות מטא-דאטה ולא בנתונים מבניים מוסתרים. אם ה-PDF מכיל היסטוריית גרסאות, שכבות מוסתרות או אובייקטים מוטמעים, exiftool לא יתפוס אותם. הוא מצוין במה שהוא עושה, אבל הוא לא מכסה כל שכבה.

כלי הסרת מטא-דאטה מקוונים

מספר אתרים מאפשרים לך להעלות PDF, להסיר את המטא-דאטה ולהוריד את הגרסה המנוקה. תהליך העבודה פשוט ואינו דורש התקנת תוכנה.

המגבלה צריכה להיות ברורה. אתה מעלה מסמך לשרת צד שלישי כדי לפתור בעיית פרטיות. זה קצת כמו למסור את היומן שלך לזר כדי שיקרע את הדף עם הכתובת שלך.

אם הקובץ בסיכון נמוך, זה עשוי להיות פשרה מקובלת. אם אתה מסיר מטא-דאטה כי המסמך רגיש, גישה זו מכניסה בדיוק את סוג החשיפה שאתה מנסה להימנע ממנו. למידע נוסף על הפשרה הזו, האם בטוח להשתמש בכלי PDF מקוונים למסמכים רגישים? מכסה את זה בפירוט.

הדפסה ל-PDF

הדפסה מחדש של PDF דרך מדפסת וירטואלית יוצרת קובץ חדש שלעתים קרובות מסיר חלק מהמטא-דאטה ומשטח אלמנטים מסוימים. זה חינמי ומובנה ברוב מערכות ההפעלה.

התוצאות אינן עקביות. חלק מהמדפסות הוירטואליות מזריקות מטא-דאטה משלהן לפלט. חלקן מסירות נתוני XMP, אחרות לא. EXIF של תמונות מוטמעות עשוי או לא לשרוד את התהליך. אם אתה משתמש בשיטה זו, תמיד אמת את התוצאה במקום להניח שהיא נקייה.

המרה ל-PDF בסגנון סריקה

גישה זו ממירה כל עמוד ב-PDF לתמונה, ואז עוטפת את התמונות ב-PDF חדש. מכיוון שכל מבנה המסמך מוחלף, כל הנתונים המוסתרים מוסרים: מטא-דאטה, שכבות טקסט, הערות, היסטוריית גרסאות, קבצים מוטמעים, שדות טפסים, JavaScript, הכול. הפלט הוא PDF חדש שמכיל רק תמונות עמודים מרונדרות.

הפשרה היא שהקובץ כבר לא ניתן לחיפוש טקסט. הוא מתנהג כמו תמונה של כל עמוד. למסמכים שהם סופיים ויוצאים מהארגון שלך, הפשרה הזו לעתים קרובות שווה את זה. למסמכים שעדיין צריך לחפש בהם, לצטט מהם או לערוך אותם בהמשך, היא לא.

זו העבודה שמבצע Look Scanned. הוא ממיר את ה-PDF לגרסה בסגנון סריקה מקומית בדפדפן שלך, כך שהקובץ אף פעם לא עוזב את המכשיר שלך. התוצאה היא PDF נקי מבוסס תמונות ללא נתונים מוסתרים, ללא שכבות טקסט, ללא מטא-דאטה מהמקור, וללא עיבוד בצד השרת שצריך לדאוג לגביו.

השוואה

שיטהמסיר מאפייני מסמךמסיר שכבות מוסתרותמסיר EXIF של תמונותשומר על חיפוש טקסטדורש העלאהעלות
Adobe Acrobat (ניקוי)כןכןתלוי בהגדרותכןלאבתשלום
exiftool / שורת פקודהכןחלקיתכןכןלאחינם
כלי מטא-דאטה מקווניםבדרך כללבדרך כלל לאלפעמיםכןכןחינם
הדפסה ל-PDFחלקיתחלקיתלפעמיםבדרך כלללאחינם
המרה בסגנון סריקה (כמו Look Scanned)כןכןכןלאלא (דפדפן מקומי)חינם

אין שורה אחת מושלמת לכל מצב. השאלה תמיד היא אילו פשרות חשובות לקובץ הספציפי הזה.

מתי כל גישה הגיונית

המסמך עדיין בעבודה. הסר מטא-דאטה עם Acrobat או exiftool. שמור על שכבת הטקסט. הסרת מטא-דאטה בשלב זה היא תחזוקה, לא האירוע העיקרי.

המסמך סופי ויוצא מהארגון שלך. אם חיפוש אינו קריטי, המרה בסגנון סריקה היא הצעד היסודי ביותר. היא מסירה הכול בפעם אחת. אם הקובץ עדיין צריך להיות ניתן לחיפוש, השתמש בתכונת הניקוי של Acrobat במקום זאת, ואמת את התוצאה.

המסמך רגיש מאוד. שלב גישות. טפל תחילה בהשחרה נאותה, אחר כך בניקוי מטא-דאטה, ואז בהמרה סופית בסגנון סריקה. כל שלב מכסה שכבה אחרת. אם השחרה היא חלק מתהליך העבודה שלך, פסים שחורים אינם השחרה מסביר למה מיסוך ויזואלי לא מספיק.

אתה לא בטוח מה יש בקובץ. בדוק תחילה עם exiftool או חלונית המאפיינים. אחר כך החלט על סמך מה שמצאת ולאן הקובץ הולך. בחירת שיטת הסרה לפני הבנה מה צריך להסיר מובילה להגזמה או לנתונים שפוספסו.

אם אתה שוקל האם PDF בסגנון סריקה הוא הפורמט הנכון למצב שלך, PDF סרוק לעומת PDF ניתן לעריכה: איזה כדאי לשלוח? מכסה את ההחלטה הזו באופן רחב יותר.

תהליך העבודה שאני באמת משתמש בו

  1. סיים תחילה את תוכן המסמך. אל תנקה מטא-דאטה של קובץ שעדיין משתנה.
  2. בדוק את המטא-דאטה בייצוא הסופי. קובץ > מאפיינים לכל הפחות. exiftool אם זה חשוב.
  3. הסר או נקה על סמך מה שמצאת ומידת הרגישות של היעד.
  4. אם הקובץ יוצא ולא צריך להיות ניתן לחיפוש, אני ממיר אותו ל-PDF בסגנון סריקה. Look Scanned מטפל בשלב הזה בדפדפן ללא העלאת הקובץ.
  5. פתח את התוצאה בתוכנת צפייה חדשה ואמת. בדוק מאפיינים, נסה לבחור טקסט, חפש מונחים שצריכים להיות חסרים.

השלב האחרון תופס יותר נתונים שנותרו ממה שאנשים מצפים.

אם שיטוח מספיק למצב שלך ואתה לא צריך את ההמרה המלאה בסגנון סריקה, כיצד לשטח PDF לפני שליחתו מכסה את הפתרון הביניים הזה.

שאלות נפוצות

האם המרה ל-PDF סרוק מסירה את כל המטא-דאטה?

כן. המרה ל-PDF מבוסס תמונות מחליפה את כל מבנה הקובץ. התוצאה לא מכילה שכבת טקסט, אובייקטים מוסתרים, מאפייני מסמך מהמקור, ולא מטא-דאטה של קבצים מוטמעים. הפלט הוא PDF חדש שמכיל רק תמונות עמודים מרונדרות.

האם מישהו יכול לשחזר מטא-דאטה מ-PDF בסגנון סריקה?

לא מה-PDF עצמו. המבנה המקורי נעלם. המטא-דאטה היחיד בקובץ החדש הוא מה שכלי ההמרה כותב, כמו תג המפיק שלו. אם ההמרה קורית מקומית בדפדפן, גם לא קיימת עותק בצד השרת.

האם הסרת מטא-דאטה זהה להשחרה?

לא. הסרת מטא-דאטה מסירה מאפיינים מוסתרים ונתונים ברמת המסמך. השחרה מסירה תוכן נראה מהעמוד. אם אתה צריך להסיר שמות, מספרים או טקסט מהעמוד עצמו, זהו שלב נפרד שחייב לקרות לפני ניקוי המטא-דאטה. פסים שחורים אינם השחרה מסביר למה מיסוך ויזואלי לבדו לא מספיק.

האם כדאי להסיר מטא-דאטה מכל PDF שאני שולח?

לא בהכרח. למסמכים שגרתיים שכבר פומביים או בסיכון נמוך, מטא-דאטה אינו מזיק. השאלה הופכת חשובה כשהמסמך רגיש, הנמען חיצוני, או שזהות המחבר אמורה להישאר מחוץ לקובץ.

מחשבה אחרונה

רוב האנשים אף פעם לא בודקים מה ה-PDF שלהם אומר עליהם לפני שהם שולחים אותו.

הקובץ עשוי להיות נקי. או שהוא עשוי להכיל את שמך, את היסטוריית הגרסאות שלך, ואת קואורדינטות ה-GPS של בית הקפה שבו ערכת אותו ביום שלישי האחרון.

אם המסמך חשוב מספיק כדי לשתף אותו בזהירות, הוא חשוב מספיק כדי לבדוק. ואם הבדיקה חושפת יותר ממה שציפית, יש דרכים פשוטות לתקן את זה לפני שאתה לוחץ שלח.