Минулого тижня я перевірив метадані PDF-файлу, який збирався відправити. У ньому все ще було моє повне ім’я, внутрішній шлях до файлу в компанії та точні часові мітки кожної правки за останній місяць.

Сторінка виглядала чисто. Файл — ні.

Більшість людей ніколи не відкривають панель властивостей PDF перед надсиланням. Вся увага дістається видимому вмісту. Але сам файл може розповісти набагато більше, ніж те, що надруковано на сторінці, і саме про цей прихований шар йдеться в цій статті.

Коротка відповідь

Метадані PDF можуть включати ваше ім’я, використане програмне забезпечення, часові мітки створення та зміни, історію правок, коментарі та навіть GPS-координати з вбудованих зображень.

Щоб їх видалити, у вас є кілька варіантів:

  • використати редактор метаданих або інструмент очищення для видалення конкретних полів
  • використати командний рядок, наприклад exiftool, для повного контролю
  • перетворити PDF на файл на основі зображень у стилі скану, що замінює всю структуру документа та видаляє всі приховані дані за один раз

Якщо документ остаточний і відправляється за межі організації, останній варіант — найретельніший крок, який можна зробити.

Що насправді містять метадані PDF

PDF може нести три шари інформації окрім того, що ви бачите на сторінці.

Перший шар — це властивості документа. Це метадані, про які думає більшість людей: ім’я автора, заголовок, тема, дата створення, дата зміни та програма, що створила файл. Відкрийте будь-який PDF у програмі перегляду, перевірте Файл > Властивості, і ви, ймовірно, побачите такі поля, як «Автор: Іванова Марія» та «Виробник: Microsoft Word 2021». Ця інформація подорожує з файлом, куди б він не потрапив.

Другий шар — це XMP та вбудовані метадані. Вони менш помітні, але часто більш інформативні. Якщо ваш PDF містить вбудовані зображення, ці зображення можуть все ще нести свої оригінальні дані EXIF, включно з моделлю камери, часовими мітками та GPS-координатами. Метадані XMP також можуть включати історію редагування, користувацькі теги та інформацію про ліцензування шрифтів. Більшість людей не знають про існування цього шару, тому що стандартні програми перегляду PDF його не показують.

Третій шар — це приховані структурні дані. Залежно від того, як PDF було створено та відредаговано, файл може містити історію правок, видалений, але відновлюваний текст, коментарі, анотації, значення за замовчуванням для полів форм, приховані шари, JavaScript та вбудовані вкладення. Це той шар, який завдає найбільшої шкоди при витоку, бо може включати вміст, який автор вважав видаленим.

Якщо ви вже замислювалися про подібні приховані дані в контексті завантаження файлів в онлайн-інструменти, стаття Чи безпечно використовувати онлайн-інструменти для роботи з конфіденційними PDF? охоплює ширшу модель довіри.

Чому це важливіше, ніж люди думають

Витоки метаданих не драматичні. Вони тихі, конкретні та важко виправні після того, як файл було надіслано.

Ідентифікація автора, коли важлива анонімність. Якщо PDF було створено конкретною людиною, поле автора або внутрішній шлях до файлу можуть привести до неї. Це важливо для викривачів, анонімних звітів, документів, що витекли, або будь-якої ситуації, де особистість відправника має залишатися поза файлом.

Історія правок, що розкриває стратегію переговорів. PDF контракту, який все ще містить відстежувані зміни або метадані правок, може розкрити вашу початкову позицію, що ви видалили та що пом’якшили перед надсиланням фінальної версії. Іншій стороні не потрібно бути технічно обізнаною, щоб натрапити на це. Деякі програми перегляду PDF автоматично показують дані про правки.

Часові мітки, що розкривають конфіденційні терміни. Дати створення та зміни повідомляють комусь, коли документ було розпочато, коли його востаннє змінювали та скільки разів до нього зверталися. У юридичному, комплаєнс або конкурентному контексті така інформація про терміни може бути важливішою за сам вміст.

GPS-координати з вбудованих зображень. Якщо ви вставили фотографію в PDF, і ця фотографія все ще несе дані про місцезнаходження EXIF, GPS-координати місця, де було зроблено зображення, тепер вбудовані у файл. Більшість людей не думають про це, бо метадані знаходяться всередині об’єкта зображення, а не на панелі властивостей PDF.

Версії програм, що розкривають внутрішні інструменти. Такі поля, як «Producer: Adobe Acrobat Pro DC 24.1.30225» або «Creator: Microsoft Word for Microsoft 365», повідомляють комусь, які інструменти та версії використовує ваша організація. Для більшості документів це тривіально. Для конфіденційних контекстів це непотрібний витік інформації.

Нічого з перерахованого не є гіпотетичним. Це звичайні витоки метаданих, які дійсно трапляються.

Як перевірити, які метадані містить ваш PDF

Перш ніж щось видаляти, подивіться, що насправді є у файлі.

Діалог властивостей програми перегляду PDF. У більшості PDF-рідерів Файл > Властивості або Властивості документа показує основні поля: автор, заголовок, тема, дата створення, дата зміни та програма-виробник. Це виявляє перший шар, але пропускає майже все інше.

exiftool у командному рядку. Запуск exiftool document.pdf покаже вам все: властивості документа, дані XMP, EXIF вбудованих зображень та користувацькі поля. Це найповніший метод перевірки, але вимагає навичок роботи з терміналом. Якщо ви ніколи його раніше не використовували, його варто встановити хоча б для того, щоб побачити, що може містити один PDF.

Онлайн-переглядачі метаданих. Деякі сайти дозволяють завантажити PDF для перевірки його метаданих. Якщо причина, через яку ви перевіряєте метадані, — це конфіденційність, завантаження файлу в сторонній сервіс для його перевірки — сумнівний крок. Ви намагаєтеся з’ясувати, чи витікає інформація з файлу, і першим кроком відправляєте його незнайомцю.

Коли ви знаєте, що міститься у файлі, постає питання, як це видалити.

Методи видалення метаданих з PDF

Єдиного найкращого методу не існує. Правильний вибір залежить від того, що потрібно зберегти та наскільки ретельно потрібно очистити файл.

Adobe Acrobat (Sanitize Document)

Acrobat Pro включає функції «Видалити приховану інформацію» та «Очистити документ», які можуть видалити метадані, прихований текст, коментарі, дані форм, вкладення та інший невидимий вміст. Це один із найповніших підходів, якщо вам потрібно зберегти текстовий шар та можливість пошуку по файлу.

Обмеження полягає в тому, що потрібна платна ліцензія Acrobat Pro. Якщо вона у вас вже є, це потужний варіант. Якщо ні, це не та проблема, яка сама по собі виправдовує підписку.

exiftool та інші утиліти командного рядка

exiftool може хірургічно видалити конкретні поля метаданих або очистити все з PDF однією командою. Він безкоштовний, працює на будь-якій платформі та дає точний контроль над тим, що саме видаляється.

Обмеження — технічний бар’єр. Також він фокусується на полях метаданих, а не на прихованих структурних даних. Якщо PDF містить історію правок, приховані шари або вбудовані об’єкти, exiftool їх не виявить. Він чудово справляється зі своїм завданням, але не охоплює кожен шар.

Онлайн-інструменти для видалення метаданих

Кілька сайтів дозволяють завантажити PDF, видалити метадані та завантажити очищену версію. Процес простий і не вимагає встановлення програм.

Обмеження має бути очевидним. Ви завантажуєте документ на сторонній сервер, щоб вирішити проблему конфіденційності. Це трохи схоже на те, як віддати свій щоденник незнайомцю, щоб він вирвав сторінку з вашою адресою.

Якщо файл малоризиковий, це може бути прийнятним компромісом. Якщо ви видаляєте метадані, тому що документ конфіденційний, цей підхід створює саме той тип загрози, якого ви намагаєтесь уникнути. Детальніше про цей компроміс — у статті Чи безпечно використовувати онлайн-інструменти для роботи з конфіденційними PDF?.

Друк у PDF

Повторний друк PDF через віртуальний принтер створює новий файл, з якого часто видаляються деякі метадані та згладжуються певні елементи. Це безкоштовно та вбудовано у більшість операційних систем.

Результати непослідовні. Деякі віртуальні принтери додають власні метадані до результату. Деякі видаляють дані XMP, інші — ні. EXIF вбудованих зображень може пережити, а може й не пережити цей процес. Якщо ви використовуєте цей метод, завжди перевіряйте результат, а не припускайте, що він чистий.

Перетворення на PDF у стилі скану

Цей підхід перетворює кожну сторінку PDF на зображення, а потім збирає ці зображення в новий PDF. Оскільки вся структура документа замінюється, всі приховані дані видаляються: метадані, текстові шари, коментарі, історія правок, вбудовані файли, поля форм, JavaScript — все. На виході отримуємо новий PDF, що містить лише відрендерені зображення сторінок.

Компроміс у тому, що файл більше не підтримує текстовий пошук. Він поводиться як фотографія кожної сторінки. Для документів, які є остаточними і відправляються за межі організації, цей компроміс часто виправданий. Для документів, які ще потрібно шукати, цитувати або редагувати далі — ні.

Саме це робить Look Scanned. Він перетворює PDF на версію у стилі скану локально у вашому браузері, тож файл ніколи не залишає ваш пристрій. Результат — чистий PDF на основі зображень без прихованих даних, без текстових шарів, без метаданих з оригіналу та без серверної обробки, про яку варто турбуватися.

Порівняння

МетодВидаляє властивості документаВидаляє приховані шариВидаляє EXIF зображеньЗберігає текстовий пошукПотребує завантаженняВартість
Adobe Acrobat (Sanitize)ТакТакЗалежить від налаштуваньТакНіПлатно
exiftool / CLIТакЧастковоТакТакНіБезкоштовно
Онлайн-інструменти для метаданихЗазвичайЗазвичай ніІнодіТакТакБезкоштовно
Друк у PDFЧастковоЧастковоІнодіЗазвичайНіБезкоштовно
Перетворення у стиль скану (напр. Look Scanned)ТакТакТакНіНі (локально в браузері)Безкоштовно

Жоден рядок не ідеальний для кожної ситуації. Питання завжди в тому, які компроміси важливі для конкретного файлу.

Коли який підхід має сенс

Документ все ще в роботі. Видаліть метадані за допомогою Acrobat або exiftool. Збережіть текстовий шар. Видалення метаданих на цьому етапі — це поточне обслуговування, а не головна подія.

Документ остаточний і відправляється за межі організації. Якщо можливість пошуку не критична, перетворення у стиль скану — найретельніший крок. Воно видаляє все за один прохід. Якщо файл все ще має підтримувати пошук, використовуйте функцію Sanitize в Acrobat і перевірте результат.

Документ вкрай конфіденційний. Комбінуйте підходи. Спочатку виконайте належне редагування, потім очищення метаданих, потім фінальне перетворення у стиль скану. Кожен крок охоплює свій шар. Якщо редагування є частиною вашого робочого процесу, стаття Чорні смуги — це не редагування пояснює, чому візуального маскування недостатньо.

Ви не впевнені, що міститься у файлі. Спочатку перевірте за допомогою exiftool або панелі властивостей. Потім прийміть рішення на основі того, що знайшли, та куди файл відправляється. Вибір методу видалення до розуміння того, що потрібно видалити, призводить або до надмірних заходів, або до пропущених даних.

Якщо ви зважуєте, чи підходить PDF у стилі скану для вашої ситуації, стаття Сканований PDF чи редагований PDF: який надіслати? розглядає це питання ширше.

Робочий процес, який я реально використовую

  1. Спочатку завершіть вміст документа. Не очищуйте метадані у файлі, який ще змінюється.
  2. Перевірте метадані фінального експорту. Мінімум — Файл > Властивості. exiftool — якщо це важливо.
  3. Видаліть або очистіть на основі того, що знайшли, та наскільки конфіденційний отримувач.
  4. Якщо файл відправляється назовні і не потребує пошуку, я конвертую його в PDF у стилі скану. Look Scanned виконує цей крок у браузері без завантаження файлу.
  5. Відкрийте результат у новій програмі перегляду та перевірте. Перевірте властивості, спробуйте виділити текст, пошукайте терміни, які мали зникнути.

Останній крок виявляє більше залишкових даних, ніж люди очікують.

Якщо зведення достатньо для вашої ситуації і вам не потрібне повне перетворення у стиль скану, стаття Як звести PDF перед надсиланням розглядає цю проміжну альтернативу.

Часті запитання

Чи видаляє перетворення на сканований PDF усі метадані?

Так. Перетворення на PDF на основі зображень замінює всю структуру файлу. Результат не містить текстового шару, прихованих об’єктів, властивостей документа з оригіналу та вбудованих метаданих файлів. На виході — новий PDF, що містить лише відрендерені зображення сторінок.

Чи може хтось відновити метадані з PDF у стилі скану?

Ні, із самого PDF — ні. Оригінальна структура втрачена. Єдині метадані в новому файлі — це те, що записав інструмент перетворення, наприклад власний тег виробника. Якщо перетворення відбувалося локально в браузері, серверної копії теж не існує.

Видалення метаданих — це те саме, що редагування?

Ні. Видалення метаданих прибирає приховані властивості та дані рівня документа. Редагування видаляє видимий вміст зі сторінки. Якщо вам потрібно прибрати імена, номери або текст із самої сторінки, це окремий крок, який має бути виконаний до очищення метаданих. Стаття Чорні смуги — це не редагування пояснює, чому одного візуального маскування недостатньо.

Чи потрібно видаляти метадані з кожного надісланого PDF?

Не обов’язково. Для звичайних документів, які вже є публічними або малоризиковими, метадані нешкідливі. Питання стає важливим, коли документ конфіденційний, отримувач зовнішній або особистість автора має залишатися поза файлом.

Заключна думка

Більшість людей ніколи не перевіряють, що їхній PDF говорить про них, перш ніж надіслати його.

Файл може бути чистим. Або він може містити ваше ім’я, історію правок та GPS-координати кав’ярні, де ви редагували його минулого вівторка.

Якщо документ достатньо важливий, щоб надсилати його акуратно, він достатньо важливий, щоб перевірити. А якщо перевірка виявить більше, ніж ви очікували, є прості способи виправити це до того, як ви натиснете «надіслати».