На прошлой неделе я проверил метаданные PDF-файла, который собирался отправить. В нём всё ещё были моё полное имя, внутренний путь к файлу в компании и точные временные метки каждой правки за последний месяц.
Страница выглядела чисто. Файл — нет.
Большинство людей никогда не открывают панель свойств PDF перед отправкой. Всё внимание достаётся видимому содержимому. Но сам файл может рассказать гораздо больше, чем то, что напечатано на странице, и именно об этом скрытом слое пойдёт речь в этой статье.
Короткий ответ
Метаданные PDF могут включать ваше имя, используемое программное обеспечение, временные метки создания и изменения, историю правок, комментарии и даже GPS-координаты из встроенных изображений.
Чтобы их удалить, у вас есть несколько вариантов:
- использовать редактор метаданных или инструмент очистки для удаления конкретных полей
- использовать командную утилиту вроде exiftool для полного контроля
- преобразовать PDF в файл на основе изображений в стиле скана, что заменяет всю структуру документа и удаляет все скрытые данные за один раз
Если документ окончательный и отправляется за пределы организации, последний вариант — самый тщательный шаг, который можно предпринять.
Что на самом деле содержат метаданные PDF
PDF может нести три слоя информации помимо того, что вы видите на странице.
Первый слой — это свойства документа. Это метаданные, о которых думает большинство людей: имя автора, заголовок, тема, дата создания, дата изменения и программа, которая создала файл. Откройте любой PDF в просмотрщике, проверьте Файл > Свойства, и вы, вероятно, увидите такие поля, как «Автор: Иванова Мария» и «Производитель: Microsoft Word 2021». Эта информация путешествует с файлом, куда бы он ни попал.
Второй слой — это XMP и встроенные метаданные. Они менее заметны, но часто более информативны. Если ваш PDF содержит встроенные изображения, эти изображения могут всё ещё нести свои исходные данные EXIF, включая модель камеры, временные метки и GPS-координаты. Метаданные XMP также могут включать историю редактирования, пользовательские теги и информацию о лицензировании шрифтов. Большинство людей не знают о существовании этого слоя, потому что стандартные просмотрщики PDF его не показывают.
Третий слой — это скрытые структурные данные. В зависимости от того, как PDF был создан и отредактирован, файл может содержать историю правок, удалённый, но восстановимый текст, комментарии, аннотации, значения по умолчанию для полей форм, скрытые слои, JavaScript и встроенные вложения. Это тот слой, который причиняет наибольший ущерб при утечке, потому что может включать содержимое, которое автор считал удалённым.
Если вы уже задумывались о подобных скрытых данных в контексте загрузки файлов в онлайн-инструменты, статья Безопасно ли использовать онлайн-инструменты для работы с конфиденциальными PDF? охватывает более широкую модель доверия.
Почему это важнее, чем думают люди
Утечки метаданных не драматичны. Они тихие, конкретные и трудно устранимые после того, как файл был отправлен.
Идентификация автора, когда важна анонимность. Если PDF был создан конкретным человеком, поле автора или внутренний путь к файлу могут привести к нему. Это важно для информаторов, анонимных отчётов, утечённых документов или любой ситуации, где личность отправителя должна оставаться за пределами файла.
История правок, раскрывающая стратегию переговоров. PDF контракта, который всё ещё содержит отслеживаемые изменения или метаданные правок, может раскрыть вашу исходную позицию, что вы удалили и что смягчили перед отправкой финальной версии. Другой стороне не нужно быть технически подкованной, чтобы наткнуться на это. Некоторые просмотрщики PDF автоматически показывают данные о правках.
Временные метки, раскрывающие конфиденциальные сроки. Даты создания и изменения говорят кому-то, когда документ был начат, когда был изменён в последний раз и сколько раз к нему обращались. В юридическом, комплаенс или конкурентном контексте такая информация о сроках может быть важнее самого содержания.
GPS-координаты из встроенных изображений. Если вы вставили фотографию в PDF, и эта фотография всё ещё несёт данные о местоположении EXIF, GPS-координаты места, где было сделано изображение, теперь встроены в файл. Большинство людей не думают об этом, потому что метаданные находятся внутри объекта изображения, а не на панели свойств PDF.
Версии программ, раскрывающие внутренние инструменты. Такие поля, как «Producer: Adobe Acrobat Pro DC 24.1.30225» или «Creator: Microsoft Word for Microsoft 365», сообщают кому-то, какие инструменты и версии использует ваша организация. Для большинства документов это тривиально. Для конфиденциальных контекстов это ненужная утечка информации.
Ничто из перечисленного не является гипотетическим. Это обычные утечки метаданных, которые действительно происходят.
Как проверить, какие метаданные содержит ваш PDF
Прежде чем что-то удалять, посмотрите, что на самом деле находится в файле.
Диалог свойств просмотрщика PDF. В большинстве PDF-ридеров Файл > Свойства или Свойства документа показывает основные поля: автор, заголовок, тема, дата создания, дата изменения и программа-производитель. Это обнаруживает первый слой, но упускает почти всё остальное.
exiftool в командной строке. Запуск exiftool document.pdf покажет вам всё: свойства документа, данные XMP, EXIF встроенных изображений и пользовательские поля. Это самый полный метод проверки, но требует навыков работы с терминалом. Если вы никогда его раньше не использовали, его стоит установить хотя бы для того, чтобы увидеть, что может содержать один PDF.
Онлайн-просмотрщики метаданных. Некоторые сайты позволяют загрузить PDF для проверки его метаданных. Если причина, по которой вы проверяете метаданные, — это конфиденциальность, загрузка файла в сторонний сервис для его проверки — сомнительный шаг. Вы пытаетесь выяснить, не утекает ли информация из файла, и первым делом отправляете его незнакомцу.
Когда вы знаете, что содержится в файле, встаёт вопрос, как это удалить.
Методы удаления метаданных из PDF
Единого лучшего метода не существует. Правильный выбор зависит от того, что нужно сохранить и насколько тщательно нужно очистить файл.
Adobe Acrobat (Sanitize Document)
Acrobat Pro включает функции «Удалить скрытую информацию» и «Очистить документ», которые могут удалить метаданные, скрытый текст, комментарии, данные форм, вложения и другое невидимое содержимое. Это один из самых полных подходов, если вам нужно сохранить текстовый слой и возможность поиска по файлу.
Ограничение в том, что требуется платная лицензия Acrobat Pro. Если она у вас уже есть, это сильный вариант. Если нет, это не та проблема, которая сама по себе оправдывает подписку.
exiftool и другие утилиты командной строки
exiftool может хирургически удалить конкретные поля метаданных или очистить всё из PDF одной командой. Он бесплатный, работает на любой платформе и даёт точный контроль над тем, что именно удаляется.
Ограничение — технический барьер. Также он фокусируется на полях метаданных, а не на скрытых структурных данных. Если PDF содержит историю правок, скрытые слои или встроенные объекты, exiftool их не обнаружит. Он отлично справляется со своей задачей, но не охватывает каждый слой.
Онлайн-инструменты для удаления метаданных
Несколько сайтов позволяют загрузить PDF, удалить метаданные и скачать очищенную версию. Процесс прост и не требует установки программ.
Ограничение должно быть очевидным. Вы загружаете документ на сторонний сервер, чтобы решить проблему конфиденциальности. Это немного похоже на то, как отдать свой дневник незнакомцу, чтобы он вырвал страницу с вашим адресом.
Если файл малорисковый, это может быть приемлемым компромиссом. Если вы удаляете метаданные, потому что документ конфиденциален, этот подход создаёт именно тот тип угрозы, которого вы пытаетесь избежать. Подробнее об этом компромиссе — в статье Безопасно ли использовать онлайн-инструменты для работы с конфиденциальными PDF?.
Печать в PDF
Повторная печать PDF через виртуальный принтер создаёт новый файл, из которого часто удаляются некоторые метаданные и сглаживаются определённые элементы. Это бесплатно и встроено в большинство операционных систем.
Результаты непоследовательны. Некоторые виртуальные принтеры добавляют свои собственные метаданные в результат. Некоторые удаляют данные XMP, другие нет. EXIF встроенных изображений может пережить, а может и не пережить этот процесс. Если вы используете этот метод, всегда проверяйте результат, а не предполагайте, что он чист.
Преобразование в PDF в стиле скана
Этот подход преобразует каждую страницу PDF в изображение, а затем собирает эти изображения в новый PDF. Поскольку вся структура документа заменяется, все скрытые данные удаляются: метаданные, текстовые слои, комментарии, история правок, встроенные файлы, поля форм, JavaScript — всё. На выходе получается новый PDF, содержащий только отрендеренные изображения страниц.
Компромисс в том, что файл больше не поддерживает текстовый поиск. Он ведёт себя как фотография каждой страницы. Для документов, которые окончательны и отправляются за пределы организации, этот компромисс часто оправдан. Для документов, которые ещё нужно искать, цитировать или редактировать дальше — нет.
Именно это делает Look Scanned. Он преобразует PDF в версию в стиле скана локально в вашем браузере, так что файл никогда не покидает ваше устройство. Результат — чистый PDF на основе изображений без скрытых данных, без текстовых слоёв, без метаданных из оригинала и без серверной обработки, о которой стоит беспокоиться.
Сравнение
| Метод | Удаляет свойства документа | Удаляет скрытые слои | Удаляет EXIF изображений | Сохраняет текстовый поиск | Требует загрузки | Стоимость |
|---|---|---|---|---|---|---|
| Adobe Acrobat (Sanitize) | Да | Да | Зависит от настроек | Да | Нет | Платно |
| exiftool / CLI | Да | Частично | Да | Да | Нет | Бесплатно |
| Онлайн-инструменты для метаданных | Обычно | Обычно нет | Иногда | Да | Да | Бесплатно |
| Печать в PDF | Частично | Частично | Иногда | Обычно | Нет | Бесплатно |
| Преобразование в стиль скана (напр. Look Scanned) | Да | Да | Да | Нет | Нет (локально в браузере) | Бесплатно |
Ни одна строка не идеальна для каждой ситуации. Вопрос всегда в том, какие компромиссы важны для конкретного файла.
Когда какой подход имеет смысл
Документ всё ещё в работе. Удалите метаданные с помощью Acrobat или exiftool. Сохраните текстовый слой. Удаление метаданных на этом этапе — это текущее обслуживание, а не главное событие.
Документ окончательный и отправляется за пределы организации. Если возможность поиска не критична, преобразование в стиль скана — самый тщательный шаг. Оно удаляет всё за один проход. Если файл всё ещё должен поддерживать поиск, используйте функцию Sanitize в Acrobat и проверьте результат.
Документ крайне конфиденциален. Комбинируйте подходы. Сначала выполните надлежащее редактирование, затем очистку метаданных, затем финальное преобразование в стиль скана. Каждый шаг охватывает свой слой. Если редактирование является частью вашего рабочего процесса, статья Чёрные полосы — это не редактирование объясняет, почему визуального маскирования недостаточно.
Вы не уверены, что содержится в файле. Сначала проверьте с помощью exiftool или панели свойств. Затем примите решение на основе того, что нашли, и куда файл отправляется. Выбор метода удаления до понимания того, что нужно удалить, приводит либо к избыточным мерам, либо к пропущенным данным.
Если вы взвешиваете, подходит ли PDF в стиле скана для вашей ситуации, статья Сканированный PDF или редактируемый PDF: какой отправить? рассматривает этот вопрос более широко.
Рабочий процесс, который я реально использую
- Сначала завершите содержание документа. Не очищайте метаданные в файле, который ещё меняется.
- Проверьте метаданные финального экспорта. Минимум — Файл > Свойства. exiftool — если это важно.
- Удалите или очистите на основе того, что нашли, и насколько конфиденциален получатель.
- Если файл отправляется за пределы и не должен поддерживать поиск, я конвертирую его в PDF в стиле скана. Look Scanned выполняет этот шаг в браузере без загрузки файла.
- Откройте результат в новом просмотрщике и проверьте. Проверьте свойства, попробуйте выделить текст, поищите термины, которые должны были исчезнуть.
Последний шаг обнаруживает больше оставшихся данных, чем люди ожидают.
Если сведение достаточно для вашей ситуации и вам не нужно полное преобразование в стиль скана, статья Как свести PDF перед отправкой рассматривает эту промежуточную альтернативу.
Часто задаваемые вопросы
Удаляет ли преобразование в сканированный PDF все метаданные?
Да. Преобразование в PDF на основе изображений заменяет всю структуру файла. Результат не содержит текстового слоя, скрытых объектов, свойств документа из оригинала и встроенных метаданных файлов. На выходе — новый PDF, содержащий только отрендеренные изображения страниц.
Может ли кто-то восстановить метаданные из PDF в стиле скана?
Нет, из самого PDF — нет. Исходная структура утрачена. Единственные метаданные в новом файле — это то, что записал инструмент преобразования, например собственный тег производителя. Если преобразование происходило локально в браузере, серверной копии тоже не существует.
Удаление метаданных — это то же самое, что редактирование?
Нет. Удаление метаданных убирает скрытые свойства и данные уровня документа. Редактирование удаляет видимое содержимое со страницы. Если вам нужно убрать имена, номера или текст с самой страницы, это отдельный шаг, который должен быть выполнен до очистки метаданных. Статья Чёрные полосы — это не редактирование объясняет, почему одного визуального маскирования недостаточно.
Нужно ли удалять метаданные из каждого отправляемого PDF?
Не обязательно. Для обычных документов, которые уже являются публичными или малорисковыми, метаданные безвредны. Вопрос становится важным, когда документ конфиденциален, получатель внешний или личность автора должна оставаться за пределами файла.
Заключительная мысль
Большинство людей никогда не проверяют, что их PDF говорит о них, прежде чем отправить его.
Файл может быть чистым. Или он может содержать ваше имя, историю правок и GPS-координаты кофейни, где вы редактировали его в прошлый вторник.
Если документ достаточно важен, чтобы отправлять его аккуратно, он достаточно важен, чтобы проверить. А если проверка выявит больше, чем вы ожидали, есть простые способы исправить это до того, как вы нажмёте «отправить».