W zeszłym tygodniu sprawdziłem metadane w PDF, który zamierzałem wysłać. Wciąż zawierał moje pełne imię i nazwisko, wewnętrzną ścieżkę plików mojej firmy oraz dokładny znacznik czasu każdej rewizji, którą przeprowadziłem w ciągu ostatniego miesiąca.

Strona wyglądała czysto. Plik już nie.

Większość ludzi nigdy nie otwiera panelu właściwości PDF przed jego udostępnieniem. Widoczna treść przyciąga całą uwagę. Ale sam plik może powiedzieć znacznie więcej niż to, co jest wydrukowane na stronie, i to właśnie ta ukryta warstwa jest tematem tego wpisu.

Krótka odpowiedź

Metadane PDF mogą zawierać Twoje imię i nazwisko, używane oprogramowanie, znaczniki czasu utworzenia i modyfikacji, historię rewizji, komentarze, a nawet współrzędne GPS z osadzonych obrazów.

Aby je usunąć, masz kilka opcji:

  • użyj edytora metadanych lub narzędzia do oczyszczania, aby usunąć konkretne pola
  • użyj narzędzia wiersza poleceń, takiego jak exiftool, aby mieć pełną kontrolę
  • przekonwertuj PDF na plik obrazowy w stylu skanu, który zastępuje całą strukturę dokumentu i usuwa wszystkie ukryte dane za jednym razem

Jeśli dokument jest ostateczny i opuszcza Twoją organizację, ta ostatnia opcja to najdokładniejszy pojedynczy krok, jaki możesz podjąć.

Co faktycznie zawierają metadane PDF

PDF może nieść trzy warstwy informacji poza tym, co widzisz na stronie.

Pierwsza warstwa to właściwości dokumentu. To metadane, o których myśli większość ludzi: imię autora, tytuł, temat, data utworzenia, data modyfikacji i oprogramowanie, które stworzyło plik. Otwórz dowolny PDF w przeglądarce, sprawdź Plik > Właściwości, a prawdopodobnie zobaczysz pola takie jak “Autor: Jan Kowalski” i “Producent: Microsoft Word 2021.” Te informacje podróżują z plikiem, dokądkolwiek trafi.

Druga warstwa to XMP i osadzone metadane. Są mniej widoczne, ale często bardziej zdradzające. Jeśli Twój PDF zawiera osadzone obrazy, te obrazy mogą wciąż nieść swoje oryginalne dane EXIF, w tym model aparatu, znaczniki czasu i współrzędne GPS. Metadane XMP mogą również zawierać historię edycji, niestandardowe tagi i informacje o licencjach czcionek. Większość ludzi nie wie, że ta warstwa istnieje, ponieważ standardowe przeglądarki PDF jej nie wyświetlają.

Trzecia warstwa to ukryte dane strukturalne. W zależności od tego, jak PDF został utworzony i edytowany, plik może zawierać historię rewizji, usunięty-ale-możliwy-do-odzyskania tekst, komentarze, adnotacje, wartości domyślne pól formularzy, ukryte warstwy, JavaScript i osadzone załączniki plików. To warstwa, która wyrządza najwięcej szkód po wycieku, ponieważ może zawierać treść, którą autor myślał, że usunął.

Jeśli już myślałeś o tego rodzaju ukrytych danych w kontekście przesyłania plików do narzędzi internetowych, Czy bezpieczne jest używanie internetowych narzędzi PDF do poufnych dokumentów? omawia szerszy model zaufania.

Dlaczego to ważniejsze, niż ludzie myślą

Wycieki metadanych nie są dramatyczne. Są ciche, konkretne i trudne do cofnięcia po udostępnieniu pliku.

Identyfikacja autora, gdy anonimowość ma znaczenie. Jeśli PDF został utworzony przez konkretną osobę, pole autora lub wewnętrzna ścieżka plików może prowadzić z powrotem do niej. Ma to znaczenie dla sygnalistów, anonimowych raportów, wyciekniętych dokumentów lub każdej sytuacji, w której tożsamość nadawcy ma pozostać poza plikiem.

Historia rewizji ujawnia strategię negocjacyjną. PDF umowy, który wciąż zawiera śledzone zmiany lub metadane rewizji, może ujawnić Twoją początkową pozycję, co usunąłeś i co złagodziłeś przed wysłaniem ostatecznej wersji. Druga strona nie musi być technicznie zaawansowana, żeby na to natrafić. Niektóre przeglądarki PDF automatycznie wyświetlają dane rewizji.

Znaczniki czasu ujawniają wrażliwe ramy czasowe. Daty utworzenia i modyfikacji mówią komuś, kiedy dokument został rozpoczęty, kiedy ostatnio go zmieniono i ile razy go ruszano. W kontekstach prawnych, zgodności z regulacjami lub konkurencji tego rodzaju informacja o czasie może być ważniejsza niż sama treść.

Współrzędne GPS z osadzonych obrazów. Jeśli wkleiłeś zdjęcie do PDF i to zdjęcie wciąż niesie dane lokalizacyjne EXIF, współrzędne GPS miejsca, w którym zrobiono zdjęcie, są teraz osadzone w pliku. Większość ludzi o tym nie myśli, ponieważ metadane żyją wewnątrz obiektu obrazu, a nie w panelu właściwości PDF.

Wersje oprogramowania zdradzają wewnętrzne narzędzia. Pola takie jak “Producent: Adobe Acrobat Pro DC 24.1.30225” lub “Twórca: Microsoft Word for Microsoft 365” mówią komuś, jakich narzędzi i wersji używa Twoja organizacja. W przypadku większości dokumentów to trywialne. W kontekstach wrażliwych to niepotrzebny wyciek informacji.

Nic z tego nie jest hipotetyczne. To nudne wycieki metadanych, które faktycznie się zdarzają.

Jak sprawdzić, jakie metadane zawiera Twój PDF

Zanim cokolwiek usuniesz, sprawdź, co faktycznie jest w pliku.

Dialog właściwości przeglądarki PDF. W większości czytników PDF opcja Plik > Właściwości lub Właściwości dokumentu pokazuje podstawowe pola: autor, tytuł, temat, data utworzenia, data modyfikacji i aplikacja producenta. To wyłapuje pierwszą warstwę, ale pomija prawie wszystko inne.

exiftool w wierszu poleceń. Uruchomienie exiftool dokument.pdf pokaże Ci wszystko: właściwości dokumentu, dane XMP, osadzone dane EXIF obrazów i pola niestandardowe. To najdokładniejsza metoda inspekcji, ale wymaga znajomości terminala. Jeśli nigdy go nie używałeś, warto go zainstalować choćby po to, żeby zobaczyć, co może zawierać pojedynczy PDF.

Przeglądarki metadanych online. Niektóre strony internetowe pozwalają przesłać PDF, aby sprawdzić jego metadane. Jeśli powodem sprawdzania metadanych jest prywatność, przesyłanie pliku do usługodawcy zewnętrznego w celu inspekcji to wątpliwy krok. Próbujesz się dowiedzieć, czy plik ujawnia informacje, a pierwszym krokiem jest wysłanie go obcemu.

Gdy już wiesz, co jest w pliku, pytanie brzmi, jak to usunąć.

Metody usuwania metadanych z PDF

Nie ma jednej najlepszej metody. Właściwy wybór zależy od tego, co musisz zachować i jak dokładny musisz być.

Adobe Acrobat (Oczyszczanie dokumentu)

Acrobat Pro zawiera funkcje “Usuń ukryte informacje” i “Oczyść dokument”, które mogą usunąć metadane, ukryty tekst, komentarze, dane formularzy, załączniki i inną niewidoczną zawartość. To jedno z najdokładniejszych podejść, jeśli musisz zachować warstwę tekstu i plik musi pozostać przeszukiwalny.

Ograniczeniem jest to, że wymaga płatnej licencji Acrobat Pro. Jeśli już ją masz, to mocna opcja. Jeśli nie, to nie jest ten rodzaj problemu, który sam w sobie uzasadnia subskrypcję.

exiftool i inne narzędzia CLI

exiftool może chirurgicznie usunąć określone pola metadanych lub usunąć wszystko z PDF jednym poleceniem. Jest darmowy, działa na każdej platformie i daje precyzyjną kontrolę nad tym, co dokładnie jest usuwane.

Ograniczeniem jest bariera techniczna. Skupia się też na polach metadanych, a nie na ukrytych danych strukturalnych. Jeśli PDF zawiera historię rewizji, ukryte warstwy lub osadzone obiekty, exiftool ich nie wyłapie. Jest doskonały w tym, co robi, ale nie pokrywa każdej warstwy.

Narzędzia online do usuwania metadanych

Kilka stron internetowych pozwala przesłać PDF, usunąć metadane i pobrać oczyszczoną wersję. Przepływ pracy jest prosty i nie wymaga instalacji oprogramowania.

Ograniczenie powinno być oczywiste. Przesyłasz dokument na serwer strony trzeciej, aby rozwiązać problem z prywatnością. To trochę tak, jakby dawać swój dziennik obcemu, żeby wydarł stronę z Twoim adresem.

Jeśli plik jest niskiego ryzyka, może to być akceptowalny kompromis. Jeśli usuwasz metadane, ponieważ dokument jest wrażliwy, to podejście wprowadza dokładnie taki rodzaj ekspozycji, którego starasz się unikać. Więcej o tym kompromisie w artykule Czy bezpieczne jest używanie internetowych narzędzi PDF do poufnych dokumentów?

Drukowanie do PDF

Ponowne wydrukowanie PDF przez wirtualną drukarkę tworzy nowy plik, który często usuwa nieco metadanych i spłaszcza pewne elementy. Jest bezpłatne i wbudowane w większość systemów operacyjnych.

Wyniki są niespójne. Niektóre wirtualne drukarki wstawiają własne metadane do pliku wyjściowego. Niektóre usuwają dane XMP, inne nie. Osadzone dane EXIF obrazów mogą lub nie mogą przetrwać cały proces. Jeśli używasz tej metody, zawsze weryfikuj wynik, zamiast zakładać, że jest czysty.

Konwersja do PDF w stylu skanu

To podejście konwertuje każdą stronę PDF na obraz, a następnie opakowuje te obrazy w nowy PDF. Ponieważ cała struktura dokumentu jest zastępowana, wszystkie ukryte dane są usuwane: metadane, warstwy tekstu, komentarze, historia rewizji, osadzone pliki, pola formularzy, JavaScript, wszystko. Wynikiem jest nowy PDF zawierający jedynie wyrenderowane obrazy stron.

Kompromisem jest to, że plik nie jest już przeszukiwalny tekstowo. Zachowuje się jak obraz każdej strony. W przypadku dokumentów, które są ostateczne i opuszczają Twoją organizację, ten kompromis jest często wart zachodu. W przypadku dokumentów, które wciąż muszą być przeszukiwane, cytowane lub edytowane dalej, już nie.

Właśnie to robi Look Scanned. Konwertuje PDF na wersję w stylu skanu lokalnie w Twojej przeglądarce, więc plik nigdy nie opuszcza Twojego urządzenia. Wynikiem jest czysty, obrazowy PDF bez ukrytych danych, bez warstw tekstu, bez metadanych z oryginału i bez przetwarzania po stronie serwera, o które trzeba się martwić.

Porównanie

MetodaUsuwa właściwości dokumentuUsuwa ukryte warstwyUsuwa EXIF obrazówZachowuje przeszukiwalność tekstuWymaga przesyłaniaKoszt
Adobe Acrobat (Oczyszczanie)TakTakZależy od ustawieńTakNiePłatny
exiftool / CLITakCzęściowoTakTakNieBezpłatny
Narzędzia metadanych onlineZwykleZwykle nieCzasamiTakTakBezpłatny
Drukowanie do PDFCzęściowoCzęściowoCzasamiZwykleNieBezpłatny
Konwersja skanowa (np. Look Scanned)TakTakTakNieNie (lokalna przeglądarka)Bezpłatny

Żaden wiersz nie jest idealny na każdą sytuację. Pytanie zawsze brzmi, które kompromisy mają znaczenie dla tego konkretnego pliku.

Kiedy każde podejście ma sens

Dokument jest wciąż w trakcie pracy. Usuń metadane za pomocą Acrobat lub exiftool. Zachowaj warstwę tekstu. Usuwanie metadanych na tym etapie to porządki, a nie główne wydarzenie.

Dokument jest ostateczny i opuszcza Twoją organizację. Jeśli przeszukiwalność nie jest krytyczna, konwersja skanowa jest najdokładniejszym pojedynczym krokiem. Usuwa wszystko w jednym przebiegu. Jeśli plik wciąż musi być przeszukiwalny, użyj zamiast tego funkcji oczyszczania Acrobata i zweryfikuj wynik.

Dokument jest bardzo wrażliwy. Połącz podejścia. Najpierw przeprowadź właściwą redakcję, potem oczyszczanie metadanych, a następnie końcową konwersję skanową. Każdy krok obejmuje inną warstwę. Jeśli redakcja jest częścią Twojego przepływu pracy, Czarne paski to nie redakcja wyjaśnia, dlaczego wizualne maskowanie nie wystarcza.

Nie jesteś pewien, co jest w pliku. Najpierw sprawdź za pomocą exiftool lub panelu właściwości. Następnie zdecyduj na podstawie tego, co znalazłeś i dokąd plik trafi. Wybieranie metody usuwania przed zrozumieniem, co trzeba usunąć, prowadzi albo do przesady, albo do pominiętych danych.

Jeśli zastanawiasz się, czy PDF w stylu skanu jest odpowiednim formatem dla Twojej sytuacji, Skanowany PDF vs edytowalny PDF: Który powinieneś wysłać? omawia tę decyzję szerzej.

Przepływ pracy, którego faktycznie używam

  1. Najpierw dokończenie treści dokumentu. Nie oczyszczaj metadanych w pliku, który wciąż się zmienia.
  2. Sprawdzenie metadanych końcowego eksportu. Minimum to Plik > Właściwości. exiftool, jeśli to ma znaczenie.
  3. Usunięcie lub oczyszczenie na podstawie tego, co znalazłem i jak wrażliwe jest miejsce docelowe.
  4. Jeśli plik wychodzi na zewnątrz i nie musi być przeszukiwalny, konwertuję go do PDF w stylu skanu. Look Scanned obsługuje ten krok w przeglądarce bez przesyłania pliku.
  5. Otwarcie wyniku w nowej przeglądarce i weryfikacja. Sprawdzenie właściwości, próba zaznaczenia tekstu, wyszukiwanie terminów, które powinny zniknąć.

Ten ostatni krok wyłapuje więcej pozostałych danych, niż ludzie się spodziewają.

Jeśli spłaszczenie wystarcza w Twojej sytuacji i nie potrzebujesz pełnej konwersji skanowej, Jak spłaszczyć PDF przed wysłaniem omawia tę drogę pośrednią.

FAQ

Czy konwersja do zeskanowanego PDF usuwa wszystkie metadane?

Tak. Konwersja do obrazowego PDF zastępuje całą strukturę pliku. Wynik nie zawiera warstwy tekstu, ukrytych obiektów, właściwości dokumentu z oryginału ani osadzonych metadanych plików. Wynikiem jest nowy PDF zawierający jedynie wyrenderowane obrazy stron.

Czy ktoś może odzyskać metadane z PDF w stylu skanu?

Nie z samego PDF. Oryginalna struktura zniknęła. Jedyne metadane w nowym pliku to te, które zapisuje narzędzie konwersji, takie jak własny tag producenta. Jeśli konwersja odbywa się lokalnie w przeglądarce, nie istnieje również kopia po stronie serwera.

Czy usuwanie metadanych to to samo co redakcja?

Nie. Usuwanie metadanych usuwa ukryte właściwości i dane na poziomie dokumentu. Redakcja usuwa widoczną treść ze strony. Jeśli musisz usunąć nazwiska, numery lub tekst z samej strony, to oddzielny krok, który musi nastąpić przed oczyszczaniem metadanych. Czarne paski to nie redakcja wyjaśnia, dlaczego samo wizualne maskowanie nie wystarcza.

Czy powinienem usuwać metadane z każdego PDF, który wysyłam?

Niekoniecznie. W przypadku rutynowych dokumentów, które są już publiczne lub niskiego ryzyka, metadane są nieszkodliwe. Pytanie staje się ważne, gdy dokument jest wrażliwy, odbiorca jest zewnętrzny lub tożsamość autora powinna pozostać poza plikiem.

Końcowa refleksja

Większość ludzi nigdy nie sprawdza, co ich PDF mówi o nich, zanim go wyślą.

Plik może być czysty. Albo może zawierać Twoje imię i nazwisko, historię rewizji i współrzędne GPS kawiarni, w której edytowałeś go w ostatni wtorek.

Jeśli dokument jest wystarczająco ważny, aby dzielić się nim ostrożnie, jest wystarczająco ważny, aby go sprawdzić. A jeśli sprawdzenie ujawni więcej niż się spodziewałeś, istnieją proste sposoby, aby to naprawić, zanim klikniesz wyślij.