Minulý týden jsem zkontroloval metadata PDF souboru, který jsem se chystal odeslat. Stále v něm bylo mé celé jméno, interní cesta k souboru ve firmě a přesné časové značky každé úpravy za poslední měsíc.
Stránka vypadala čistě. Soubor ne.
Většina lidí nikdy neotevře panel vlastností PDF před jeho sdílením. Veškerá pozornost patří viditelnému obsahu. Ale samotný soubor může říct mnohem více než to, co je vytištěno na stránce, a právě o této skryté vrstvě je tento článek.
Krátká odpověď
Metadata PDF mohou zahrnovat vaše jméno, použitý software, časové značky vytvoření a úprav, historii revizí, komentáře a dokonce GPS souřadnice z vložených obrázků.
K jejich odstranění máte několik možností:
- použít editor metadat nebo nástroj pro čištění k odstranění konkrétních polí
- použít nástroj příkazového řádku jako exiftool pro plnou kontrolu
- převést PDF na soubor založený na obrázcích ve stylu skenu, což nahradí celou strukturu dokumentu a odstraní všechna skrytá data najednou
Pokud je dokument finální a míří mimo vaši organizaci, poslední možnost je nejdůkladnější krok, který můžete podniknout.
Co metadata PDF skutečně obsahují
PDF může nést tři vrstvy informací nad rámec toho, co vidíte na stránce.
První vrstva jsou vlastnosti dokumentu. To jsou metadata, na která většina lidí myslí: jméno autora, název, předmět, datum vytvoření, datum úpravy a software, který soubor vytvořil. Otevřete jakýkoli PDF v prohlížeči, zkontrolujte Soubor > Vlastnosti a pravděpodobně uvidíte pole jako „Autor: Jan Novák" a „Producent: Microsoft Word 2021." Tyto informace cestují se souborem, kamkoli se dostane.
Druhá vrstva jsou XMP a vložená metadata. Jsou méně viditelná, ale často více prozrazující. Pokud váš PDF obsahuje vložené obrázky, tyto obrázky mohou stále nést svá původní data EXIF, včetně modelu fotoaparátu, časových značek a GPS souřadnic. Metadata XMP mohou také zahrnovat historii úprav, vlastní tagy a informace o licencování písem. Většina lidí o existenci této vrstvy neví, protože standardní prohlížeče PDF ji nezobrazují.
Třetí vrstva jsou skrytá strukturální data. V závislosti na tom, jak bylo PDF vytvořeno a upraveno, může soubor obsahovat historii revizí, smazaný, ale obnovitelný text, komentáře, anotace, výchozí hodnoty polí formulářů, skryté vrstvy, JavaScript a vložené přílohy. Toto je vrstva, která způsobuje největší škody při úniku, protože může zahrnovat obsah, o kterém si autor myslel, že ho odstranil.
Pokud jste už přemýšleli o tomto druhu skrytých dat v kontextu nahrávání souborů do online nástrojů, článek Je bezpečné používat online nástroje pro práci s citlivými PDF? pokrývá širší model důvěry.
Proč na tom záleží více, než si lidé myslí
Úniky metadat nejsou dramatické. Jsou tiché, konkrétní a těžko napravitelné poté, co byl soubor sdílen.
Identifikace autora, když záleží na anonymitě. Pokud bylo PDF vytvořeno konkrétní osobou, pole autora nebo interní cesta k souboru mohou vést zpět k ní. To je důležité pro whistleblowery, anonymní zprávy, uniklé dokumenty nebo jakoukoli situaci, kde má identita odesílatele zůstat mimo soubor.
Historie revizí odhalující vyjednávací strategii. PDF smlouvy, který stále obsahuje sledované změny nebo metadata revizí, může odhalit vaši výchozí pozici, co jste smazali a co jste zmírnili před odesláním finální verze. Druhá strana nemusí být technicky zdatná, aby na to narazila. Některé prohlížeče PDF automaticky zobrazují data o revizích.
Časové značky odhalující citlivé termíny. Data vytvoření a úprav říkají někomu, kdy byl dokument zahájen, kdy byl naposledy změněn a kolikrát se na něj sahalo. V právním, compliance nebo konkurenčním kontextu může být taková informace o načasování důležitější než samotný obsah.
GPS souřadnice z vložených obrázků. Pokud jste vložili fotografii do PDF a tato fotografie stále nese údaje o poloze EXIF, GPS souřadnice místa, kde byl snímek pořízen, jsou nyní vloženy v souboru. Většina lidí o tom nepřemýšlí, protože metadata jsou uvnitř objektu obrázku, ne na panelu vlastností PDF.
Verze softwaru odhalující interní nástroje. Pole jako „Producer: Adobe Acrobat Pro DC 24.1.30225" nebo „Creator: Microsoft Word for Microsoft 365" říkají někomu, jaké nástroje a verze vaše organizace používá. Pro většinu dokumentů je to triviální. Pro citlivé kontexty je to zbytečný únik informací.
Nic z výše uvedeného není hypotetické. Jsou to běžné úniky metadat, které se skutečně dějí.
Jak zkontrolovat, jaká metadata váš PDF obsahuje
Než cokoli odstraníte, podívejte se, co je skutečně v souboru.
Dialog vlastností prohlížeče PDF. Ve většině PDF čteček Soubor > Vlastnosti nebo Vlastnosti dokumentu zobrazuje základní pole: autor, název, předmět, datum vytvoření, datum úpravy a produkční aplikace. To odhalí první vrstvu, ale mine téměř vše ostatní.
exiftool na příkazovém řádku. Spuštění exiftool document.pdf vám ukáže vše: vlastnosti dokumentu, data XMP, EXIF vložených obrázků a vlastní pole. Jde o nejkompletnější metodu kontroly, ale vyžaduje práci s terminálem. Pokud jste ho nikdy předtím nepoužívali, stojí za to ho nainstalovat jen proto, abyste viděli, co může jeden PDF obsahovat.
Online prohlížeče metadat. Některé webové stránky vám umožní nahrát PDF ke kontrole jeho metadat. Pokud je důvodem kontroly metadat soukromí, nahrání souboru na službu třetí strany k jeho kontrole je pochybný krok. Snažíte se zjistit, zda ze souboru unikají informace, a prvním krokem ho pošlete cizímu člověku.
Jakmile víte, co je v souboru, nastává otázka, jak to odstranit.
Metody odstranění metadat z PDF
Neexistuje jediná nejlepší metoda. Správná volba závisí na tom, co potřebujete zachovat a jak důkladní musíte být.
Adobe Acrobat (Sanitize Document)
Acrobat Pro zahrnuje funkce „Odstranit skryté informace" a „Vyčistit dokument", které mohou odstranit metadata, skrytý text, komentáře, data formulářů, přílohy a další neviditelný obsah. Jde o jeden z nejkompletnějších přístupů, pokud potřebujete zachovat textovou vrstvu a možnost vyhledávání v souboru.
Omezení spočívá v tom, že vyžaduje placenou licenci Acrobat Pro. Pokud ji už máte, je to silná volba. Pokud ne, toto není problém, který sám o sobě ospravedlňuje předplatné.
exiftool a další nástroje příkazového řádku
exiftool může chirurgicky odstranit konkrétní pole metadat nebo vyčistit vše z PDF jedním příkazem. Je zdarma, běží na jakékoli platformě a dává přesnou kontrolu nad tím, co přesně je odstraněno.
Omezením je technická bariéra. Také se zaměřuje na pole metadat, nikoli na skrytá strukturální data. Pokud PDF obsahuje historii revizí, skryté vrstvy nebo vložené objekty, exiftool je neodhalí. Výborně zvládá svůj úkol, ale nepokrývá každou vrstvu.
Online nástroje pro odstranění metadat
Několik webových stránek vám umožní nahrát PDF, odstranit metadata a stáhnout vyčištěnou verzi. Postup je jednoduchý a nevyžaduje instalaci softwaru.
Omezení by mělo být zřejmé. Nahráváte dokument na server třetí strany, abyste vyřešili problém se soukromím. Je to trochu jako dát svůj deník cizímu člověku, aby vytrhl stránku s vaší adresou.
Pokud je soubor nízce rizikový, může to být přijatelný kompromis. Pokud odstraňujete metadata, protože je dokument citlivý, tento přístup vytváří přesně ten typ ohrožení, kterému se snažíte vyhnout. Více o tomto kompromisu najdete v článku Je bezpečné používat online nástroje pro práci s citlivými PDF?.
Tisk do PDF
Opětovný tisk PDF přes virtuální tiskárnu vytvoří nový soubor, ze kterého se často odstraní některá metadata a zploští určité prvky. Je to zdarma a zabudované ve většině operačních systémů.
Výsledky jsou nekonzistentní. Některé virtuální tiskárny vkládají do výstupu vlastní metadata. Některé odstraní data XMP, jiné ne. EXIF vložených obrázků může, ale nemusí tento proces přežít. Pokud tuto metodu používáte, vždy ověřte výsledek, místo abyste předpokládali, že je čistý.
Převod na PDF ve stylu skenu
Tento přístup převede každou stránku PDF na obrázek a poté tyto obrázky zabalí do nového PDF. Protože je celá struktura dokumentu nahrazena, všechna skrytá data jsou odstraněna: metadata, textové vrstvy, komentáře, historie revizí, vložené soubory, pole formulářů, JavaScript — vše. Výstupem je nový PDF obsahující pouze vykreslené obrázky stránek.
Kompromis spočívá v tom, že soubor už není textově prohledávatelný. Chová se jako fotografie každé stránky. Pro dokumenty, které jsou finální a míří mimo organizaci, je tento kompromis často oprávněný. Pro dokumenty, ve kterých je ještě potřeba vyhledávat, citovat je nebo dále upravovat — ne.
Přesně to dělá Look Scanned. Převede PDF na verzi ve stylu skenu lokálně ve vašem prohlížeči, takže soubor nikdy neopustí vaše zařízení. Výsledkem je čistý PDF založený na obrázcích bez skrytých dat, bez textových vrstev, bez metadat z originálu a bez serverového zpracování, o které byste se museli starat.
Srovnání
| Metoda | Odstraní vlastnosti dokumentu | Odstraní skryté vrstvy | Odstraní EXIF obrázků | Zachová textové vyhledávání | Vyžaduje nahrání | Cena |
|---|---|---|---|---|---|---|
| Adobe Acrobat (Sanitize) | Ano | Ano | Závisí na nastavení | Ano | Ne | Placená |
| exiftool / CLI | Ano | Částečně | Ano | Ano | Ne | Zdarma |
| Online nástroje pro metadata | Obvykle | Obvykle ne | Někdy | Ano | Ano | Zdarma |
| Tisk do PDF | Částečně | Částečně | Někdy | Obvykle | Ne | Zdarma |
| Převod ve stylu skenu (např. Look Scanned) | Ano | Ano | Ano | Ne | Ne (lokálně v prohlížeči) | Zdarma |
Žádný řádek není dokonalý pro každou situaci. Otázka je vždy, jaké kompromisy jsou důležité pro tento konkrétní soubor.
Kdy má který přístup smysl
Dokument je stále ve vývoji. Odstraňte metadata pomocí Acrobatu nebo exiftool. Zachovejte textovou vrstvu. Odstranění metadat v této fázi je údržba, nikoli hlavní událost.
Dokument je finální a míří mimo organizaci. Pokud prohledávatelnost není kritická, převod ve stylu skenu je nejdůkladnější krok. Odstraní vše v jednom průchodu. Pokud soubor stále potřebuje být prohledávatelný, použijte funkci Sanitize v Acrobatu a výsledek ověřte.
Dokument je vysoce citlivý. Kombinujte přístupy. Nejprve proveďte řádnou redakci, poté vyčištění metadat, poté finální převod ve stylu skenu. Každý krok pokrývá jinou vrstvu. Pokud je redakce součástí vašeho pracovního postupu, článek Černé pruhy nejsou redakce vysvětluje, proč vizuální maskování nestačí.
Nejste si jisti, co je v souboru. Nejprve zkontrolujte pomocí exiftool nebo panelu vlastností. Poté se rozhodněte na základě toho, co jste našli a kam soubor míří. Výběr metody odstranění před pochopením toho, co je potřeba odstranit, vede buď k přehnaným opatřením, nebo k přehlédnutým datům.
Pokud zvažujete, zda je PDF ve stylu skenu správný formát pro vaši situaci, článek Skenované PDF vs editovatelné PDF: které poslat? se tomuto rozhodnutí věnuje šířeji.
Pracovní postup, který skutečně používám
- Nejprve dokončete obsah dokumentu. Nečistěte metadata v souboru, který se stále mění.
- Zkontrolujte metadata finálního exportu. Minimálně Soubor > Vlastnosti. exiftool, pokud na tom záleží.
- Odstraňte nebo vyčistěte na základě toho, co jste našli a jak citlivý je příjemce.
- Pokud soubor míří ven a nemusí být prohledávatelný, převedu ho na PDF ve stylu skenu. Look Scanned tento krok zvládne v prohlížeči bez nahrávání souboru.
- Otevřete výsledek v novém prohlížeči a ověřte. Zkontrolujte vlastnosti, zkuste vybrat text, hledejte výrazy, které měly zmizet.
Poslední krok odhalí více zbytků dat, než lidé očekávají.
Pokud zploštění pro vaši situaci stačí a nepotřebujete plný převod ve stylu skenu, článek Jak zploštit PDF před odesláním se věnuje tomuto střednímu řešení.
Často kladené otázky
Odstraní převod na skenované PDF všechna metadata?
Ano. Převod na PDF založený na obrázcích nahradí celou strukturu souboru. Výsledek neobsahuje žádnou textovou vrstvu, žádné skryté objekty, žádné vlastnosti dokumentu z originálu a žádná vložená metadata souborů. Výstupem je nový PDF obsahující pouze vykreslené obrázky stránek.
Může někdo obnovit metadata z PDF ve stylu skenu?
Ne, ze samotného PDF ne. Původní struktura je pryč. Jediná metadata v novém souboru jsou ta, která zapsal nástroj pro převod, jako například vlastní tag producenta. Pokud k převodu došlo lokálně v prohlížeči, neexistuje ani serverová kopie.
Je odstranění metadat totéž co redakce?
Ne. Odstranění metadat odstraní skryté vlastnosti a data na úrovni dokumentu. Redakce odstraní viditelný obsah ze stránky. Pokud potřebujete odstranit jména, čísla nebo text ze samotné stránky, jde o samostatný krok, který musí proběhnout před čištěním metadat. Článek Černé pruhy nejsou redakce vysvětluje, proč samotné vizuální maskování nestačí.
Měl bych odstraňovat metadata z každého odeslaného PDF?
Ne nutně. U běžných dokumentů, které jsou již veřejné nebo nízce rizikové, jsou metadata neškodná. Otázka se stává důležitou, když je dokument citlivý, příjemce je externí nebo identita autora má zůstat mimo soubor.
Závěrečná myšlenka
Většina lidí nikdy nekontroluje, co jejich PDF říká o nich, než ho odešle.
Soubor může být čistý. Nebo může obsahovat vaše jméno, vaši historii revizí a GPS souřadnice kavárny, kde jste ho minulé úterý upravovali.
Pokud je dokument dostatečně důležitý na to, abyste ho sdíleli opatrně, je dostatečně důležitý na to, abyste ho zkontrolovali. A pokud kontrola odhalí více, než jste čekali, existují přímočaré způsoby, jak to napravit, než stisknete odeslat.