A múlt héten ellenőriztem egy PDF metaadatait, amelyet éppen küldeni készültem. Még mindig tartalmazta a teljes nevemet, a cégem belső fájlútvonalát és az elmúlt hónap minden módosításának pontos időbélyegeit.

Az oldal tisztának tűnt. A fájl nem.

A legtöbb ember soha nem nyitja meg a PDF tulajdonságok panelját megosztás előtt. A látható tartalom kapja az összes figyelmet. De maga a fájl sokkal többet mondhat annál, ami az oldalon van nyomtatva, és ez a rejtett réteg az, amiről ez a bejegyzés szól.

A rövid válasz

A PDF metaadatok tartalmazhatják a nevedet, a használt szoftvert, a létrehozás és módosítás időbélyegeit, a verziótörténetet, megjegyzéseket, és akár GPS-koordinátákat a beágyazott képekből.

Az eltávolításhoz több lehetőséged van:

  • használj metaadat-szerkesztőt vagy tisztítóeszközt konkrét mezők eltávolítására
  • használj parancssori eszközt, mint az exiftool, a teljes kontroll érdekében
  • konvertáld a PDF-et szkennelt stílusú, képalapú fájllá, ami lecseréli a teljes dokumentumstruktúrát és egyszerre eltávolít minden rejtett adatot

Ha a dokumentum végleges és a szervezeten kívülre kerül, az utolsó lehetőség a legalaposabb lépés, amit tehetsz.

Mit tartalmaznak valójában a PDF metaadatok

Egy PDF három információréteget hordozhat azon túl, amit az oldalon látsz.

Az első réteg a dokumentumtulajdonságok. Ez az a metaadat, amire a legtöbb ember gondol: szerző neve, cím, tárgy, létrehozás dátuma, módosítás dátuma és a fájlt előállító szoftver. Nyiss meg bármely PDF-et egy megjelenítőben, nézd meg a Fájl > Tulajdonságok menüpontot, és valószínűleg ilyen mezőket látsz: „Szerző: Kovács János" és „Készítő: Microsoft Word 2021." Ez az információ a fájllal utazik, bárhová is kerül.

A második réteg az XMP és beágyazott metaadatok. Ezek kevésbé láthatóak, de gyakran többet árulnak el. Ha a PDF-ed beágyazott képeket tartalmaz, ezek a képek még mindig hordozhatják eredeti EXIF adataikat, beleértve a kameramodellt, időbélyegeket és GPS-koordinátákat. Az XMP metaadatok szerkesztési előzményeket, egyéni címkéket és betűtípus-licencelési információkat is tartalmazhatnak. A legtöbb ember nem tud ennek a rétegnek a létezéséről, mert a szabványos PDF-megjelenítők nem mutatják.

A harmadik réteg a rejtett strukturális adatok. Attól függően, hogyan készült és szerkesztették a PDF-et, a fájl tartalmazhat verziótörténetet, törölt de helyreállítható szöveget, megjegyzéseket, annotációkat, űrlapmezők alapértékeit, rejtett rétegeket, JavaScript-et és beágyazott fájlmellékleteket. Ez az a réteg, amely a legtöbb kárt okozza kiszivárgáskor, mert olyan tartalmat is magában foglalhat, amelyről a szerző azt hitte, hogy eltávolította.

Ha már gondolkodtál az ilyen rejtett adatokról a fájlok online eszközökbe való feltöltése kapcsán, a Biztonságos-e online PDF-eszközöket használni bizalmas dokumentumokhoz? című cikk a szélesebb bizalmi modellt tárgyalja.

Miért fontosabb ez, mint az emberek gondolják

A metaadat-kiszivárgások nem drámaiak. Csendesek, konkrétak és nehezen visszavonhatók, miután a fájl megosztásra került.

Szerzőazonosítás, amikor az anonimitás fontos. Ha a PDF-et egy konkrét személy készítette, a szerző mező vagy a belső fájlútvonal visszavezethető hozzá. Ez fontos a visszaélés-bejelentők, anonim jelentések, kiszivárgott dokumentumok vagy bármely olyan helyzet esetén, ahol a küldő személyazonosságának a fájlon kívül kell maradnia.

Verziótörténet, ami felfedi a tárgyalási stratégiát. Egy szerződés PDF, amely még mindig tartalmazza a követett változtatásokat vagy verzió-metaadatokat, felfedheti a kiindulási pozíciódat, mit töröltél és mit enyhítettél a végleges verzió küldése előtt. A másik félnek nem kell technikai szakértőnek lennie, hogy erre rábukkanjon. Egyes PDF-megjelenítők automatikusan megmutatják a verzióadatokat.

Időbélyegek, amelyek érzékeny időzítést árulnak el. A létrehozási és módosítási dátumok elárulják valakinek, mikor indult a dokumentum, mikor módosították utoljára és hányszor nyúltak hozzá. Jogi, megfelelőségi vagy versenykontextusban az ilyen időzítési információ fontosabb lehet magánál a tartalommal.

GPS-koordináták beágyazott képekből. Ha beillesztettél egy fényképet a PDF-be, és az a fénykép még mindig hordozza az EXIF helyadatokat, a kép készítési helyének GPS-koordinátái most beágyazódtak a fájlba. A legtöbb ember nem gondol erre, mert a metaadatok a képobjektumon belül vannak, nem a PDF tulajdonságok paneljén.

Szoftververziók, amelyek belső eszközöket árulnak el. Az olyan mezők, mint „Producer: Adobe Acrobat Pro DC 24.1.30225" vagy „Creator: Microsoft Word for Microsoft 365", elárulják valakinek, milyen eszközöket és verziókat használ a szervezeted. A legtöbb dokumentum esetében ez triviális. Érzékeny kontextusban felesleges információszivárgás.

Ezek egyike sem hipotetikus. Ezek azok a hétköznapi metaadat-kiszivárgások, amelyek tényleg megtörténnek.

Hogyan ellenőrizd, milyen metaadatokat tartalmaz a PDF-ed

Mielőtt bármit eltávolítanál, nézd meg, mi van ténylegesen a fájlban.

PDF-megjelenítő tulajdonságok párbeszédablaka. A legtöbb PDF-olvasóban a Fájl > Tulajdonságok vagy Dokumentumtulajdonságok az alapvető mezőket mutatja: szerző, cím, tárgy, létrehozás dátuma, módosítás dátuma és az előállító alkalmazás. Ez az első réteget fedi fel, de szinte minden mást kihagy.

exiftool a parancssorban. Az exiftool document.pdf parancs futtatása mindent megmutat: dokumentumtulajdonságok, XMP adatok, beágyazott képek EXIF adatai és egyéni mezők. Ez a legteljesebb ellenőrzési módszer, de terminálismeretet igényel. Ha még soha nem használtad, érdemes telepíteni csak azért, hogy lásd, mit tartalmazhat egyetlen PDF.

Online metaadat-megjelenítők. Egyes weboldalak lehetővé teszik PDF feltöltését a metaadatainak ellenőrzéséhez. Ha az ok, amiért ellenőrzöd a metaadatokat, az adatvédelem, akkor a fájl feltöltése egy harmadik fél szolgáltatásába az ellenőrzés céljából megkérdőjelezhető lépés. Azt próbálod kideríteni, hogy szivárog-e információ a fájlból, és az első lépésként elkuldöd egy idegennek.

Ha már tudod, mi van a fájlban, a kérdés az, hogyan távolítsd el.

Módszerek a PDF metaadatok eltávolítására

Nincs egyetlen legjobb módszer. A helyes választás attól függ, mit kell megtartani és mennyire alaposnak kell lenni.

Adobe Acrobat (Sanitize Document)

Az Acrobat Pro tartalmazza a „Rejtett információk eltávolítása" és a „Dokumentum tisztítása" funkciókat, amelyek eltávolíthatják a metaadatokat, rejtett szöveget, megjegyzéseket, űrlapadatokat, mellékleteket és egyéb nem látható tartalmat. Ez az egyik legteljesebb megközelítés, ha meg kell tartani a szövegréteget és a fájl kereshetőségét.

A korlátozás az, hogy fizetős Acrobat Pro licencet igényel. Ha már megvan, ez egy erős lehetőség. Ha nincs, ez nem az a probléma, amely önmagában indokolja az előfizetést.

exiftool és más parancssori eszközök

Az exiftool sebészi pontossággal távolíthat el konkrét metaadat-mezőket, vagy egyetlen paranccsal mindent megtisztíthat a PDF-ből. Ingyenes, bármely platformon fut, és pontos kontrollt ad afelett, hogy pontosan mi kerül eltávolításra.

A korlátozás a technikai akadály. Emellett a metaadat-mezőkre fókuszál, nem a rejtett strukturális adatokra. Ha a PDF verziótörténetet, rejtett rétegeket vagy beágyazott objektumokat tartalmaz, az exiftool azokat nem fogja megtalálni. Kiválóan teljesít a saját területén, de nem fed le minden réteget.

Online metaadat-eltávolító eszközök

Több weboldal is lehetővé teszi PDF feltöltését, metaadatok eltávolítását és a megtisztított verzió letöltését. A folyamat egyszerű és nem igényel szoftvertelepítést.

A korlátozásnak nyilvánvalónak kell lennie. Egy dokumentumot töltesz fel egy harmadik fél szerverére, hogy megoldj egy adatvédelmi problémát. Ez egy kicsit olyan, mintha odaadnád a naplódat egy idegennek, hogy tépje ki az oldalt a címeddel.

Ha a fájl alacsony kockázatú, ez elfogadható kompromisszum lehet. Ha azért távolítod el a metaadatokat, mert a dokumentum bizalmas, ez a megközelítés pontosan azt a fajta kitettséget hozza létre, amelyet el akarsz kerülni. Erről a kompromisszumról bővebben a Biztonságos-e online PDF-eszközöket használni bizalmas dokumentumokhoz? című cikkben olvashatsz.

Nyomtatás PDF-be

A PDF újranyomtatása virtuális nyomtatón keresztül új fájlt hoz létre, amelyből gyakran eltávolítódik néhány metaadat és elsimulnak bizonyos elemek. Ingyenes és a legtöbb operációs rendszerbe be van építve.

Az eredmények nem következetesek. Egyes virtuális nyomtatók saját metaadataikat injektálják a kimenetbe. Egyesek eltávolítják az XMP adatokat, mások nem. A beágyazott képek EXIF adatai túlélhetik vagy nem élhetik túl a folyamatot. Ha ezt a módszert használod, mindig ellenőrizd az eredményt, ne feltételezd, hogy tiszta.

Konvertálás szkennelt stílusú PDF-re

Ez a megközelítés minden PDF-oldalt képpé alakít, majd ezeket a képeket új PDF-be csomagolja. Mivel az egész dokumentumstruktúra lecserélődik, minden rejtett adat eltávolításra kerül: metaadatok, szövegrétegek, megjegyzések, verziótörténet, beágyazott fájlok, űrlapmezők, JavaScript — minden. A kimenet egy új PDF, amely csak renderelt oldalképeket tartalmaz.

A kompromisszum az, hogy a fájl többé nem szövegesen kereshető. Úgy viselkedik, mint egy kép minden oldalról. A végleges és szervezeten kívülre kerülő dokumentumoknál ez a kompromisszum gyakran megéri. Azoknál a dokumentumoknál, amelyekben még keresni, idézni vagy szerkeszteni kell — nem.

Pontosan ezt csinálja a Look Scanned. Helyben, a böngésződben konvertálja a PDF-et szkennelt stílusú verzióra, így a fájl soha nem hagyja el az eszközödet. Az eredmény egy tiszta, képalapú PDF rejtett adatok nélkül, szövegrétegek nélkül, az eredeti metaadatai nélkül és szerveroldali feldolgozás nélkül, ami miatt aggódnod kellene.

Összehasonlítás

MódszerEltávolítja a dokumentumtulajdonságokatEltávolítja a rejtett rétegeketEltávolítja a képek EXIF adataitMegőrzi a szöveges kereshetőségetFeltöltést igényelKöltség
Adobe Acrobat (Sanitize)IgenIgenBeállításoktól függIgenNemFizetős
exiftool / CLIIgenRészbenIgenIgenNemIngyenes
Online metaadat-eszközökÁltalábanÁltalában nemNéhaIgenIgenIngyenes
Nyomtatás PDF-beRészbenRészbenNéhaÁltalábanNemIngyenes
Szkennelt stílusú konverzió (pl. Look Scanned)IgenIgenIgenNemNem (helyi böngésző)Ingyenes

Egyetlen sor sem tökéletes minden helyzetben. A kérdés mindig az, hogy melyik kompromisszumok számítanak ennél a konkrét fájlnál.

Mikor melyik megközelítésnek van értelme

A dokumentum még fejlesztés alatt áll. Távolítsd el a metaadatokat Acrobattal vagy exiftool-lal. Tartsd meg a szövegréteget. A metaadat-eltávolítás ebben a szakaszban karbantartás, nem a fő esemény.

A dokumentum végleges és a szervezeten kívülre kerül. Ha a kereshetőség nem kritikus, a szkennelt stílusú konverzió a legalaposabb lépés. Egy menetben mindent eltávolít. Ha a fájlnak továbbra is kereshetőnek kell lennie, használd az Acrobat Sanitize funkcióját, és ellenőrizd az eredményt.

A dokumentum rendkívül bizalmas. Kombinálj megközelítéseket. Először végezd el a megfelelő szerkesztést, aztán a metaadat-tisztítást, majd a végső szkennelt stílusú konverziót. Minden lépés más réteget fed le. Ha a szerkesztés a munkafolyamatod része, a Fekete sávok nem szerkesztés című cikk elmagyarázza, miért nem elég a vizuális maszkolás.

Nem vagy biztos benne, mi van a fájlban. Először ellenőrizd exiftool-lal vagy a tulajdonságok paneljével. Aztán dönts aszerint, amit találtál, és ahová a fájl megy. Az eltávolítási módszer kiválasztása anélkül, hogy értenéd, mit kell eltávolítani, vagy túlzott intézkedésekhez, vagy kihagyott adatokhoz vezet.

Ha mérlegeled, hogy a szkennelt stílusú PDF a megfelelő formátum-e a helyzeted számára, a Szkennelt PDF vs szerkeszthető PDF: melyiket küldd? című cikk szélesebb körben tárgyalja ezt a döntést.

A munkafolyamat, amit ténylegesen használok

  1. Először fejezd be a dokumentum tartalmát. Ne tisztítsd a metaadatokat egy még változó fájlban.
  2. Ellenőrizd a metaadatokat a végleges exportban. Minimum a Fájl > Tulajdonságok. exiftool, ha fontos.
  3. Távolítsd el vagy tisztítsd meg aszerint, amit találtál, és mennyire bizalmas a címzett.
  4. Ha a fájl kifelé megy és nem kell kereshetőnek lennie, konvertálom szkennelt stílusú PDF-re. A Look Scanned ezt a lépést a böngészőben végzi el a fájl feltöltése nélkül.
  5. Nyisd meg az eredményt egy friss megjelenítőben és ellenőrizd. Nézd meg a tulajdonságokat, próbálj szöveget kijelölni, keress olyan kifejezéseket, amelyeknek el kellett volna tűnniük.

Az utolsó lépés több maradék adatot fed fel, mint amennyire az emberek számítanak.

Ha az elsimítás elegendő a helyzetedhez és nem kell a teljes szkennelt stílusú konverzió, a Hogyan simítsunk el egy PDF-et küldés előtt című cikk ezt a középutat tárgyalja.

Gyakran ismételt kérdések

Eltávolít minden metaadatot a szkennelt PDF-re konvertálás?

Igen. A képalapú PDF-re konvertálás lecseréli a teljes fájlstruktúrát. Az eredmény nem tartalmaz szövegréteget, rejtett objektumokat, dokumentumtulajdonságokat az eredetiből, sem beágyazott fájl-metaadatokat. A kimenet egy új PDF, amely csak renderelt oldalképeket tartalmaz.

Vissza tudja valaki állítani a metaadatokat egy szkennelt stílusú PDF-ből?

Nem, magából a PDF-ből nem. Az eredeti struktúra eltűnt. Az egyetlen metaadat az új fájlban az, amit a konverziós eszköz írt bele, például a saját gyártó címkéjét. Ha a konverzió helyben történt a böngészőben, szerveroldali másolat sem létezik.

Ugyanaz a metaadat-eltávolítás, mint a szerkesztés?

Nem. A metaadat-eltávolítás a rejtett tulajdonságokat és a dokumentumszintű adatokat távolítja el. A szerkesztés látható tartalmat távolít el az oldalról. Ha neveket, számokat vagy szöveget kell eltávolítanod magáról az oldalról, az egy külön lépés, amelyet a metaadat-tisztítás előtt kell elvégezni. A Fekete sávok nem szerkesztés című cikk elmagyarázza, miért nem elég önmagában a vizuális maszkolás.

Minden elküldött PDF-ből el kell távolítanom a metaadatokat?

Nem feltétlenül. Rutinszerű, már nyilvános vagy alacsony kockázatú dokumentumoknál a metaadatok ártalmatlanok. A kérdés akkor válik fontossá, amikor a dokumentum bizalmas, a címzett külső, vagy a szerző személyazonosságának a fájlon kívül kell maradnia.

Záró gondolat

A legtöbb ember soha nem ellenőrzi, mit árul el róluk a PDF-jük, mielőtt elküldi.

A fájl lehet tiszta. Vagy tartalmazhatja a nevedet, a verziótörténetedet és annak a kávézónak a GPS-koordinátáit, ahol múlt kedden szerkesztetted.

Ha a dokumentum elég fontos ahhoz, hogy gondosan oszd meg, elég fontos ahhoz, hogy ellenőrizd. És ha az ellenőrzés többet tár fel, mint amire számítottál, egyszerű módszerek vannak a javításra, mielőtt megnyomod a küldés gombot.