Nilikagua metadata kwenye PDF niliyokuwa nikitaka kutuma wiki iliyopita. Bado ilikuwa na jina langu kamili, njia ya faili ya ndani ya kampuni yangu, na muhuri wa muda halisi wa kila marekebisho niliyoyafanya kwa mwezi uliopita.

Ukurasa ulionekana safi. Faili haikuwa hivyo.

Watu wengi hawafungui kamwe paneli ya mali kwenye PDF kabla ya kuishiriki. Maudhui yanayoonekana hupata umakini wote. Lakini faili yenyewe inaweza kusema mengi zaidi kuliko kilichochapishwa kwenye ukurasa, na tabaka hilo lililofichwa ndilo chapisho hili linalohusu.

Jibu fupi

Metadata ya PDF inaweza kujumuisha jina lako, programu uliyotumia, muhuri wa muda wa uundaji na urekebishaji, historia ya marekebisho, maoni, na hata kuratibu za GPS kutoka kwa picha zilizowekwa ndani.

Ili kuiondoa, una chaguo kadhaa:

  • tumia kihariri cha metadata au zana ya usafishaji kuondoa sehemu maalum
  • tumia zana ya mstari wa amri kama exiftool kwa udhibiti kamili
  • badilisha PDF kuwa faili ya picha ya mtindo wa skani, ambayo inabadilisha muundo mzima wa hati na kuondoa data yote iliyofichwa kwa wakati mmoja

Ikiwa hati ni ya mwisho na inaenda nje ya shirika lako, chaguo la mwisho ndilo hatua moja ya kina zaidi unayoweza kuchukua.

Metadata ya PDF ina nini hasa

PDF inaweza kubeba tabaka tatu za taarifa zaidi ya unachokiona kwenye ukurasa.

Tabaka la kwanza ni mali za hati. Hii ni metadata ambayo watu wengi wanafikiri: jina la mwandishi, kichwa, mada, tarehe ya uundaji, tarehe ya urekebishaji, na programu iliyotengeneza faili. Fungua PDF yoyote kwenye kitazamaji, kagua File > Properties, na pengine utaona sehemu kama “Author: Jane Smith” na “Producer: Microsoft Word 2021.” Taarifa hiyo inasafiri na faili popote inapoenda.

Tabaka la pili ni XMP na metadata iliyowekwa ndani. Hii haionekani sana lakini mara nyingi inafichua zaidi. Ikiwa PDF yako ina picha zilizowekwa ndani, picha hizo bado zinaweza kubeba data yao ya EXIF ya asili, ikijumuisha modeli ya kamera, muhuri wa muda, na kuratibu za GPS. Metadata ya XMP pia inaweza kujumuisha historia ya kuhariri, lebo maalum, na taarifa za leseni ya fonti. Watu wengi hawajui tabaka hili lipo kwa sababu vitazamaji vya kawaida vya PDF havionyeshi.

Tabaka la tatu ni data ya muundo iliyofichwa. Kulingana na jinsi PDF ilivyoundwa na kuhaririwa, faili inaweza kuwa na historia ya marekebisho, maandishi yaliyofutwa lakini yanayoweza kurejeshwa, maoni, vidokezo, chaguo-msingi za sehemu za fomu, tabaka zilizofichwa, JavaScript, na viambatisho vya faili vilivyowekwa ndani. Hii ni tabaka ambalo husababisha uharibifu mkubwa zaidi linapovuja, kwa sababu linaweza kuwa na maudhui ambayo mwandishi alidhani ameyaondoa.

Ikiwa tayari umefikiria kuhusu aina hii ya data iliyofichwa katika muktadha wa kupakia faili kwenye zana za wavuti, Je, Ni Salama Kutumia Zana za PDF za Mtandaoni kwa Hati Nyeti? inashughulikia mfumo mpana wa uaminifu.

Kwa nini hili ni muhimu zaidi kuliko watu wanavyofikiri

Uvujaji wa metadata si wa kushangaza. Ni wa kimya, mahususi, na vigumu kubadilisha baada ya faili kushirikiwa.

Utambuzi wa mwandishi wakati kutojulikana ni muhimu. Ikiwa PDF iliundwa na mtu maalum, sehemu ya mwandishi au njia ya faili ya ndani inaweza kuunganishwa nao. Hii ni muhimu kwa wafichuzi wa siri, ripoti za siri, hati zilizovuja, au hali yoyote ambapo utambulisho wa mtumaji unatarajiwa kuwa nje ya faili.

Historia ya marekebisho inayofichua mkakati wa mazungumzo. PDF ya mkataba ambayo bado ina mabadiliko yaliyofuatiliwa au metadata ya marekebisho inaweza kufichua msimamo wako wa awali, ulichofuta, na ulicholainisha kabla ya kutuma toleo la mwisho. Upande mwingine hauhitaji kuwa wa kiufundi ili kugundua hili. Baadhi ya vitazamaji vya PDF huonyesha data ya marekebisho kiotomatiki.

Muhuri wa muda unaofichua wakati nyeti. Tarehe za uundaji na urekebishaji zinamwambia mtu lini hati ilianzishwa, lini ilibadilishwa mwisho, na mara ngapi iliguswa. Katika muktadha wa kisheria, uzingatifu, au ushindani, aina hiyo ya taarifa ya wakati inaweza kuwa muhimu zaidi kuliko maudhui yenyewe.

Kuratibu za GPS kutoka kwa picha zilizowekwa ndani. Ikiwa ulibandika picha kwenye PDF na picha hiyo bado ina data ya eneo la EXIF, kuratibu za GPS za mahali picha ilipochukuliwa sasa zimewekwa ndani ya faili. Watu wengi hawafikirii kuhusu hili kwa sababu metadata inaishi ndani ya kitu cha picha, si katika paneli ya mali za PDF.

Matoleo ya programu yanayofichua zana za ndani. Sehemu kama “Producer: Adobe Acrobat Pro DC 24.1.30225” au “Creator: Microsoft Word for Microsoft 365” zinamwambia mtu zana na matoleo gani shirika lako linatumia. Kwa hati nyingi hili si muhimu. Kwa muktadha nyeti, ni uvujaji wa taarifa usio wa lazima.

Hakuna hata moja ya haya ni ya nadharia. Hizi ni uvujaji wa metadata wa kawaida ambao kweli hutokea.

Jinsi ya kukagua metadata ambayo PDF yako ina

Kabla ya kuondoa chochote, angalia kile kilicho kwenye faili.

Kisanduku cha mali cha kitazamaji cha PDF. Katika wasomaji wengi wa PDF, File > Properties au Document Properties inaonyesha sehemu za msingi: mwandishi, kichwa, mada, tarehe ya uundaji, tarehe ya urekebishaji, na programu iliyoizalisha. Hii inakamata tabaka la kwanza lakini inakosa karibu kila kitu kingine.

exiftool kwenye mstari wa amri. Kuendesha exiftool document.pdf kutakuonyesha kila kitu: mali za hati, data ya XMP, EXIF ya picha zilizowekwa ndani, na sehemu maalum. Hii ni njia kamili zaidi ya ukaguzi, lakini inahitaji ujuzi na terminal. Ikiwa hujawahi kuitumia hapo awali, inafaa kuisakinisha tu ili kuona kile PDF moja inaweza kuwa nacho.

Vitazamaji vya metadata mtandaoni. Baadhi ya tovuti zinakuruhusu kupakia PDF ili kukagua metadata yake. Ikiwa sababu unayokagua metadata ni faragha, kupakia faili kwa huduma ya wahusika wengine ili kuikagua ni hatua ya mashaka. Unajaribu kujua kama faili inavuja taarifa, na hatua ya kwanza ni kuituma kwa mgeni.

Mara tu unapojua kile kilicho kwenye faili, swali ni jinsi ya kukiondoa.

Njia za kuondoa metadata ya PDF

Hakuna njia moja bora. Chaguo sahihi linategemea kile unachohitaji kuhifadhi na jinsi unavyohitaji kuwa makini.

Adobe Acrobat (Sanitize Document)

Acrobat Pro inajumuisha vipengele vya “Remove Hidden Information” na “Sanitize Document” ambavyo vinaweza kuondoa metadata, maandishi yaliyofichwa, maoni, data ya fomu, viambatisho, na maudhui mengine yasiyoonekana. Hii ni moja ya njia kamili zaidi ikiwa unahitaji kuhifadhi tabaka la maandishi na faili iweze kutafutwa.

Kikwazo ni kwamba inahitaji leseni ya Acrobat Pro inayolipwa. Ikiwa tayari unayo, hii ni chaguo kizuri. Ikiwa huna, hii si aina ya tatizo inayohalalisha usajili peke yake.

exiftool na zana nyingine za CLI

exiftool inaweza kuondoa kwa usahihi sehemu maalum za metadata au kuondoa kila kitu kutoka kwa PDF kwa amri moja. Ni bure, inaendesha kwenye jukwaa lolote, na inatoa udhibiti sahihi wa nini hasa kinachoondolewa.

Kikwazo ni kizuizi cha kiufundi. Pia inazingatia sehemu za metadata badala ya data iliyofichwa ya muundo. Ikiwa PDF ina historia ya marekebisho, tabaka zilizofichwa, au vitu vilivyowekwa ndani, exiftool haitavikamata. Ni bora katika kile inachofanya, lakini haishughulikii kila tabaka.

Zana za kuondoa metadata mtandaoni

Tovuti kadhaa zinakuruhusu kupakia PDF, kuondoa metadata, na kupakua toleo lililosafishwa. Mtiririko wa kazi ni rahisi na hauhitaji usakinishaji wa programu.

Kikwazo kinapaswa kuwa dhahiri. Unapakia hati kwa seva ya wahusika wengine ili kutatua tatizo la faragha. Hiyo ni kama kumkabidhi mgeni shajara yako ili waweze kurarua ukurasa wenye anwani yako.

Ikiwa faili ni ya hatari ndogo, hiyo inaweza kuwa biashara inayokubalika. Ikiwa unaondoa metadata kwa sababu hati ni nyeti, njia hii inaleta aina ile ile ya ufichuzi unaojaribu kuepuka. Kwa zaidi kuhusu biashara hiyo, Je, Ni Salama Kutumia Zana za PDF za Mtandaoni kwa Hati Nyeti? inashughulikia kwa undani.

Chapisha kuwa PDF

Kuchapisha tena PDF kupitia kichapishaji cha mtandaoni huunda faili mpya ambayo mara nyingi huondoa metadata fulani na kusawazisha vipengele fulani. Ni bure na imejengwa katika mifumo mingi ya uendeshaji.

Matokeo si thabiti. Vichapishaji fulani vya mtandaoni huingiza metadata yao wenyewe katika pato. Vingine huondoa data ya XMP, vingine havifanyi. EXIF ya picha zilizowekwa ndani inaweza au isiweze kunusurika safari hiyo. Ikiwa unatumia njia hii, daima hakikisha matokeo badala ya kudhani ni safi.

Kubadilisha kuwa PDF ya mtindo wa skani

Njia hii inabadilisha kila ukurasa wa PDF kuwa picha, kisha kufunga picha hizo katika PDF mpya. Kwa sababu muundo mzima wa hati unabadilishwa, data yote iliyofichwa inaondolewa: metadata, tabaka za maandishi, maoni, historia ya marekebisho, faili zilizowekwa ndani, sehemu za fomu, JavaScript, kila kitu. Pato ni PDF mpya ambayo ina picha za ukurasa zilizotolewa tu.

Ubadilishanaji ni kwamba faili haiwezi tena kutafutwa kwa maandishi. Inafanya kazi kama picha ya kila ukurasa. Kwa hati ambazo ni za mwisho na zinaenda nje ya shirika lako, ubadilishanaji huo mara nyingi unafaa. Kwa hati ambazo bado zinahitaji kutafutwa, kunukuliwa, au kuhaririwa chini ya mtiririko, si hivyo.

Hiyo ndiyo kazi ambayo Look Scanned inafanya. Inabadilisha PDF kuwa toleo la mtindo wa skani ndani ya kivinjari chako, kwa hivyo faili kamwe haiondoki kwenye kifaa chako. Matokeo ni PDF safi ya picha bila data iliyofichwa, bila tabaka za maandishi, bila metadata kutoka kwa asili, na bila usindikaji wa upande wa seva wa kuwa na wasiwasi.

Ulinganisho

NjiaInaondoa mali za hatiInaondoa tabaka zilizofichwaInaondoa EXIF ya pichaInahifadhi utafutaji wa maandishiInahitaji kupakiaGharama
Adobe Acrobat (Sanitize)NdiyoNdiyoInategemea mipangilioNdiyoHapanaInalipwa
exiftool / CLINdiyoKwa sehemuNdiyoNdiyoHapanaBure
Zana za metadata mtandaoniKawaidaKawaida hapanaWakati mwingineNdiyoNdiyoBure
Chapisha kuwa PDFKwa sehemuKwa sehemuWakati mwingineKawaidaHapanaBure
Ubadilishaji wa mtindo wa skani (mf. Look Scanned)NdiyoNdiyoNdiyoHapanaHapana (kivinjari cha ndani)Bure

Hakuna safu moja ambayo ni kamili kwa kila hali. Swali ni daima ni ubadilishanaji upi unaomatter kwa faili hii maalum.

Wakati kila njia inafaa

Hati bado inafanyiwa kazi. Ondoa metadata kwa Acrobat au exiftool. Hifadhi tabaka la maandishi. Kuondoa metadata katika hatua hii ni usafi, si tukio kuu.

Hati ni ya mwisho na inaenda nje ya shirika lako. Ikiwa utafutaji si muhimu, ubadilishaji wa mtindo wa skani ni hatua moja ya kina zaidi. Inaondoa kila kitu kwa pasi moja. Ikiwa faili bado inahitaji kutafutwa, tumia kipengele cha Sanitize cha Acrobat badala yake, na hakikisha matokeo.

Hati ni nyeti sana. Changanya njia. Shughulikia ufutaji sahihi kwanza, kisha usafishaji wa metadata, kisha ubadilishaji wa mwisho wa mtindo wa skani. Kila hatua inashughulikia tabaka tofauti. Ikiwa ufutaji ni sehemu ya mtiririko wako wa kazi, Baa Nyeusi Si Ufutaji inaelezea kwa nini kufunika kwa kuona hakutoshi.

Huna uhakika kile kilicho kwenye faili. Kagua kwanza kwa exiftool au paneli ya mali. Kisha amua kulingana na ulichogundua na faili inaenda wapi. Kuchagua njia ya kuondoa kabla ya kuelewa nini kinahitaji kuondolewa kunasababisha ama kupitiliza au data iliyokosekana.

Ikiwa unapima kama PDF ya mtindo wa skani ni muundo sahihi kwa hali yako, PDF Iliyoskaniwa dhidi ya PDF Inayohaririwa: Ipi Unapaswa Kutuma? inashughulikia uamuzi huo kwa upana zaidi.

Mtiririko wa kazi ninaoutumia kweli

  1. Maliza maudhui ya hati kwanza. Usisafishe metadata kwenye faili ambayo bado inabadilika.
  2. Kagua metadata kwenye usafirishaji wa mwisho. File > Properties kama kiwango cha chini. exiftool ikiwa ni muhimu.
  3. Ondoa au safisha kulingana na nilichogundua na jinsi mahali pa kwenda ni nyeti.
  4. Ikiwa faili inaenda nje na haihitaji kutafutwa, ninaibadilisha kuwa PDF ya mtindo wa skani. Look Scanned inashughulikia hatua hiyo kwenye kivinjari bila kupakia faili.
  5. Fungua matokeo katika kitazamaji kipya na hakikisha. Kagua mali, jaribu kuchagua maandishi, tafuta maneno ambayo yanapaswa kuwa yameondolewa.

Hatua hiyo ya mwisho inakamata data iliyobaki zaidi kuliko watu wanavyotarajia.

Ikiwa kusawazisha kunatosha kwa hali yako na huhitaji ubadilishaji kamili wa mtindo wa skani, Jinsi ya Kusawazisha PDF Kabla ya Kuituma inashughulikia njia hiyo ya kati.

Maswali Yanayoulizwa Mara kwa Mara

Je, kubadilisha kuwa PDF iliyoskaniwa kunaondoa metadata yote?

Ndiyo. Kubadilisha kuwa PDF ya picha kunabadilisha muundo mzima wa faili. Matokeo hayana tabaka la maandishi, hakuna vitu vilivyofichwa, hakuna mali za hati kutoka kwa asili, na hakuna metadata ya faili iliyowekwa ndani. Pato ni PDF mpya ambayo ina picha za ukurasa zilizotolewa tu.

Je, mtu anaweza kurejesha metadata kutoka kwa PDF ya mtindo wa skani?

Hapana kutoka kwa PDF yenyewe. Muundo wa asili umeondoka. Metadata pekee katika faili mpya ni chochote ambacho zana ya ubadilishaji iliandika, kama lebo yake ya mzalishaji. Ikiwa ubadilishaji ulitokea ndani ya kivinjari, hakuna nakala ya upande wa seva iliyopo pia.

Je, kuondoa metadata ni sawa na ufutaji?

Hapana. Kuondoa metadata kunaondoa mali zilizofichwa na data ya ngazi ya hati. Ufutaji unaondoa maudhui yanayoonekana kutoka kwenye ukurasa. Ikiwa unahitaji kuondoa majina, nambari, au maandishi kutoka kwenye ukurasa wenyewe, hiyo ni hatua tofauti ambayo lazima itokee kabla ya usafishaji wa metadata. Baa Nyeusi Si Ufutaji inaelezea kwa nini kufunika kwa kuona peke yake hakutoshi.

Je, ninapaswa kuondoa metadata kutoka kwa kila PDF ninayotuma?

Si lazima. Kwa hati za kawaida ambazo tayari ni za umma au za hatari ndogo, metadata haina madhara. Swali linakuwa muhimu wakati hati ni nyeti, mpokeaji ni wa nje, au utambulisho wa mwandishi unapaswa kuwa nje ya faili.

Wazo la mwisho

Watu wengi hawakagui kamwe kile ambacho PDF yao inasema kuwahusu kabla ya kuituma.

Faili inaweza kuwa safi. Au inaweza kuwa na jina lako, historia yako ya marekebisho, na kuratibu za GPS za duka la kahawa ambapo ulihariri Jumanne iliyopita.

Ikiwa hati ni muhimu vya kutosha kushiriki kwa makini, ni muhimu vya kutosha kukagua. Na ikiwa ukaguzi unafichua zaidi ya ulivyotarajia, kuna njia rahisi za kurekebisha kabla ya kubonyeza tuma.