Geçen hafta göndermek üzere olduğum bir PDF’nin meta verilerini kontrol ettim. Hâlâ tam adımı, şirketimin dahili dosya yolunu ve geçen ay boyunca yaptığım her revizyonun tam zaman damgasını içeriyordu.

Sayfa temiz görünüyordu. Dosya değildi.

Çoğu insan paylaşmadan önce PDF’nin özellikler panelini hiç açmaz. Görünen içerik tüm ilgiyi alır. Ancak dosyanın kendisi sayfada basılı olandan çok daha fazlasını söyleyebilir ve bu gizli katman bu yazının konusudur.

Kısa cevap

PDF meta verileri adınızı, kullandığınız yazılımı, oluşturma ve değiştirme zaman damgalarını, revizyon geçmişini, yorumları ve hatta gömülü görsellerden GPS koordinatlarını içerebilir.

Kaldırmak için birkaç seçeneğiniz var:

  • belirli alanları silmek için bir meta veri düzenleyici veya temizleme aracı kullanmak
  • tam kontrol için exiftool gibi bir komut satırı aracı kullanmak
  • PDF’yi tarama tarzı görsel tabanlı bir dosyaya dönüştürmek; bu, tüm belge yapısını değiştirir ve tüm gizli verileri bir seferde kaldırır

Belge nihai hâlini almışsa ve kuruluşunuzun dışına çıkacaksa, son seçenek atabileceğiniz en kapsamlı adımdır.

PDF meta verileri aslında ne içerir

Bir PDF, sayfada gördüğünüzün ötesinde üç katman bilgi taşıyabilir.

İlk katman belge özellikleridir. Bu, çoğu insanın düşündüğü meta veridir: yazar adı, başlık, konu, oluşturma tarihi, değiştirme tarihi ve dosyayı üreten yazılım. Herhangi bir PDF’yi bir görüntüleyicide açın, Dosya > Özellikler’i kontrol edin ve muhtemelen “Author: Jane Smith” ve “Producer: Microsoft Word 2021” gibi alanlar göreceksiniz. Bu bilgi dosyayla birlikte nereye giderse gitsin taşınır.

İkinci katman XMP ve gömülü meta verilerdir. Bu daha az görünür ama genellikle daha fazla şey açığa çıkarır. PDF’niz gömülü görseller içeriyorsa, bu görseller hâlâ orijinal EXIF verilerini taşıyor olabilir: kamera modeli, zaman damgaları ve GPS koordinatları dahil. XMP meta verileri ayrıca düzenleme geçmişi, özel etiketler ve yazı tipi lisans bilgileri içerebilir. Çoğu insan bu katmanın var olduğunu bilmez çünkü standart PDF görüntüleyiciler bunu göstermez.

Üçüncü katman gizli yapısal verilerdir. PDF’nin nasıl oluşturulduğuna ve düzenlendiğine bağlı olarak, dosya revizyon geçmişi, silinmiş ama kurtarılabilir metin, yorumlar, açıklamalar, form alanı varsayılanları, gizli katmanlar, JavaScript ve gömülü dosya ekleri içerebilir. Bu, sızdığında en çok hasara neden olan katmandır çünkü yazarın kaldırdığını düşündüğü içeriği barındırabilir.

Bu tür gizli veriler hakkında dosyaları web araçlarına yükleme bağlamında zaten düşündüyseniz, Hassas Belgeler İçin Çevrimiçi PDF Araçları Kullanmak Güvenli mi? daha geniş güven modelini ele alır.

Bu neden insanların düşündüğünden daha önemli

Meta veri sızıntıları dramatik değildir. Sessiz, spesifik ve dosya paylaşıldıktan sonra geri alınması zordur.

Anonimlik önemli olduğunda yazar kimliğinin belirlenmesi. PDF belirli bir kişi tarafından oluşturulduysa, yazar alanı veya dahili dosya yolu o kişiye geri bağlanabilir. Bu, ihbarcılar, anonim raporlar, sızdırılmış belgeler veya gönderenin kimliğinin dosya dışında kalması gereken herhangi bir durum için önemlidir.

Revizyon geçmişi müzakere stratejisini ifşa eder. Hâlâ takip edilen değişiklikleri veya revizyon meta verilerini içeren bir sözleşme PDF’si, başlangıç pozisyonunuzu, neyi sildiğinizi ve son sürümü göndermeden önce neyi yumuşattığınızı ortaya çıkarabilir. Karşı tarafın buna rastlamak için teknik olması gerekmez. Bazı PDF görüntüleyiciler revizyon verilerini otomatik olarak gösterir.

Zaman damgaları hassas zamanlamayı ortaya çıkarır. Oluşturma ve değiştirme tarihleri, belgenin ne zaman başlatıldığını, en son ne zaman değiştirildiğini ve kaç kez dokunulduğunu gösterir. Hukuki, uyumluluk veya rekabet bağlamlarında, bu tür zamanlama bilgisi içeriğin kendisinden daha önemli olabilir.

Gömülü görsellerden GPS koordinatları. PDF’ye bir fotoğraf yapıştırdıysanız ve o fotoğraf hâlâ EXIF konum verisi taşıyorsa, görüntünün çekildiği yerin GPS koordinatları artık dosyaya gömülü durumdadır. Çoğu insan bunu düşünmez çünkü meta veri, PDF özellikler panelinde değil, görsel nesnesinin içinde yaşar.

Yazılım sürümleri dahili araçları ortaya çıkarır. “Producer: Adobe Acrobat Pro DC 24.1.30225” veya “Creator: Microsoft Word for Microsoft 365” gibi alanlar, kuruluşunuzun hangi araçları ve sürümleri kullandığını gösterir. Çoğu belge için bu önemsizdir. Hassas bağlamlarda gereksiz bir bilgi sızıntısıdır.

Bunların hiçbiri varsayımsal değildir. Bunlar gerçekten yaşanan sıkıcı meta veri sızıntılarıdır.

PDF’nizin hangi meta verileri içerdiğini nasıl kontrol edersiniz

Herhangi bir şeyi kaldırmadan önce, dosyada gerçekte ne olduğuna bakın.

PDF görüntüleyici özellikler iletişim kutusu. Çoğu PDF okuyucuda Dosya > Özellikler veya Belge Özellikleri temel alanları gösterir: yazar, başlık, konu, oluşturma tarihi, değiştirme tarihi ve üretici uygulama. Bu ilk katmanı yakalar ama neredeyse diğer her şeyi kaçırır.

Komut satırında exiftool. exiftool document.pdf komutunu çalıştırmak size her şeyi gösterecektir: belge özellikleri, XMP verileri, gömülü görsel EXIF’i ve özel alanlar. Bu en kapsamlı inceleme yöntemidir, ancak terminalle rahat olmayı gerektirir. Daha önce hiç kullanmadıysanız, tek bir PDF’nin neler içerebileceğini görmek için bile yüklemeye değer.

Çevrimiçi meta veri görüntüleyiciler. Bazı web siteleri meta verilerini incelemek için PDF yüklemenize izin verir. Meta veri kontrol etme nedeniniz gizlilikse, dosyayı incelemek için üçüncü taraf bir hizmete yüklemek şüpheli bir adımdır. Dosyanın bilgi sızdırıp sızdırmadığını anlamaya çalışıyorsunuz ve ilk adım onu bir yabancıya göndermek oluyor.

Dosyada ne olduğunu öğrendikten sonra soru, nasıl kaldırılacağıdır.

PDF meta verilerini kaldırma yöntemleri

Tek bir en iyi yöntem yoktur. Doğru seçim, neyi saklamanız gerektiğine ve ne kadar kapsamlı olmanız gerektiğine bağlıdır.

Adobe Acrobat (Belgeyi Temizle)

Acrobat Pro, meta verileri, gizli metni, yorumları, form verilerini, ekleri ve diğer görünmez içeriği temizleyebilen “Gizli Bilgileri Kaldır” ve “Belgeyi Temizle” özelliklerine sahiptir. Metin katmanını sağlam ve dosyayı aranabilir tutmanız gerekiyorsa bu en kapsamlı yaklaşımlardan biridir.

Sınırlama, ücretli bir Acrobat Pro lisansı gerektirmesidir. Zaten varsa güçlü bir seçenektir. Yoksa, bu tek başına aboneliği haklı kılacak türden bir sorun değildir.

exiftool ve diğer CLI araçları

exiftool, belirli meta veri alanlarını cerrahi olarak kaldırabilir veya tek bir komutla PDF’den her şeyi silebilir. Ücretsizdir, her platformda çalışır ve tam olarak neyin kaldırılacağı üzerinde hassas kontrol sağlar.

Sınırlama teknik engeldir. Ayrıca yapısal gizli veriler yerine meta veri alanlarına odaklanır. PDF revizyon geçmişi, gizli katmanlar veya gömülü nesneler içeriyorsa exiftool bunları yakalamaz. Yaptığı işte mükemmeldir, ancak her katmanı kapsamaz.

Çevrimiçi meta veri kaldırma araçları

Birçok web sitesi PDF yüklemenize, meta verileri silmenize ve temizlenmiş sürümü indirmenize olanak tanır. İş akışı basittir ve yazılım yükleme gerektirmez.

Sınırlama açık olmalıdır. Bir gizlilik sorununu çözmek için belgeyi üçüncü taraf bir sunucuya yüklüyorsunuz. Bu biraz günlüğünüzü bir yabancıya vermek gibi, böylece adresinizin yazılı olduğu sayfayı yırtsın.

Dosya düşük riskli ise bu kabul edilebilir bir takas olabilir. Meta verileri belge hassas olduğu için kaldırıyorsanız, bu yaklaşım tam da kaçınmaya çalıştığınız türden bir ifşaya yol açar. Bu takas hakkında daha fazla bilgi için Hassas Belgeler İçin Çevrimiçi PDF Araçları Kullanmak Güvenli mi? konuyu ayrıntılı olarak ele alır.

PDF’ye Yazdır

Bir PDF’yi sanal yazıcı üzerinden yeniden yazdırmak, genellikle bazı meta verileri silen ve belirli öğeleri düzleştiren yeni bir dosya oluşturur. Ücretsizdir ve çoğu işletim sisteminde yerleşik olarak bulunur.

Sonuçlar tutarsızdır. Bazı sanal yazıcılar çıktıya kendi meta verilerini ekler. Bazıları XMP verilerini siler, diğerleri silmez. Gömülü görsel EXIF verileri bu süreçten sağ çıkabilir de çıkmayabilir de. Bu yöntemi kullanıyorsanız, temiz olduğunu varsaymak yerine sonucu her zaman doğrulayın.

Tarama tarzı PDF’ye dönüştürme

Bu yaklaşım, PDF’nin her sayfasını bir görsele dönüştürür, ardından bu görselleri yeni bir PDF’ye sarar. Tüm belge yapısı değiştirildiği için tüm gizli veriler kaldırılır: meta veriler, metin katmanları, yorumlar, revizyon geçmişi, gömülü dosyalar, form alanları, JavaScript, her şey. Çıktı, yalnızca işlenmiş sayfa görsellerini içeren yeni bir PDF’dir.

Takas, dosyanın artık metin olarak aranamaz olmasıdır. Her sayfanın resmi gibi davranır. Nihai hâlini almış ve kuruluşunuzun dışına çıkacak belgeler için bu takas genellikle buna değer. Hâlâ aranması, alıntılanması veya sonradan düzenlenmesi gereken belgeler için değmez.

Look Scanned tam olarak bu işi yapar. PDF’yi tarayıcınızda yerel olarak tarama tarzı bir sürüme dönüştürür, böylece dosya cihazınızdan asla ayrılmaz. Sonuç, gizli verisi olmayan, metin katmanı olmayan, orijinalden meta verisi olmayan ve endişelenecek sunucu tarafı işleme olmayan temiz, görsel tabanlı bir PDF’dir.

Karşılaştırma

YöntemBelge özelliklerini kaldırırGizli katmanları kaldırırGörsel EXIF’ini kaldırırMetin aramasını korurYükleme gerektirirMaliyet
Adobe Acrobat (Temizle)EvetEvetAyarlara bağlıEvetHayırÜcretli
exiftool / CLIEvetKısmenEvetEvetHayırÜcretsiz
Çevrimiçi meta veri araçlarıGenellikleGenellikle hayırBazenEvetEvetÜcretsiz
PDF’ye YazdırKısmenKısmenBazenGenellikleHayırÜcretsiz
Tarama tarzı dönüştürme (ör. Look Scanned)EvetEvetEvetHayırHayır (yerel tarayıcı)Ücretsiz

Hiçbir satır her durum için mükemmel değildir. Soru her zaman bu belirli dosya için hangi takasların önemli olduğudur.

Her yaklaşım ne zaman mantıklı olur

Belge hâlâ üzerinde çalışılıyor. Acrobat veya exiftool ile meta verileri silin. Metin katmanını koruyun. Bu aşamada meta veri kaldırma bakım işidir, asıl olay değil.

Belge nihai hâlini almış ve kuruluşunuzun dışına çıkacak. Aranabilirlik kritik değilse, tarama tarzı dönüştürme en kapsamlı adımdır. Tek seferde her şeyi kaldırır. Dosyanın hâlâ aranabilir olması gerekiyorsa, bunun yerine Acrobat’ın Temizle özelliğini kullanın ve sonucu doğrulayın.

Belge son derece hassas. Yaklaşımları birleştirin. Önce düzgün redaksiyon yapın, ardından meta veri temizliği, sonra son tarama tarzı dönüştürme. Her adım farklı bir katmanı kapsar. Redaksiyon iş akışınızın bir parçasıysa, Siyah Çubuklar Redaksiyon Değildir görsel maskelemenin neden yeterli olmadığını açıklar.

Dosyada ne olduğundan emin değilsiniz. Önce exiftool veya özellikler paneliyle kontrol edin. Sonra bulduğunuz şeye ve dosyanın nereye gideceğine göre karar verin. Neyin kaldırılması gerektiğini anlamadan önce kaldırma yöntemi seçmek ya aşırıya kaçar ya da veri kaçırır.

Tarama tarzı PDF’nin durumunuz için doğru format olup olmadığını değerlendiriyorsanız, Taranmış PDF mi Düzenlenebilir PDF mi: Hangisini Göndermelisiniz? bu kararı daha geniş kapsamda ele alır.

Gerçekte kullandığım iş akışı

  1. Önce belge içeriğini tamamlayın. Hâlâ değişen bir dosyanın meta verilerini temizlemeyin.
  2. Son dışa aktarmada meta verileri kontrol edin. En azından Dosya > Özellikler. Önemliyse exiftool.
  3. Bulduğunuz şeye ve hedefin ne kadar hassas olduğuna göre kaldırın veya temizleyin.
  4. Dosya dışarı çıkacaksa ve aranabilir olması gerekmiyorsa, tarama tarzı PDF’ye dönüştürüyorum. Look Scanned bu adımı dosyayı yüklemeden tarayıcıda halleder.
  5. Sonucu yeni bir görüntüleyicide açın ve doğrulayın. Özellikleri kontrol edin, metin seçmeyi deneyin, kaybolması gereken terimleri arayın.

O son adım, insanların beklediğinden daha fazla artık veri yakalar.

Düzleştirme durumunuz için yeterliyse ve tam tarama tarzı dönüştürmeye ihtiyacınız yoksa, Göndermeden Önce PDF Nasıl Düzleştirilir bu ara çözümü ele alır.

SSS

Taranmış PDF’ye dönüştürme tüm meta verileri kaldırır mı?

Evet. Görsel tabanlı PDF’ye dönüştürme, tüm dosya yapısını değiştirir. Sonuç, metin katmanı, gizli nesneler, orijinalden belge özellikleri veya gömülü dosya meta verisi içermez. Çıktı, yalnızca işlenmiş sayfa görsellerini içeren yeni bir PDF’dir.

Birisi tarama tarzı PDF’den meta verileri kurtarabilir mi?

PDF’nin kendisinden değil. Orijinal yapı kaybolmuştur. Yeni dosyadaki tek meta veri, dönüştürme aracının yazdığı şeydir, örneğin kendi üretici etiketi. Dönüştürme tarayıcıda yerel olarak gerçekleşiyorsa, sunucu tarafında bir kopya da bulunmaz.

Meta veri kaldırma redaksiyonla aynı şey midir?

Hayır. Meta veri kaldırma, gizli özellikleri ve belge düzeyindeki verileri siler. Redaksiyon, sayfadan görünür içeriği kaldırır. Sayfanın kendisinden ad, numara veya metin kaldırmanız gerekiyorsa, bu meta veri temizliğinden önce gerçekleşmesi gereken ayrı bir adımdır. Siyah Çubuklar Redaksiyon Değildir yalnızca görsel maskelemenin neden yeterli olmadığını açıklar.

Gönderdiğim her PDF’den meta verileri kaldırmalı mıyım?

Mutlaka değil. Zaten herkese açık veya düşük riskli rutin belgeler için meta veri zararsızdır. Soru, belge hassas olduğunda, alıcı kuruluş dışından olduğunda veya yazar kimliğinin dosya dışında kalması gerektiğinde önem kazanır.

Son düşünce

Çoğu insan PDF’lerinin göndermeden önce kendileri hakkında ne söylediğini hiç kontrol etmez.

Dosya temiz olabilir. Ya da adınızı, revizyon geçmişinizi ve geçen Salı düzenlediğiniz kahve dükkanının GPS koordinatlarını içerebilir.

Belge dikkatli paylaşılmaya değecek kadar önemliyse, kontrol edilmeye de değer. Ve kontrol beklediğinizden fazlasını ortaya çıkarırsa, gönder düğmesine basmadan önce düzeltmenin basit yolları vardır.