في الأسبوع الماضي، فحصت البيانات الوصفية لملف PDF كنت على وشك إرساله. وجدت أنه لا يزال يحتوي على اسمي الكامل ومسار الملف الداخلي لشركتي والطابع الزمني الدقيق لكل تعديل أجريته خلال الشهر الماضي.

كانت الصفحة تبدو نظيفة. لكن الملف لم يكن كذلك.

معظم الناس لا يفتحون لوحة الخصائص في ملف PDF قبل مشاركته. المحتوى المرئي يحظى بكل الاهتمام. لكن الملف نفسه يمكن أن يقول أكثر بكثير مما هو مطبوع على الصفحة، وهذه الطبقة المخفية هي موضوع هذا المقال.

الإجابة المختصرة

يمكن أن تتضمن البيانات الوصفية لملف PDF اسمك والبرنامج الذي استخدمته وطوابع زمنية للإنشاء والتعديل وسجل المراجعات والتعليقات وحتى إحداثيات GPS من الصور المضمنة.

لإزالتها، لديك عدة خيارات:

  • استخدام محرر بيانات وصفية أو أداة تنظيف لحذف حقول محددة
  • استخدام أداة سطر أوامر مثل exiftool للتحكم الكامل
  • تحويل ملف PDF إلى ملف قائم على الصور بأسلوب المسح الضوئي، مما يستبدل هيكل المستند بالكامل ويزيل جميع البيانات المخفية دفعة واحدة

إذا كان المستند نهائياً ومتجهاً خارج مؤسستك، فإن الخيار الأخير هو الخطوة الأكثر شمولاً التي يمكنك اتخاذها.

ما تحتويه البيانات الوصفية لملف PDF فعلاً

يمكن أن يحمل ملف PDF ثلاث طبقات من المعلومات تتجاوز ما تراه على الصفحة.

الطبقة الأولى هي خصائص المستند. هذه هي البيانات الوصفية التي يفكر فيها معظم الناس: اسم المؤلف والعنوان والموضوع وتاريخ الإنشاء وتاريخ التعديل والبرنامج الذي أنتج الملف. افتح أي ملف PDF في عارض، وتحقق من ملف > الخصائص، وستجد على الأرجح حقولاً مثل “المؤلف: جين سميث” و"المنتج: Microsoft Word 2021." تنتقل هذه المعلومات مع الملف أينما ذهب.

الطبقة الثانية هي بيانات XMP والبيانات الوصفية المضمنة. هذه أقل وضوحاً لكنها غالباً أكثر كشفاً. إذا كان ملف PDF يحتوي على صور مضمنة، فقد تحتفظ تلك الصور ببيانات EXIF الأصلية، بما في ذلك طراز الكاميرا والطوابع الزمنية وإحداثيات GPS. يمكن أن تتضمن بيانات XMP أيضاً سجل التحرير والعلامات المخصصة ومعلومات ترخيص الخطوط. معظم الناس لا يعرفون بوجود هذه الطبقة لأن عارضات PDF القياسية لا تعرضها.

الطبقة الثالثة هي البيانات الهيكلية المخفية. اعتماداً على كيفية إنشاء ملف PDF وتحريره، قد يحتوي الملف على سجل المراجعات ونص محذوف لكن قابل للاسترداد وتعليقات وتعليقات توضيحية وقيم افتراضية لحقول النماذج وطبقات مخفية وJavaScript ومرفقات ملفات مضمنة. هذه هي الطبقة التي تسبب أكبر ضرر عند تسريبها، لأنها قد تتضمن محتوى اعتقد المؤلف أنه أزاله.

إذا كنت قد فكرت بالفعل في هذا النوع من البيانات المخفية في سياق رفع الملفات إلى أدوات الويب، فإن مقال هل استخدام أدوات PDF عبر الإنترنت آمن للمستندات الحساسة؟ يغطي نموذج الثقة الأوسع.

لماذا هذا أهم مما يعتقده الناس

تسريبات البيانات الوصفية ليست دراماتيكية. إنها هادئة ومحددة ويصعب التراجع عنها بمجرد مشاركة الملف.

تحديد هوية المؤلف عندما يكون إخفاء الهوية مهماً. إذا تم إنشاء ملف PDF بواسطة شخص محدد، فإن حقل المؤلف أو مسار الملف الداخلي يمكن أن يربط الملف بهذا الشخص. هذا مهم للمبلغين عن المخالفات والتقارير المجهولة والمستندات المسربة أو أي موقف يُفترض فيه أن تبقى هوية المرسل خارج الملف.

سجل المراجعات يكشف استراتيجية التفاوض. ملف PDF لعقد لا يزال يحتوي على تغييرات متتبعة أو بيانات وصفية للمراجعات يمكن أن يكشف موقفك الأولي وما حذفته وما خففته قبل إرسال النسخة النهائية. لا يحتاج الطرف الآخر إلى أن يكون تقنياً للعثور على هذا. بعض عارضات PDF تعرض بيانات المراجعة تلقائياً.

الطوابع الزمنية تكشف توقيتاً حساساً. تخبر تواريخ الإنشاء والتعديل شخصاً ما بموعد بدء المستند ومتى تم تغييره آخر مرة وعدد المرات التي تم فيها التعامل معه. في السياقات القانونية والتنظيمية والتنافسية، يمكن أن تكون معلومات التوقيت هذه أهم من المحتوى نفسه.

إحداثيات GPS من الصور المضمنة. إذا لصقت صورة في ملف PDF وكانت تلك الصورة لا تزال تحمل بيانات موقع EXIF، فإن إحداثيات GPS للمكان الذي التُقطت فيه الصورة أصبحت الآن مضمنة في الملف. معظم الناس لا يفكرون في هذا لأن البيانات الوصفية تعيش داخل كائن الصورة وليس في لوحة خصائص PDF.

إصدارات البرامج تكشف الأدوات الداخلية. حقول مثل “Producer: Adobe Acrobat Pro DC 24.1.30225” أو “Creator: Microsoft Word for Microsoft 365” تخبر شخصاً ما بالأدوات والإصدارات التي تستخدمها مؤسستك. بالنسبة لمعظم المستندات هذا تافه. في السياقات الحساسة، إنه تسريب معلومات غير ضروري.

لا شيء من هذا افتراضي. إنها تسريبات البيانات الوصفية المملة التي تحدث فعلاً.

كيفية فحص البيانات الوصفية الموجودة في ملف PDF

قبل إزالة أي شيء، انظر إلى ما هو موجود فعلاً في الملف.

مربع حوار خصائص عارض PDF. في معظم قارئات PDF، يعرض ملف > الخصائص أو خصائص المستند الحقول الأساسية: المؤلف والعنوان والموضوع وتاريخ الإنشاء وتاريخ التعديل وتطبيق المنتج. هذا يلتقط الطبقة الأولى لكنه يفوت تقريباً كل شيء آخر.

exiftool في سطر الأوامر. تشغيل exiftool document.pdf سيعرض لك كل شيء: خصائص المستند وبيانات XMP وبيانات EXIF للصور المضمنة والحقول المخصصة. هذه هي طريقة الفحص الأكثر اكتمالاً، لكنها تتطلب ارتياحاً مع الطرفية. إذا لم تستخدمها من قبل، فإن تثبيتها يستحق العناء فقط لترى ما يمكن أن يحتويه ملف PDF واحد.

عارضات البيانات الوصفية عبر الإنترنت. تتيح لك بعض المواقع رفع ملف PDF لفحص بياناته الوصفية. إذا كان سبب فحصك للبيانات الوصفية هو الخصوصية، فإن رفع الملف إلى خدمة طرف ثالث لفحصه هو خطوة مشكوك فيها. أنت تحاول معرفة ما إذا كان الملف يسرب معلومات، والخطوة الأولى هي إرساله إلى شخص غريب.

بمجرد معرفة ما هو موجود في الملف، يكون السؤال هو كيفية إزالته.

طرق إزالة البيانات الوصفية من PDF

لا توجد طريقة واحدة أفضل. الاختيار الصحيح يعتمد على ما تحتاج للاحتفاظ به ومدى الشمولية المطلوبة.

Adobe Acrobat (تنظيف المستند)

يتضمن Acrobat Pro ميزات “إزالة المعلومات المخفية” و"تنظيف المستند" التي يمكنها حذف البيانات الوصفية والنص المخفي والتعليقات وبيانات النماذج والمرفقات والمحتوى غير المرئي الآخر. هذا أحد أكثر الأساليب اكتمالاً إذا كنت بحاجة للحفاظ على طبقة النص سليمة والملف قابلاً للبحث.

القيد هو أنه يتطلب ترخيص Acrobat Pro مدفوعاً. إذا كان لديك بالفعل، فهذا خيار قوي. إذا لم يكن لديك، فهذا ليس نوع المشكلة التي تبرر الاشتراك بحد ذاتها.

exiftool وأدوات سطر الأوامر الأخرى

يمكن لـ exiftool إزالة حقول بيانات وصفية محددة جراحياً أو حذف كل شيء من ملف PDF بأمر واحد. إنها مجانية وتعمل على أي منصة وتمنح تحكماً دقيقاً في ما يتم إزالته بالضبط.

القيد هو الحاجز التقني. كما أنها تركز على حقول البيانات الوصفية بدلاً من البيانات الهيكلية المخفية. إذا كان ملف PDF يحتوي على سجل مراجعات أو طبقات مخفية أو كائنات مضمنة، فلن تلتقطها exiftool. إنها ممتازة فيما تفعله، لكنها لا تغطي كل طبقة.

أدوات إزالة البيانات الوصفية عبر الإنترنت

تتيح لك عدة مواقع رفع ملف PDF وحذف البيانات الوصفية وتنزيل النسخة المنظفة. سير العمل بسيط ولا يتطلب تثبيت أي برنامج.

القيد واضح. أنت ترفع مستنداً إلى خادم طرف ثالث لحل مشكلة خصوصية. هذا يشبه إلى حد ما تسليم مذكراتك لشخص غريب حتى يمزق الصفحة التي تحتوي على عنوانك.

إذا كان الملف منخفض المخاطر، فقد يكون ذلك مقبولاً. إذا كنت تزيل البيانات الوصفية لأن المستند حساس، فإن هذا النهج يُدخل نوع التعرض الذي تحاول تجنبه بالضبط. لمزيد من المعلومات حول هذه المقايضة، يغطيها مقال هل استخدام أدوات PDF عبر الإنترنت آمن للمستندات الحساسة؟ بالتفصيل.

الطباعة إلى PDF

إعادة طباعة ملف PDF عبر طابعة افتراضية تنشئ ملفاً جديداً غالباً ما يحذف بعض البيانات الوصفية ويسطح عناصر معينة. إنها مجانية ومدمجة في معظم أنظمة التشغيل.

النتائج غير متسقة. بعض الطابعات الافتراضية تضيف بياناتها الوصفية الخاصة إلى المخرجات. بعضها يحذف بيانات XMP وبعضها لا يفعل. قد تبقى بيانات EXIF للصور المضمنة أو لا تبقى بعد العملية. إذا استخدمت هذه الطريقة، تحقق دائماً من النتيجة بدلاً من افتراض أنها نظيفة.

التحويل إلى PDF بأسلوب المسح الضوئي

يحول هذا النهج كل صفحة من ملف PDF إلى صورة، ثم يغلف تلك الصور في ملف PDF جديد. لأن هيكل المستند بالكامل يتم استبداله، تتم إزالة جميع البيانات المخفية: البيانات الوصفية وطبقات النص والتعليقات وسجل المراجعات والملفات المضمنة وحقول النماذج وJavaScript، كل شيء. المخرجات هي ملف PDF جديد يحتوي فقط على صور الصفحات المُصيَّرة.

المقايضة هي أن الملف لم يعد قابلاً للبحث النصي. يتصرف كصورة لكل صفحة. بالنسبة للمستندات النهائية والمتجهة خارج مؤسستك، غالباً ما تستحق هذه المقايضة. بالنسبة للمستندات التي لا تزال بحاجة للبحث أو الاقتباس أو التعديل لاحقاً، فهي ليست كذلك.

هذا ما يفعله Look Scanned. يحول ملف PDF إلى نسخة بأسلوب المسح الضوئي محلياً في متصفحك، لذلك لا يغادر الملف جهازك أبداً. النتيجة هي ملف PDF نظيف قائم على الصور بدون بيانات مخفية وبدون طبقات نصية وبدون بيانات وصفية من الأصل وبدون معالجة من جانب الخادم تقلق بشأنها.

المقارنة

الطريقةيزيل خصائص المستنديزيل الطبقات المخفيةيزيل EXIF للصوريحافظ على قابلية البحث النصييتطلب رفع الملفالتكلفة
Adobe Acrobat (تنظيف)نعمنعميعتمد على الإعداداتنعملامدفوع
exiftool / سطر الأوامرنعمجزئياًنعمنعملامجاني
أدوات البيانات الوصفية عبر الإنترنتعادةًعادةً لاأحياناًنعمنعممجاني
الطباعة إلى PDFجزئياًجزئياًأحياناًعادةًلامجاني
التحويل بأسلوب المسح الضوئي (مثل Look Scanned)نعمنعمنعملالا (متصفح محلي)مجاني

لا يوجد صف واحد مثالي لكل حالة. السؤال دائماً هو أي المقايضات تهم لهذا الملف بالتحديد.

متى يكون كل نهج منطقياً

المستند لا يزال قيد العمل. احذف البيانات الوصفية باستخدام Acrobat أو exiftool. احتفظ بطبقة النص. إزالة البيانات الوصفية في هذه المرحلة هي صيانة وليست الحدث الرئيسي.

المستند نهائي ومتجه خارج مؤسستك. إذا لم تكن قابلية البحث حرجة، فإن التحويل بأسلوب المسح الضوئي هو الخطوة الأكثر شمولاً. يزيل كل شيء في مرة واحدة. إذا كان الملف لا يزال بحاجة لأن يكون قابلاً للبحث، استخدم ميزة التنظيف في Acrobat بدلاً من ذلك، وتحقق من النتيجة.

المستند شديد الحساسية. اجمع بين الأساليب. تعامل مع التنقيح المناسب أولاً، ثم تنظيف البيانات الوصفية، ثم التحويل النهائي بأسلوب المسح الضوئي. كل خطوة تغطي طبقة مختلفة. إذا كان التنقيح جزءاً من سير عملك، فإن مقال الأشرطة السوداء ليست تنقيحاً يوضح لماذا الإخفاء المرئي ليس كافياً.

لست متأكداً مما يحتويه الملف. افحص أولاً باستخدام exiftool أو لوحة الخصائص. ثم قرر بناءً على ما تجده وأين يتجه الملف. اختيار طريقة الإزالة قبل فهم ما يحتاج للإزالة يؤدي إلى المبالغة أو تفويت بيانات.

إذا كنت تقيّم ما إذا كان ملف PDF بأسلوب المسح الضوئي هو الشكل المناسب لحالتك، فإن مقال PDF ممسوح ضوئياً مقابل PDF قابل للتعديل: أيهما يجب أن ترسل؟ يغطي هذا القرار بشكل أوسع.

سير العمل الذي أستخدمه فعلاً

  1. أنهِ محتوى المستند أولاً. لا تنظف البيانات الوصفية لملف لا يزال يتغير.
  2. افحص البيانات الوصفية للتصدير النهائي. ملف > الخصائص كحد أدنى. exiftool إذا كان الأمر مهماً.
  3. أزل أو نظف بناءً على ما وجدته ومدى حساسية الوجهة.
  4. إذا كان الملف متجهاً للخارج ولا يحتاج لأن يكون قابلاً للبحث، أحوله إلى PDF بأسلوب المسح الضوئي. يتولى Look Scanned هذه الخطوة في المتصفح دون رفع الملف.
  5. افتح النتيجة في عارض جديد وتحقق. افحص الخصائص وحاول تحديد النص وابحث عن مصطلحات يُفترض أنها اختفت.

تلك الخطوة الأخيرة تلتقط بيانات متبقية أكثر مما يتوقعه الناس.

إذا كان تسطيح الملف كافياً لحالتك ولا تحتاج التحويل الكامل بأسلوب المسح الضوئي، فإن مقال كيفية تسطيح ملف PDF قبل إرساله يغطي تلك المنطقة الوسطى.

الأسئلة الشائعة

هل يزيل التحويل إلى PDF ممسوح ضوئياً جميع البيانات الوصفية؟

نعم. التحويل إلى PDF قائم على الصور يستبدل هيكل الملف بالكامل. النتيجة لا تحتوي على طبقة نصية ولا كائنات مخفية ولا خصائص مستند من الأصل ولا بيانات وصفية لملفات مضمنة. المخرجات هي ملف PDF جديد يحتوي فقط على صور الصفحات المُصيَّرة.

هل يمكن لأحد استعادة البيانات الوصفية من PDF بأسلوب المسح الضوئي؟

ليس من ملف PDF نفسه. الهيكل الأصلي اختفى. البيانات الوصفية الوحيدة في الملف الجديد هي ما تكتبه أداة التحويل، مثل علامة المنتج الخاصة بها. إذا تم التحويل محلياً في المتصفح، فلا توجد نسخة من جانب الخادم أيضاً.

هل إزالة البيانات الوصفية هي نفسها التنقيح؟

لا. إزالة البيانات الوصفية تحذف الخصائص المخفية والبيانات على مستوى المستند. التنقيح يزيل المحتوى المرئي من الصفحة. إذا كنت بحاجة لإزالة أسماء أو أرقام أو نص من الصفحة نفسها، فهذه خطوة منفصلة يجب أن تحدث قبل تنظيف البيانات الوصفية. يشرح مقال الأشرطة السوداء ليست تنقيحاً لماذا الإخفاء المرئي وحده لا يكفي.

هل يجب إزالة البيانات الوصفية من كل ملف PDF أرسله؟

ليس بالضرورة. بالنسبة للمستندات الروتينية العامة أو منخفضة المخاطر، البيانات الوصفية غير ضارة. يصبح السؤال مهماً عندما يكون المستند حساساً أو المستلم خارجياً أو يُفترض أن تبقى هوية المؤلف خارج الملف.

فكرة أخيرة

معظم الناس لا يتحققون أبداً مما يقوله ملف PDF عنهم قبل إرساله.

قد يكون الملف نظيفاً. أو قد يحتوي على اسمك وسجل مراجعاتك وإحداثيات GPS للمقهى الذي حررته فيه يوم الثلاثاء الماضي.

إذا كان المستند يستحق المشاركة بعناية، فإنه يستحق الفحص. وإذا كشف الفحص أكثر مما توقعت، فهناك طرق مباشرة لإصلاحه قبل أن تضغط إرسال.