শেয়ার করার আগে PDF থেকে মেটাডেটা কীভাবে সরাবেন

গত সপ্তাহে আমি একটি PDF পাঠানোর আগে এর মেটাডেটা পরীক্ষা করেছিলাম। এতে এখনও আমার পুরো নাম, আমার কোম্পানির অভ্যন্তরীণ ফাইল পাথ এবং গত মাসে করা প্রতিটি সংশোধনের সঠিক টাইমস্ট্যাম্প ছিল।

পৃষ্ঠাটি পরিষ্কার দেখাচ্ছিল। ফাইলটি ছিল না।

বেশিরভাগ মানুষ PDF শেয়ার করার আগে কখনই প্রপার্টিজ প্যানেল খোলেন না। দৃশ্যমান বিষয়বস্তুই সব মনোযোগ পায়। কিন্তু ফাইল নিজে পৃষ্ঠায় মুদ্রিত বিষয়ের চেয়ে অনেক বেশি বলতে পারে, এবং সেই লুকানো স্তরই এই পোস্টের বিষয়।

সংক্ষিপ্ত উত্তর

PDF মেটাডেটায় আপনার নাম, আপনার ব্যবহৃত সফটওয়্যার, তৈরি ও সংশোধনের টাইমস্ট্যাম্প, সংশোধনের ইতিহাস, মন্তব্য এবং এমনকি এম্বেডেড ছবি থেকে GPS স্থানাংক থাকতে পারে।

এটি সরাতে আপনার কাছে কয়েকটি বিকল্প আছে:

নির্দিষ্ট ক্ষেত্র মুছে ফেলতে মেটাডেটা এডিটর বা স্যানিটাইজেশন টুল ব্যবহার করুন
সম্পূর্ণ নিয়ন্ত্রণের জন্য exiftool-এর মতো কমান্ড-লাইন টুল ব্যবহার করুন
PDF-কে স্ক্যান-স্টাইল ইমেজ-ভিত্তিক ফাইলে রূপান্তর করুন, যা সম্পূর্ণ নথির কাঠামো প্রতিস্থাপন করে এবং সমস্ত লুকানো ডেটা একবারে সরিয়ে দেয়

যদি নথিটি চূড়ান্ত হয় এবং আপনার সংস্থার বাইরে যাচ্ছে, তাহলে শেষ বিকল্পটি সবচেয়ে পুঙ্খানুপুঙ্খ একক পদক্ষেপ যা আপনি নিতে পারেন।

PDF মেটাডেটায় আসলে কী থাকে

একটি PDF পৃষ্ঠায় যা দেখা যায় তার বাইরে তিন স্তরের তথ্য বহন করতে পারে।

প্রথম স্তর হলো নথির বৈশিষ্ট্য (Document Properties)। এটি সেই মেটাডেটা যা বেশিরভাগ মানুষ ভাবেন: লেখকের নাম, শিরোনাম, বিষয়, তৈরির তারিখ, সংশোধনের তারিখ এবং যে সফটওয়্যার ফাইলটি তৈরি করেছে। যেকোনো PDF ভিউয়ারে ফাইল খুলুন, File > Properties পরীক্ষা করুন, এবং আপনি সম্ভবত “Author: Jane Smith” এবং “Producer: Microsoft Word 2021”-এর মতো ক্ষেত্র দেখবেন। এই তথ্য ফাইলের সাথে যেখানেই যায় সেখানেই যায়।

দ্বিতীয় স্তর হলো XMP এবং এম্বেডেড মেটাডেটা। এটি কম দৃশ্যমান কিন্তু প্রায়ই বেশি প্রকাশক। আপনার PDF-এ যদি এম্বেডেড ছবি থাকে, তাহলে সেই ছবিগুলোতে এখনও তাদের আসল EXIF ডেটা থাকতে পারে, যার মধ্যে ক্যামেরা মডেল, টাইমস্ট্যাম্প এবং GPS স্থানাংক আছে। XMP মেটাডেটায় এডিটিং হিস্ট্রি, কাস্টম ট্যাগ এবং ফন্ট লাইসেন্সিং তথ্যও থাকতে পারে। বেশিরভাগ মানুষ জানেন না যে এই স্তরটি বিদ্যমান কারণ স্ট্যান্ডার্ড PDF ভিউয়ার এটি দেখায় না।

তৃতীয় স্তর হলো লুকানো কাঠামোগত ডেটা। PDF কীভাবে তৈরি এবং সম্পাদনা করা হয়েছে তার উপর নির্ভর করে, ফাইলে সংশোধনের ইতিহাস, মুছে ফেলা কিন্তু পুনরুদ্ধারযোগ্য টেক্সট, মন্তব্য, টীকা, ফর্ম ফিল্ড ডিফল্ট, লুকানো স্তর, JavaScript এবং এম্বেডেড ফাইল সংযুক্তি থাকতে পারে। এই স্তরটিই সবচেয়ে বেশি ক্ষতি করে যখন এটি ফাঁস হয়, কারণ এতে এমন বিষয়বস্তু থাকতে পারে যা লেখক মনে করেছিলেন তারা সরিয়ে দিয়েছেন।

আপনি যদি ওয়েব টুলে ফাইল আপলোড করার প্রেক্ষাপটে এই ধরনের লুকানো ডেটা সম্পর্কে আগেই ভেবে থাকেন, তাহলে সংবেদনশীল নথির জন্য অনলাইন PDF টুল ব্যবহার করা কি নিরাপদ? বিস্তৃত বিশ্বাস মডেল কভার করে।

এটি মানুষের ধারণার চেয়ে বেশি গুরুত্বপূর্ণ কেন

মেটাডেটা ফাঁস নাটকীয় নয়। এগুলো শান্ত, নির্দিষ্ট এবং ফাইল শেয়ার হয়ে যাওয়ার পরে পূর্বাবস্থায় ফেরানো কঠিন।

যখন গোপনীয়তা গুরুত্বপূর্ণ তখন লেখক শনাক্তকরণ। যদি PDF একটি নির্দিষ্ট ব্যক্তি দ্বারা তৈরি হয়ে থাকে, তাহলে লেখক ক্ষেত্র বা অভ্যন্তরীণ ফাইল পাথ তাদের সাথে সংযুক্ত হতে পারে। হুইসেলব্লোয়ার, বেনামী প্রতিবেদন, ফাঁস হওয়া নথি বা যেকোনো পরিস্থিতিতে এটি গুরুত্বপূর্ণ যেখানে প্রেরকের পরিচয় ফাইলের বাইরে থাকার কথা।

সংশোধনের ইতিহাস আলোচনার কৌশল প্রকাশ করে। একটি চুক্তি PDF যাতে এখনও ট্র্যাক করা পরিবর্তন বা সংশোধন মেটাডেটা আছে, আপনার প্রাথমিক অবস্থান, আপনি কী মুছেছেন এবং চূড়ান্ত সংস্করণ পাঠানোর আগে কী নরম করেছেন তা প্রকাশ করতে পারে। অন্য পক্ষকে এটি খুঁজে পেতে প্রযুক্তিগত হতে হবে না। কিছু PDF ভিউয়ার স্বয়ংক্রিয়ভাবে সংশোধন ডেটা দেখায়।

টাইমস্ট্যাম্প সংবেদনশীল সময় প্রকাশ করে। তৈরি এবং সংশোধনের তারিখ কাউকে বলে দেয় নথিটি কখন শুরু হয়েছিল, কখন শেষবার পরিবর্তন করা হয়েছিল এবং কতবার স্পর্শ করা হয়েছিল। আইনি, সম্মতি বা প্রতিযোগিতামূলক প্রেক্ষাপটে, এই ধরনের সময়ের তথ্য বিষয়বস্তুর চেয়েও বেশি গুরুত্বপূর্ণ হতে পারে।

এম্বেডেড ছবি থেকে GPS স্থানাংক। আপনি যদি PDF-এ একটি ছবি পেস্ট করেন এবং সেই ছবিতে এখনও EXIF লোকেশন ডেটা থাকে, তাহলে ছবিটি কোথায় তোলা হয়েছিল তার GPS স্থানাংক এখন ফাইলে এম্বেড করা আছে। বেশিরভাগ মানুষ এটি নিয়ে ভাবেন না কারণ মেটাডেটা ইমেজ অবজেক্টের ভিতরে থাকে, PDF প্রপার্টিজ প্যানেলে নয়।

সফটওয়্যার ভার্সন অভ্যন্তরীণ টুল প্রকাশ করে। “Producer: Adobe Acrobat Pro DC 24.1.30225” বা “Creator: Microsoft Word for Microsoft 365”-এর মতো ক্ষেত্র কাউকে বলে দেয় আপনার সংস্থা কোন টুল এবং ভার্সন ব্যবহার করে। বেশিরভাগ নথির জন্য এটি তুচ্ছ। সংবেদনশীল প্রেক্ষাপটে, এটি একটি অপ্রয়োজনীয় তথ্য ফাঁস।

এগুলোর কোনোটিই কাল্পনিক নয়। এগুলো সেই একঘেয়ে মেটাডেটা ফাঁস যা আসলেই ঘটে।

আপনার PDF-এ কী মেটাডেটা আছে তা কীভাবে পরীক্ষা করবেন

কিছু সরানোর আগে, দেখুন ফাইলে আসলে কী আছে।

PDF ভিউয়ার প্রপার্টিজ ডায়ালগ। বেশিরভাগ PDF রিডারে, File > Properties বা Document Properties মৌলিক ক্ষেত্রগুলো দেখায়: লেখক, শিরোনাম, বিষয়, তৈরির তারিখ, সংশোধনের তারিখ এবং প্রোডিউসার অ্যাপ্লিকেশন। এটি প্রথম স্তর ধরে কিন্তু বাকি প্রায় সবকিছু মিস করে।

কমান্ড লাইনে exiftool। exiftool document.pdf চালালে আপনাকে সবকিছু দেখাবে: নথির বৈশিষ্ট্য, XMP ডেটা, এম্বেডেড ইমেজ EXIF এবং কাস্টম ক্ষেত্র। এটি সবচেয়ে সম্পূর্ণ পরিদর্শন পদ্ধতি, কিন্তু এর জন্য টার্মিনালে স্বাচ্ছন্দ্য প্রয়োজন। আপনি যদি আগে কখনো এটি ব্যবহার না করে থাকেন, শুধু একটি PDF-এ কী থাকতে পারে তা দেখার জন্যই ইনস্টল করা মূল্যবান।

অনলাইন মেটাডেটা ভিউয়ার। কিছু ওয়েবসাইট আপনাকে মেটাডেটা পরিদর্শনের জন্য PDF আপলোড করতে দেয়। আপনি যদি মেটাডেটা পরীক্ষা করেন গোপনীয়তার কারণে, তাহলে ফাইলটি পরিদর্শনের জন্য তৃতীয় পক্ষের সেবায় আপলোড করা একটি প্রশ্নবিদ্ধ পদক্ষেপ। আপনি জানতে চাইছেন ফাইলটি তথ্য ফাঁস করে কিনা, এবং প্রথম পদক্ষেপ হলো এটি একজন অপরিচিতের কাছে পাঠানো।

একবার আপনি জানলে ফাইলে কী আছে, প্রশ্ন হলো কীভাবে এটি সরাবেন।

PDF মেটাডেটা সরানোর পদ্ধতি

কোনো একক সেরা পদ্ধতি নেই। সঠিক পছন্দ নির্ভর করে আপনার কী রাখতে হবে এবং কতটা পুঙ্খানুপুঙ্খ হতে হবে তার উপর।

Adobe Acrobat (Sanitize Document)

Acrobat Pro-তে “Remove Hidden Information” এবং “Sanitize Document” ফিচার আছে যা মেটাডেটা, লুকানো টেক্সট, মন্তব্য, ফর্ম ডেটা, সংযুক্তি এবং অন্যান্য অদৃশ্য বিষয়বস্তু মুছে ফেলতে পারে। আপনার যদি টেক্সট স্তর অক্ষত এবং ফাইল অনুসন্ধানযোগ্য রাখতে হয় তাহলে এটি সবচেয়ে সম্পূর্ণ পদ্ধতিগুলোর একটি।

সীমাবদ্ধতা হলো এটির জন্য একটি পেইড Acrobat Pro লাইসেন্স প্রয়োজন। আপনার কাছে যদি ইতিমধ্যে থাকে, এটি একটি শক্তিশালী বিকল্প। যদি না থাকে, তাহলে এটি সেই ধরনের সমস্যা নয় যা একা সাবস্ক্রিপশনকে ন্যায্যতা দেয়।

exiftool এবং অন্যান্য CLI টুল

exiftool সার্জিক্যালভাবে নির্দিষ্ট মেটাডেটা ক্ষেত্র সরাতে পারে বা একটি কমান্ডে PDF থেকে সবকিছু মুছে ফেলতে পারে। এটি বিনামূল্যে, যেকোনো প্ল্যাটফর্মে চলে এবং ঠিক কী সরানো হচ্ছে তার উপর সুনির্দিষ্ট নিয়ন্ত্রণ দেয়।

সীমাবদ্ধতা হলো প্রযুক্তিগত বাধা। এটি কাঠামোগত লুকানো ডেটার পরিবর্তে মেটাডেটা ক্ষেত্রেও মনোযোগ দেয়। PDF-এ যদি সংশোধনের ইতিহাস, লুকানো স্তর বা এম্বেডেড অবজেক্ট থাকে, exiftool সেগুলো ধরবে না। এটি যা করে তাতে চমৎকার, কিন্তু প্রতিটি স্তর কভার করে না।

অনলাইন মেটাডেটা রিমুভাল টুল

বেশ কিছু ওয়েবসাইট আপনাকে PDF আপলোড করতে, মেটাডেটা মুছতে এবং পরিষ্কার সংস্করণ ডাউনলোড করতে দেয়। কর্মপ্রবাহ সহজ এবং কোনো সফটওয়্যার ইনস্টলেশন প্রয়োজন নেই।

সীমাবদ্ধতা সুস্পষ্ট হওয়া উচিত। আপনি একটি গোপনীয়তা সমস্যা সমাধান করতে তৃতীয় পক্ষের সার্ভারে একটি নথি আপলোড করছেন। এটি অনেকটা আপনার ডায়েরি একজন অপরিচিতকে দেওয়ার মতো যাতে তারা আপনার ঠিকানা সম্বলিত পৃষ্ঠাটি ছিঁড়ে ফেলতে পারে।

ফাইলটি যদি কম ঝুঁকিপূর্ণ হয়, তাহলে এটি গ্রহণযোগ্য হতে পারে। আপনি যদি মেটাডেটা সরাচ্ছেন কারণ নথিটি সংবেদনশীল, তাহলে এই পদ্ধতি ঠিক সেই ধরনের এক্সপোজার তৈরি করে যা আপনি এড়াতে চাইছেন। সেই ট্রেড-অফ সম্পর্কে আরো জানতে, সংবেদনশীল নথির জন্য অনলাইন PDF টুল ব্যবহার করা কি নিরাপদ? বিস্তারিতভাবে কভার করে।

Print to PDF

একটি ভার্চুয়াল প্রিন্টারের মাধ্যমে PDF পুনরায় প্রিন্ট করলে একটি নতুন ফাইল তৈরি হয় যা প্রায়ই কিছু মেটাডেটা মুছে দেয় এবং কিছু উপাদান ফ্ল্যাটেন করে। এটি বিনামূল্যে এবং বেশিরভাগ অপারেটিং সিস্টেমে বিল্ট-ইন।

ফলাফল অসামঞ্জস্যপূর্ণ। কিছু ভার্চুয়াল প্রিন্টার আউটপুটে তাদের নিজস্ব মেটাডেটা ঢুকিয়ে দেয়। কিছু XMP ডেটা মুছে, কিছু মোছে না। এম্বেডেড ইমেজ EXIF রাউন্ড ট্রিপে টিকে থাকতে পারে বা নাও পারে। এই পদ্ধতি ব্যবহার করলে, এটি পরিষ্কার ধরে নেওয়ার পরিবর্তে সবসময় ফলাফল যাচাই করুন।

স্ক্যান-স্টাইল PDF-এ রূপান্তর

এই পদ্ধতি PDF-র প্রতিটি পৃষ্ঠাকে একটি ছবিতে রূপান্তর করে, তারপর সেই ছবিগুলো একটি নতুন PDF-এ মোড়ানো হয়। যেহেতু সম্পূর্ণ নথির কাঠামো প্রতিস্থাপিত হয়, সমস্ত লুকানো ডেটা সরানো হয়: মেটাডেটা, টেক্সট স্তর, মন্তব্য, সংশোধনের ইতিহাস, এম্বেডেড ফাইল, ফর্ম ফিল্ড, JavaScript, সবকিছু। আউটপুট একটি নতুন PDF যাতে শুধু রেন্ডার করা পৃষ্ঠার ছবি আছে।

ট্রেড-অফ হলো ফাইলটি আর টেক্সট-অনুসন্ধানযোগ্য থাকে না। এটি প্রতিটি পৃষ্ঠার ছবির মতো আচরণ করে। চূড়ান্ত নথির জন্য যা আপনার সংস্থার বাইরে যাচ্ছে, এই ট্রেড-অফ প্রায়ই মূল্যবান। নথির জন্য যা এখনও অনুসন্ধান, উদ্ধৃতি বা ডাউনস্ট্রিম সম্পাদনা প্রয়োজন, এটি নয়।

এটাই Look Scanned করে। এটি আপনার ব্রাউজারে স্থানীয়ভাবে PDF-কে স্ক্যান-স্টাইল সংস্করণে রূপান্তর করে, তাই ফাইলটি কখনো আপনার ডিভাইস ছেড়ে যায় না। ফলাফল একটি পরিষ্কার ইমেজ-ভিত্তিক PDF যাতে কোনো লুকানো ডেটা নেই, কোনো টেক্সট স্তর নেই, মূল থেকে কোনো মেটাডেটা নেই এবং চিন্তা করার মতো কোনো সার্ভার-সাইড প্রসেসিং নেই।

তুলনা

পদ্ধতি	নথির বৈশিষ্ট্য সরায়	লুকানো স্তর সরায়	ইমেজ EXIF সরায়	টেক্সট অনুসন্ধানযোগ্য রাখে	আপলোড প্রয়োজন	খরচ
Adobe Acrobat (Sanitize)	হ্যাঁ	হ্যাঁ	সেটিংসের উপর নির্ভর	হ্যাঁ	না	সশুল্ক
exiftool / CLI	হ্যাঁ	আংশিক	হ্যাঁ	হ্যাঁ	না	বিনামূল্যে
অনলাইন মেটাডেটা টুল	সাধারণত	সাধারণত না	কখনো কখনো	হ্যাঁ	হ্যাঁ	বিনামূল্যে
Print to PDF	আংশিক	আংশিক	কখনো কখনো	সাধারণত	না	বিনামূল্যে
স্ক্যান-স্টাইল রূপান্তর (যেমন Look Scanned)	হ্যাঁ	হ্যাঁ	হ্যাঁ	না	না (লোকাল ব্রাউজার)	বিনামূল্যে

কোনো একক সারি প্রতিটি পরিস্থিতির জন্য নিখুঁত নয়। প্রশ্ন সবসময় হলো এই নির্দিষ্ট ফাইলের জন্য কোন ট্রেড-অফগুলো গুরুত্বপূর্ণ।

প্রতিটি পদ্ধতি কখন উপযুক্ত

নথিতে এখনও কাজ হচ্ছে। Acrobat বা exiftool দিয়ে মেটাডেটা মুছুন। টেক্সট স্তর রাখুন। এই পর্যায়ে মেটাডেটা সরানো হলো গৃহরক্ষণাবেক্ষণ, মূল ঘটনা নয়।

নথিটি চূড়ান্ত এবং আপনার সংস্থার বাইরে যাচ্ছে। অনুসন্ধনযোগ্যতা যদি গুরুত্বপূর্ণ না হয়, স্ক্যান-স্টাইল রূপান্তর সবচেয়ে পুঙ্খানুপুঙ্খ একক পদক্ষেপ। এটি একবারেই সবকিছু সরায়। ফাইলটি যদি এখনও অনুসন্ধনযোগ্য হওয়া দরকার, তাহলে এর পরিবর্তে Acrobat-এর Sanitize ফিচার ব্যবহার করুন এবং ফলাফল যাচাই করুন।

নথিটি অত্যন্ত সংবেদনশীল। পদ্ধতিগুলো একত্রিত করুন। প্রথমে সঠিক রিড্যাকশন করুন, তারপর মেটাডেটা ক্লিনআপ, তারপর চূড়ান্ত স্ক্যান-স্টাইল রূপান্তর। প্রতিটি পদক্ষেপ একটি ভিন্ন স্তর কভার করে। রিড্যাকশন যদি আপনার কর্মপ্রবাহের অংশ হয়, তাহলে ব্ল্যাক বার রিড্যাকশন নয় ব্যাখ্যা করে কেন ভিজ্যুয়াল মাস্কিং যথেষ্ট নয়।

আপনি নিশ্চিত নন ফাইলে কী আছে। প্রথমে exiftool বা প্রপার্টিজ প্যানেল দিয়ে পরীক্ষা করুন। তারপর আপনি যা পেয়েছেন এবং ফাইলটি কোথায় যাচ্ছে তার ভিত্তিতে সিদ্ধান্ত নিন। কী সরাতে হবে বোঝার আগে সরানোর পদ্ধতি বেছে নিলে হয় অতিরিক্ত হয় অথবা ডেটা মিস হয়।

আপনি যদি স্ক্যান-স্টাইল PDF আপনার পরিস্থিতির জন্য সঠিক ফরম্যাট কিনা তা ভাবছেন, তাহলে স্ক্যান করা PDF বনাম সম্পাদনযোগ্য PDF: কোনটি পাঠানো উচিত? সেই সিদ্ধান্তকে আরো বিস্তৃতভাবে কভার করে।

আমি যে কর্মপ্রবাহটি আসলে ব্যবহার করি

প্রথমে নথির বিষয়বস্তু শেষ করুন। এখনও পরিবর্তন হচ্ছে এমন ফাইলে মেটাডেটা পরিষ্কার করবেন না।
চূড়ান্ত এক্সপোর্টে মেটাডেটা পরীক্ষা করুন। ন্যূনতম File > Properties। গুরুত্বপূর্ণ হলে exiftool।
আপনি যা পেয়েছেন এবং গন্তব্য কতটা সংবেদনশীল তার ভিত্তিতে সরান বা স্যানিটাইজ করুন।
ফাইলটি যদি বাইরে যাচ্ছে এবং অনুসন্ধনযোগ্য হওয়ার দরকার নেই, আমি এটি স্ক্যান-স্টাইল PDF-এ রূপান্তর করি। Look Scanned ফাইল আপলোড না করেই ব্রাউজারে এই পদক্ষেপ সামলায়।
ফলাফল একটি নতুন ভিউয়ারে খুলুন এবং যাচাই করুন। প্রপার্টিজ পরীক্ষা করুন, টেক্সট সিলেক্ট করার চেষ্টা করুন, যে শব্দগুলো থাকা উচিত নয় সেগুলো অনুসন্ধান করুন।

সেই শেষ পদক্ষেপ মানুষের প্রত্যাশার চেয়ে বেশি অবশিষ্ট ডেটা ধরে।

ফ্ল্যাটেনিং যদি আপনার পরিস্থিতির জন্য যথেষ্ট হয় এবং আপনার সম্পূর্ণ স্ক্যান-স্টাইল রূপান্তরের দরকার না হয়, তাহলে পাঠানোর আগে কীভাবে PDF ফ্ল্যাটেন করবেন সেই মধ্যবর্তী পথ কভার করে।

সচরাচর জিজ্ঞাসিত প্রশ্ন

স্ক্যান করা PDF-এ রূপান্তর করলে কি সমস্ত মেটাডেটা সরে যায়?

হ্যাঁ। ইমেজ-ভিত্তিক PDF-এ রূপান্তর সম্পূর্ণ ফাইল কাঠামো প্রতিস্থাপন করে। ফলাফলে কোনো টেক্সট স্তর নেই, কোনো লুকানো অবজেক্ট নেই, মূল থেকে কোনো নথির বৈশিষ্ট্য নেই এবং কোনো এম্বেডেড ফাইল মেটাডেটা নেই। আউটপুট একটি নতুন PDF যাতে শুধু রেন্ডার করা পৃষ্ঠার ছবি আছে।

কেউ কি স্ক্যান-স্টাইল PDF থেকে মেটাডেটা পুনরুদ্ধার করতে পারে?

PDF নিজে থেকে না। মূল কাঠামো চলে গেছে। নতুন ফাইলে একমাত্র মেটাডেটা হলো রূপান্তর টুল যা লেখে, যেমন তার নিজস্ব প্রোডিউসার ট্যাগ। রূপান্তর যদি ব্রাউজারে স্থানীয়ভাবে হয়, তাহলে কোনো সার্ভার-সাইড কপিও থাকে না।

মেটাডেটা সরানো কি রিড্যাকশনের সমান?

না। মেটাডেটা রিমুভাল লুকানো বৈশিষ্ট্য এবং নথি-স্তরের ডেটা মুছে দেয়। রিড্যাকশন পৃষ্ঠা থেকে দৃশ্যমান বিষয়বস্তু সরায়। পৃষ্ঠা থেকে নাম, নম্বর বা টেক্সট সরাতে হলে, সেটি একটি আলাদা পদক্ষেপ যা মেটাডেটা ক্লিনআপের আগে হওয়া উচিত। ব্ল্যাক বার রিড্যাকশন নয় ব্যাখ্যা করে কেন শুধু ভিজ্যুয়াল মাস্কিং যথেষ্ট নয়।

আমি যে প্রতিটি PDF পাঠাই তা থেকে কি মেটাডেটা সরানো উচিত?

অগত্যা নয়। রুটিন নথির জন্য যা ইতিমধ্যে সর্বজনীন বা কম ঝুঁকিপূর্ণ, মেটাডেটা ক্ষতিকর নয়। প্রশ্নটি গুরুত্বপূর্ণ হয়ে ওঠে যখন নথিটি সংবেদনশীল, প্রাপক বহিরাগত, বা লেখকের পরিচয় ফাইলের বাইরে থাকার কথা।

শেষ কথা

বেশিরভাগ মানুষ পাঠানোর আগে তাদের PDF তাদের সম্পর্কে কী বলে তা কখনো পরীক্ষা করেন না।

ফাইলটি পরিষ্কার হতে পারে। অথবা এতে আপনার নাম, আপনার সংশোধনের ইতিহাস এবং সেই কফি শপের GPS স্থানাংক থাকতে পারে যেখানে আপনি গত মঙ্গলবার এটি সম্পাদনা করেছিলেন।

নথিটি যদি সাবধানে শেয়ার করার যোগ্য হয়, তাহলে এটি পরীক্ষা করারও যোগ্য। এবং পরীক্ষায় যদি প্রত্যাশার চেয়ে বেশি কিছু বেরিয়ে আসে, সেন্ড চাপার আগে এটি ঠিক করার সোজা উপায় আছে।

সংক্ষিপ্ত উত্তর#

PDF মেটাডেটায় আসলে কী থাকে#

এটি মানুষের ধারণার চেয়ে বেশি গুরুত্বপূর্ণ কেন#

আপনার PDF-এ কী মেটাডেটা আছে তা কীভাবে পরীক্ষা করবেন#

PDF মেটাডেটা সরানোর পদ্ধতি#

Adobe Acrobat (Sanitize Document)#

exiftool এবং অন্যান্য CLI টুল#

অনলাইন মেটাডেটা রিমুভাল টুল#

Print to PDF#

স্ক্যান-স্টাইল PDF-এ রূপান্তর#

তুলনা#

প্রতিটি পদ্ধতি কখন উপযুক্ত#

আমি যে কর্মপ্রবাহটি আসলে ব্যবহার করি#

সচরাচর জিজ্ঞাসিত প্রশ্ন#

স্ক্যান করা PDF-এ রূপান্তর করলে কি সমস্ত মেটাডেটা সরে যায়?#

কেউ কি স্ক্যান-স্টাইল PDF থেকে মেটাডেটা পুনরুদ্ধার করতে পারে?#

মেটাডেটা সরানো কি রিড্যাকশনের সমান?#

আমি যে প্রতিটি PDF পাঠাই তা থেকে কি মেটাডেটা সরানো উচিত?#

শেষ কথা#