যখনই কোনো বড়সড় ডকুমেন্ট লিক ভাইরাল হয়, আমার ফিডে PDF নিয়ে একই বিতর্ক ফিরে আসে।
এবার ছিল Epstein files-এর PDF: মানুষ কালো করা অংশে জুম করে জিজ্ঞেস করছে, রিড্যাকশন সত্যি হয়েছে, নাকি শুধু উপরে কালো বাক্স বসানো।
আমি এখানে ঘটনাটার বিচার করতে আসিনি। কিন্তু এই বিতর্কটা কাজে লাগে, কারণ এটা এমন একটা ভুল দেখায় যা অনেক টিমের ভাবনার চেয়ে অনেক বেশি সাধারণ:
কালো বার অনেক সময় শুধু চোখে দেখানোর জন্য ঢেকে রাখে। আসল রিড্যাকশনে তথ্যটাই সরিয়ে ফেলা হয়।
হ্যাঁ, এই দুই জিনিস এক নয়।
কেন “কালো দেখাচ্ছে” তবু ঝুঁকি থাকতে পারে
PDF সব সময় “পাতার ছবি” নয়। বরং এটা এক ধরনের কন্টেইনার। এক ফাইলেই থাকতে পারে:
- দেখা যায় এমন পেজ
- সিলেক্ট করা যায় এমন লেখা
- লুকানো OCR লেখা (দেখা যায় না, কিন্তু সার্চে উঠে আসে)
- অ্যানোটেশন স্তর (হাইলাইট, শেপ, মন্তব্য)
- মেটাডেটা (লেখক, শিরোনাম, বিষয় ইত্যাদি)
তাই স্ক্রিনে কিছু ঢেকে দিলেও নিচের লেখা, OCR বা বাকি অবজেক্ট ভুল করে থেকেই যেতে পারে। এটাকেই বলা হয় অকার্যকর রিড্যাকশন। এখানে কোনো জটিল হ্যাকিং লাগে না, শুধু প্রক্রিয়ায় “ঢেকে দেওয়া” আর “মুছে ফেলা” গুলিয়ে যায়।
আপনার পদ্ধতি যদি হয় “Word/PowerPoint-এ কালো বক্স এঁকে PDF বানানো”, তাহলে এটা ঝুঁকিপূর্ণ। কখনো কাজ করে, কখনো করে না। আর যে চূড়ান্ত ফাইলটি পাঠাবেন সেটা না দেখে বোঝার উপায় নেই।
“রিড্যাক্টেড” PDF পাঠানোর আগে আমার দ্রুত যাচাই
এটা কোনো পূর্ণাঙ্গ নীতিমালা নয়। ৬০–৯০ সেকেন্ডের একটা বাস্তবধর্মী রুটিন, যেটা সাধারণ ভুল দ্রুত ধরতে পারে।
আমি শুধু চূড়ান্ত এক্সপোর্ট করা ফাইলটাই দেখি (যেটা আপলোড/ইমেইল/শেয়ার হবে):
- সংবেদনশীল শব্দ সার্চ করা (নাম, আইডি, ইমেইলের অংশ, ঠিকানা)
- কালো অংশের আশেপাশে সিলেক্ট করে কপি/পেস্ট করে প্লেইন টেক্সট এডিটরে দেখা
- দুটি ভিন্ন ভিউয়ার-এ খোলা (ডেস্কটপ অ্যাপ + ব্রাউজার সাধারণত যথেষ্ট)
- কোনো অ্যানোটেশন/মন্তব্য থেকে গেছে কি না দেখা (হাইলাইট, নোট, শেপ)
- বাইরে পাঠাতে হলে মেটাডেটা দেখা (লেখক/শিরোনাম/বিষয়)
ডকুমেন্ট যদি স্ক্যান থেকে আসে বা OCR করা থাকে, আমি আরও সতর্ক থাকি। কারণ লুকানো সার্চযোগ্য লেখা থেকে যাওয়া খুব সাধারণ ঘটনা।
ব্যস। সহজ, পুনরাবৃত্তিযোগ্য, আর কার্যকর।
যে কাজের ধারা আমাকে ঝামেলা থেকে বাঁচায়
ডকুমেন্টে সংবেদনশীল তথ্য থাকলে আমি ইচ্ছা করে প্রক্রিয়াটা খুব সরল রাখি:
- আসল রিড্যাকশন করি (তথ্য সরাই, শুধু ঢাকি না)
- অতিরিক্ত স্তর পরিষ্কার করি (অ্যানোটেশন, অ্যাটাচমেন্ট, লুকানো স্তর, মেটাডেটা)
- চূড়ান্ত এক্সপোর্ট যাচাই করি (উপরের তালিকা ধরে)
- পাঠানোর জন্য প্রস্তুত সংস্করণ বানাই (সাধারণত স্ক্যান-ধাঁচের, একরকম, চূড়ান্ত)
শেষ ধাপটা অনেকেই অবহেলা করেন। এটা দেখনদারি নিরাপত্তার জন্য নয়; বরং অপ্রত্যাশিত গোলমাল কমাতে এবং ভিন্ন ডিভাইসে একইরকম আউটপুট রাখতে।
আমার কাজে Look Scanned কোথায় আসে
আমি Look Scanned-কে রিড্যাকশন টুল হিসেবে ব্যবহার করি না। ওটার কাজ সেটা নয়।
আমি এটা ব্যবহার করি শেষ ধাপের ডেলিভারি টুল হিসেবে।
ডকুমেন্টে সঠিক রিড্যাকশন ও চূড়ান্ত যাচাই শেষ হলে, Look Scanned আমাকে পরিষ্কার স্ক্যান-ধাঁচের PDF দিতে সাহায্য করে। আনুষ্ঠানিক সাবমিশন বা অফিসিয়াল আদান-প্রদানে মানুষ সাধারণত এমন ফাইলই আশা করে।
ব্যবহারিকভাবে এর সুবিধা:
- “আমার কম্পিউটারে ফরম্যাট বদলে গেছে” ধরনের কথা কমে
- ডকুমেন্টটা বেশি “চূড়ান্ত” মনে হয় (বিশেষ করে স্ক্যান লুক দরকার হলে)
- আউটপুট পরিষ্কার থাকে, এলোমেলো মার্কআপ স্তর ঢুকে যাওয়ার ঝুঁকি কমে (আপনার এক্সপোর্ট চেইনের ওপর নির্ভর করে)
ক্রমটাই আসল: সরাও → যাচাই করো → চূড়ান্ত করো।
ছোট করে শেষ কথা
Epstein files-এর PDF বিতর্ক যদি আবার কিছু শেখায়, সেটা একটাই:
কালো বাক্স প্রমাণ নয়।
রিড্যাকশনকে ডেটা অপারেশন হিসেবে নিন, যে ফাইল প্রকাশ করবেন সেটা ঠিকমতো যাচাই করুন, তারপর স্ক্যান-ধাঁচের চূড়ান্ত রূপ নিয়ে ভাবুন।
Look Scanned দেখুন: https://lookscanned.io