ভাল ডাটা বেনামে সফটওয়্যার সম্পর্কে কেউ কি সচেতন? অথবা সম্ভবত আর এর জন্য এমন কোনও প্যাকেজ যা ডেটা বেনামে করতে পারে? স্পষ্টতই অবিচ্ছিন্ন নামহীনতার প্রত্যাশা করবেন না - কেবল এটি কঠিন করে তুলতে চান।
ভাল ডাটা বেনামে সফটওয়্যার সম্পর্কে কেউ কি সচেতন? অথবা সম্ভবত আর এর জন্য এমন কোনও প্যাকেজ যা ডেটা বেনামে করতে পারে? স্পষ্টতই অবিচ্ছিন্ন নামহীনতার প্রত্যাশা করবেন না - কেবল এটি কঠিন করে তুলতে চান।
উত্তর:
কর্নেল Anonymization Tookit ওপেন সোর্স। তাদের গবেষণা পৃষ্ঠায় সম্পর্কিত প্রকাশনাগুলির লিঙ্ক রয়েছে।
সতর্কতা: সাবধানতা অবলম্বন করুন যে উপাত্তের মান খুব বেশি না হারিয়ে পুনরায় সনাক্তকরণ (ডি-অজ্ঞাতকরণ) প্রতিরোধ করে এমনভাবে তথ্য বেনামে রাখা খুব কঠিন হতে পারে। এটি এমন পরিস্থিতি নয় যেখানে আপনি কেবল কোনও চিন্তাভাবনা না করেই এতে এক টুকরো সফটওয়্যার ফেলে দিতে পারেন। মানুষের অজ্ঞাত পরিচয় রক্ষা করার জন্য যত্নবান চিন্তাভাবনা করা দরকার। দেখুন, যেমন, এই কাগজ কেন এই তুচ্ছ নয় একটি আরো সতর্ক উদ্ভাস জন্য।
একটি সাবধানী গল্পের উদাহরণ নেটফ্লিক্স চ্যালেঞ্জ, যেখানে একটি আপাতদৃষ্টিতে বেনামে ডেটাসেটটি প্রকৃতপক্ষে নেটফ্লিক্স ব্যবহারকারীদের পরিচয়ের সাথে যুক্ত ছিল - বা বেনামে এওএল অনুসন্ধানের রেকর্ড প্রকাশ, যার মধ্যে অনেকগুলি (গবেষকরা আবিষ্কার করেছেন) এখনও এর সাথে আবদ্ধ হতে পারেন আরও পরিশীলিত বিশ্লেষণের মাধ্যমে ব্যক্তি। অন্য উদাহরণ ম্যাসাচুসেটস থেকে, যেখানে একটি স্বাস্থ্য বীমা কমিশন নাম, ঠিকানা, এসএসএন ইত্যাদি মুছে ফেলার মাধ্যমে নাম প্রকাশ করার পরে সমস্ত রাজ্যের কর্মীদের উপর ডেটা প্রকাশ করেছিল তবে, একটি গোপনীয়তা গবেষক আবিষ্কার করেছেন যে ব্যক্তিদের পুনরায় সনাক্ত করা এখনও সম্ভব ছিল, এবং একটি বিক্ষোভ হিসাবে, কীভাবে গভর্নরের স্বাস্থ্য রেকর্ড সনাক্ত করতে হয় তা দেখিয়েছে। পরে তিনি দেখিয়েছিলেন, উদাহরণস্বরূপ, বেশিরভাগ লোককে কেবল তাদের জিপ কোড (বা শুমারি ট্র্যাক্ট), জন্ম তারিখ এবং লিঙ্গ থেকে স্বতন্ত্রভাবে চিহ্নিত করা যায়। এইগুলি ছিল নিবিড়ভাবে ডেটা বেনামে দেওয়ার লোকদের গল্পগুলি; তারা ভেবেছিল যে তারা নাম প্রকাশের জন্য একটি ভাল কাজ করবে এবং তারা বুঝতে পারে না যে এই সমস্যাটি কতটা জটিল। এই সাবধানী গল্পগুলি আপনাকে বিরতি দেওয়া উচিত।
এই কারণগুলির জন্য, আমি আপনাকে নিজের ডেটাসেটটি নিজের নামে বেনামে নেওয়ার চেষ্টা থেকে নিরুৎসাহিত করি, যদি আপনার কাছে এই ক্ষেত্রে কোনও পূর্ব অভিজ্ঞতা নেই।
গুরুত্বপূর্ণ: ডেটা বেনামে রাখার জন্য প্রয়োজনীয় কৌশলগুলি সম্ভবত আপনার যে ধরণের ডেটা এবং আপনি যে অ্যাপ্লিকেশন ডোমেনে কাজ করছেন তার উপর অনেক বেশি নির্ভর করবে Unfortunately দুর্ভাগ্যক্রমে, আপনি এই তথ্য সরবরাহ করেন নি। ফলস্বরূপ, কীভাবে আপনার ডেটাসেটটি বেনামে রাখবেন সে সম্পর্কে আপনাকে ভাল পরামর্শ প্রদান করা প্রায় অসম্ভব।
আমি কল্পনা করি যে এই উত্তরটি অহেতুক হিসাবে দেখা প্রলোভনকর হতে পারে কারণ "খুশী হোন, চিন্তা করবেন না, কেবল এই ডেটাতে এই ম্যাজিক সফটওয়্যারটি ফেলে দিন এবং আপনাকে ভাবতে হবে না", আমি বলছি " অপেক্ষা করুন, এটি প্রথম নজরে প্রদর্শিত হওয়ার চেয়ে কৌশলযুক্ত, সাবধানতা অবলম্বন করুন "। আমি বুঝতে পেরেছি যে এই বার্তাটি খুব জনপ্রিয় নাও হতে পারে, তবে আমি মনে করি এটি বার্তাটি শোনার দরকার।
একটি পদ্ধতির ব্লুম ফিল্টার ব্যবহার করা হবে। জাভা এবং পাইথনের প্রোগ্রামগুলির জন্য SAFELINK প্রকল্পের ওয়েবসাইটটি দেখুন । কাগজ ব্যাখ্যা পদ্ধতি এখানে ।
এএনইউ ডেটা মাইনিং গ্রুপ দ্বারা বিকাশকৃত এন-গ্রাম ব্যবহার করে রেকর্ড সংযোগের প্রসঙ্গে স্ট্রিংগুলির অজ্ঞাতকরণের জন্য একটি আকর্ষণীয় পন্থাও রয়েছে । বর্ণনা এবং নমুনা পাইথন কোড সহ কাগজটি এখানে উপলভ্য ।