প্রেরণা
আমি এমন ডেটাসেটের সাথে কাজ করি যা ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (পিআইআই) ধারণ করে এবং কখনও কখনও তৃতীয় পক্ষের সাথে কোনও ডেটাসেটের অংশ ভাগ করে নেওয়া দরকার, যাতে পিআইআই প্রকাশিত হয় না এবং আমার নিয়োগকর্তাকে দায়বদ্ধ করে subject এখানে আমাদের স্বাভাবিক পদ্ধতিটি সম্পূর্ণরূপে ডেটা আটকাতে বা কিছু ক্ষেত্রে এর রেজোলিউশন হ্রাস করতে হয়; উদাহরণস্বরূপ, সম্পর্কিত কাউন্টি বা সেন্সাস ট্র্যাক্টের সাথে একটি সঠিক রাস্তার ঠিকানা প্রতিস্থাপন।
এর অর্থ এই যে কোনও তৃতীয় পক্ষের কাজের জন্য আরও উপযুক্ত এবং সংস্থান এবং দক্ষতা থাকা সত্ত্বেও নির্দিষ্ট ধরণের বিশ্লেষণ এবং প্রক্রিয়াকরণ অবশ্যই ঘরে বসে করা উচিত। যেহেতু উত্স ডেটা প্রকাশ করা হয়নি, তাই আমরা এই বিশ্লেষণ এবং প্রক্রিয়াকরণ সম্পর্কে যেভাবে চলেছি তাতে স্বচ্ছতার অভাব রয়েছে। ফলস্বরূপ, কোনও তৃতীয় পক্ষের কিউএ / কিউসি সঞ্চালন, প্যারামিটারগুলি সামঞ্জস্য করতে বা পরিশোধন করার ক্ষমতা খুব সীমিত হতে পারে।
গোপনীয় ডেটা বেনামে রাখা
অ্যাকাউন্টে ত্রুটি এবং অসঙ্গতিগুলি গ্রহণ করার সময়, একটি কাজ ব্যবহারকারীর-জমা দেওয়া ডেটাতে ব্যক্তিদের তাদের নাম দ্বারা সনাক্তকরণের সাথে জড়িত। একটি ব্যক্তিগত ব্যক্তি এক জায়গায় "ডেভ" এবং অন্য জায়গায় "ডেভিড" হিসাবে রেকর্ড হতে পারে বাণিজ্যিক সংস্থাগুলিতে বিভিন্ন রকম সংক্ষিপ্ত বিবরণ থাকতে পারে এবং সর্বদা কিছু টাইপস থাকে। আমি বেশ কয়েকটি মাপদণ্ডের ভিত্তিতে স্ক্রিপ্টগুলি তৈরি করেছি যা নির্ধারণ করে যে অ-অভিন্ন পরিচয়যুক্ত দুটি রেকর্ড একই ব্যক্তির প্রতিনিধিত্ব করে এবং তাদের একটি সাধারণ আইডি নির্ধারণ করে।
এই মুহুর্তে আমরা নামগুলি আটকে রেখে এবং এই ব্যক্তিগত আইডি নম্বর দিয়ে তাদের প্রতিস্থাপন করে ডেটাসেটকে বেনামে বানাতে পারি। তবে এর অর্থ প্রাপকের কাছে ম্যাচের শক্তি সম্পর্কিত প্রায় কোনও তথ্য নেই। আমরা পরিচয় প্রকাশ না করে যতটা সম্ভব তথ্য পাস করতে সক্ষম হতে চাই।
কি কাজ করে না
উদাহরণস্বরূপ, সম্পাদনার দূরত্ব সংরক্ষণ করার সময় স্ট্রিংগুলি এনক্রিপ্ট করতে সক্ষম হওয়াই দুর্দান্ত হবে। এইভাবে, তৃতীয় পক্ষগুলি তাদের নিজস্ব কিউএ / কিউসি কিছু করতে পারে, বা নিজেরাই আরও প্রক্রিয়াজাতকরণ বেছে নিতে পারে, কখনও অ্যাক্সেস না করে (বা সম্ভাব্য বিপরীত প্রকৌশলী করতে সক্ষম হবে) পিআইআই। সম্ভবত আমরা সম্পাদনা দূরত্ব <= 2 এর সাথে ইন-হাউস স্ট্রিংগুলি মেলে এবং প্রাপক এই সহনশীলতাটি দূরত্বকে <= 1 সম্পাদন করার জন্য আরও দৃighten় করার প্রভাবগুলি দেখতে চান to
তবে এর সাথে আমি পরিচিত একমাত্র পদ্ধতিটি হ'ল এটি রট 13 (আরও সাধারণভাবে, কোনও শিফট সাইফার ), যা খুব কমই এনক্রিপশন হিসাবে গণনা করা হয়; এটি উল্টে নাম লেখার মতো এবং বলার মতো, "প্রতিশ্রুতি দিলে আপনি কাগজটি সরিয়ে ফেলবেন না?"
আর একটি খারাপ সমাধান হ'ল সবকিছু সংক্ষিপ্ত করে দেওয়া। "এলেন রবার্টস" আরও "ইআর" হয়ে ওঠে। এটি একটি দুর্বল সমাধান কারণ কিছু ক্ষেত্রে প্রাথমিক উপাত্তগুলির সাথে মিল রেখে আদ্যক্ষেত্রগুলি কোনও ব্যক্তির পরিচয় প্রকাশ করবে এবং অন্যান্য ক্ষেত্রে এটি অত্যন্ত অস্পষ্ট; "বেঞ্জামিন ওথেলো আমেস" এবং "ব্যাংক অফ আমেরিকা" এর একই সূত্রপাত হবে তবে তাদের নাম অন্যথায় পৃথক। সুতরাং এটি আমরা যা চাই তার কোনওটিই করে না।
একটি অনুচিত বিকল্প হ'ল নামের নির্দিষ্ট বৈশিষ্ট্যগুলি ট্র্যাক করতে অতিরিক্ত ক্ষেত্র প্রবর্তন করা, যেমন:
+-----+----+-------------------+-----------+--------+
| Row | ID | Name | WordChars | Origin |
+-----+----+-------------------+-----------+--------+
| 1 | 17 | "AMELIA BEDELIA" | (6, 7) | Eng |
+-----+----+-------------------+-----------+--------+
| 2 | 18 | "CHRISTOPH BAUER" | (9, 5) | Ger |
+-----+----+-------------------+-----------+--------+
| 3 | 18 | "C J BAUER" | (1, 1, 5) | Ger |
+-----+----+-------------------+-----------+--------+
| 4 | 19 | "FRANZ HELLER" | (5, 6) | Ger |
+-----+----+-------------------+-----------+--------+
আমি এটিকে "অবহেলিত" বলছি কারণ কোনটি গুণগুলি আকর্ষণীয় হতে পারে এবং এটি তুলনামূলকভাবে মোটা relatively যদি নামগুলি সরানো হয়, আপনি সারি 2 এবং 3 এর মধ্যে ম্যাচের শক্তি সম্পর্কে বা 2 এবং 4 সারিগুলির মধ্যে দূরত্ব সম্পর্কে (যেমন, তারা মিলানোর কতটা কাছাকাছি) সম্পর্কে যুক্তিসঙ্গতভাবে সিদ্ধান্ত নিতে পারেন না।
উপসংহার
লক্ষ্যটি এমনভাবে স্ট্রিংগুলিকে রূপান্তর করা যা মূল স্ট্রিংটিকে অস্পষ্ট করার সময় মূল স্ট্রিংয়ের যতগুলি দরকারী গুণগুলি সম্ভব হিসাবে সংরক্ষণ করা হয়। ডিক্রিপশনটি অসম্ভব হওয়া উচিত, বা কার্যকরভাবে অসম্ভব হিসাবে যতটা অযৌক্তিক হওয়া উচিত, ডেটা আকারের আকার যাই হোক না কেন। বিশেষত, একটি পদ্ধতি যা স্বেচ্ছাসেবী স্ট্রিংগুলির মধ্যে সম্পাদনার দূরত্ব সংরক্ষণ করে তা খুব কার্যকর হবে।
আমি দু'টি কাগজপত্র পেয়েছি যা প্রাসঙ্গিক হতে পারে তবে সেগুলি আমার মাথা থেকে কিছুটা বেশি: