ডেটা মাস্কিংয়ের জন্য কী কী সরঞ্জাম রয়েছে? (মাইএসকিউএল, লিনাক্স) [বন্ধ]


14

আমি (আদর্শভাবে মুক্ত, মুক্ত উত্স) ডেটা মাস্কিংয়ের সরঞ্জামগুলি সন্ধান করছি। এরকম কোন অস্তিত্ব আছে কি?

দ্রষ্টব্য: এই সম্পর্কিত প্রশ্নটি পরীক্ষার ডেটা উত্পন্ন করার সরঞ্জামগুলির সাথে সম্পর্কিত, তবে এই প্রশ্নে আমি সত্যিকারের ডেটা দিয়ে শুরু করতে এবং পরীক্ষার উদ্দেশ্যে আকর্ষণীয় করে তোলে এমন কোনও বিশেষ সম্পর্ক না হারিয়ে পরীক্ষায় ব্যবহারের জন্য এটি মাস্কিংয়ে আরও আগ্রহী। উত্পাদিত ডেটা কিছু পরীক্ষার উদ্দেশ্যে সূক্ষ্ম হয়, তবে বাস্তব-বিশ্বের ডেটা এমন সমস্যাগুলি নিয়ে আসে যা আপনি কখনও ভাবেননি। পরীক্ষার ডেটার বড় ডেটাসেট তৈরি করার সরঞ্জাম

উত্তর:


9

আমি খুব আশ্চর্য হব যদি এর জন্য একটি জেনেরিক সরঞ্জাম থাকে - এটি কীভাবে সংবেদনশীল ডেটা এবং কী ছিল না তা "কীভাবে" জানবে? উদাহরণস্বরূপ এটিতে আপনার সমস্ত ডেটা পরীক্ষা করা এবং ক্রেডিট কার্ড নম্বর, ফোন নম্বর, পোস্টকোড, ইমেল ঠিকানা এবং অন্য যে কোনও ডেটা সংবেদনশীল বলে বিবেচিত হয় তার সমস্ত সম্ভাব্য ফর্ম্যাটগুলি সনাক্ত করা দরকার। আপনার স্কিমা সম্পর্কে এটি স্মার্টও হওয়া দরকার - যেমন এটি সমস্ত গ্রাহকের ইমেল ঠিকানাগুলি "none@company.com" এ পুনরায় লিখতে হবে - বা আপনার ডাটাবেস, অ্যাপ্লিকেশন, অন্যান্য সরঞ্জামগুলির কোনও অংশ গ্রাহকের ইমেল ঠিকানা (বা এসএসএন বা যাই হোক না কেন) অনন্য? বা আপনার কাছে অ্যাপ্লিকেশনটির কিছু অংশ রয়েছে যা ক্রেডিট কার্ড নম্বরগুলি চেকসাম করে, আপনি যদি সেগুলি 0000 0000 0000 0000 এ পুনরায় সেট করেন তবে তা ভেঙে যাবে? অথবা আপনার টেলিফোনি সিস্টেমটি গ্রাহককে ধরে নিয়েছে '

মূলত, এটির জন্য যেকোন সরঞ্জামকে কনফিগার করা আপনার নিজের জ্ঞান ব্যবহার করে কেবল নিজের স্ক্রিপ্ট লেখার চেয়ে অনেক বেশি কাজ করবে। আমার সাইটে, আমরা কেবলমাত্র নীতিমালাটি করেছিলাম যে যে কেউ এই জাতীয় ডেটা যুক্ত করে একটি কলাম স্ক্রিপ্ট আপডেট করে একই সাথে বেনামে রাখতে পারে, প্রাথমিক নিরীক্ষার পরে সেই সমস্ত কলামগুলি খুঁজে পেতে এবং সংস্করণ 1 লিখবে।


1
আমি জানি বাণিজ্যিক সরঞ্জাম রয়েছে, যেমন পূর্ববর্তী কর্মক্ষেত্রে আমাদের ওরাকল ডিবিএসের জন্য একটি ব্যবহারের (ব্যর্থ) উদ্যোগ ছিল। (আমি এই প্রকল্পের সাথে জড়িত ছিলাম না, সুতরাং ব্যর্থতার কারণগুলি আমি জানি না I আমি সন্দেহ করি যে কোনও লিগ্যাসি ডিবির জন্য ডেটা মাস্কিংয়ের সরঞ্জাম নির্ধারণ করা খুব ক্লান্তিকর কাজ হতে চলেছে, আপনার পরামর্শ অনুসারে)।
টেস্টারব

3
ওহ আমি আশা করি যে কেউ আপনাকে এমন কিছু বিক্রি করবে যা এটি দাবি করে, তবে আমি যেমন বলেছি এটি কনফিগার করা এসকিউএলটিতে নিজের লেখার চেয়ে বেশি কাজ হবে কারণ আপনাকে প্রথমে তাদের হকি ডিএসএল শিখতে হবে!
গাইউস

5

যদি আপনার ডাটাবেস ক্ষুদ্র হয়, একটি সাধারণ ডেটা মডেল থাকে এবং বর্তমান ডিবিএ-র স্ক্রিপ্টিং "সম্ভবত" এর উত্তর হতে পারে well তবে, প্রয়োজনীয় ডাটাবেসগুলি ম্যানুয়ালি বিশ্লেষণ এবং মুখোশ দেওয়ার প্রচেষ্টা (এবং ব্যয়) প্রয়োজনের পরিবর্তনের সাথে সাথে কার্যকারিতা যুক্ত হয় এবং বিকাশকারীগণ / ডিবিএ এসে যায় এবং চলে যাওয়ার সাথে সাথে খুব দ্রুত হাত থেকে বেরিয়ে আসতে পারে।

যদিও আমি কোনও ওপেন সোর্স ডেটা মাস্কিং পণ্য সম্পর্কে অবগত নই, এমন কিছু বাণিজ্যিক অফার পাওয়া যায় যা যুক্তিসঙ্গতভাবে বিস্তৃত, তুলনামূলকভাবে সহজ এবং সহজেই ব্যয়বহুল হতে পারে। তাদের মধ্যে অনেকগুলি সংবেদনশীল ডেটা (এসএসএন, ক্রেডিট কার্ড, ফোন নম্বর) সনাক্তকরণ এবং শ্রেণীবদ্ধ করার পাশাপাশি চেকসাম, ইমেল ঠিকানা বিন্যাসকরণ, ডেটা গ্রুপিং ইত্যাদি কার্যকারিতা অন্তর্ভুক্ত করে যাতে মুখোশযুক্ত ডেটা বাস্তব দেখায় এবং অনুভব করে।

তবে আপনাকে এটির জন্য আমার (স্বীকারোচিতভাবে পক্ষপাতদুষ্ট) শব্দটি নিতে হবে না। গার্টনার বা ফরেস্টারের মতো শিল্প বিশ্লেষকদের জিজ্ঞাসা করুন যাদের মাস্কিংয়ের ক্ষেত্রে বেশ কয়েকটি পক্ষপাতহীন প্রতিবেদন পাওয়া যায় যা সাহায্য করতে পারে।

আশা করি এই মন্তব্যগুলি আপনাকে বাণিজ্যিক পণ্যগুলি অন্বেষণের পাশাপাশি অভ্যন্তরীণ স্ক্রিপ্ট বিকাশের বিষয়ে বিবেচনা করতে উত্সাহিত করবে। দিনের শেষে, সর্বাধিক গুরুত্বপূর্ণ বিষয়টি সংবেদনশীল ডেটা রক্ষা করা যা আমাদের মধ্যে অনেকেই দিনের বেলা এবং দিনের বাইরে দেখেন যে আমাদের কাজগুলি করার জন্য আমাদের সত্যই দেখার দরকার নেই - আমাদের এবং সেই ব্যক্তিকে রেখে যা ব্যক্তিগত আমরা ঝুঁকিতে থাকা ডেটা

কেভিন হিলিয়ার, সিনিয়র ইন্টিগ্রেশন বিশেষজ্ঞ, ক্যামফ্লেজ সফ্টওয়্যার ইনক।


1
আমি বুঝতে পেরেছি যে আপনি নিজের পণ্য বিক্রয় হিসাবে আসতে চান না, তবে আপনি যদি বেশ কয়েকটি বাণিজ্যিক পণ্যের নাম রাখতে পারেন বা কোনও নির্দিষ্ট পরামর্শকে নির্দেশ করতে পারেন তবে এটি কার্যকর হবে?
testerab

1
আমি বুঝতে পেরেছি যে আপনি এই সংস্থার হয়ে কাজ করেন এবং আপনি সম্ভবত নিজের পণ্যটি সুপারিশ করতে চান, এবং এর বিপরীতে নন, তবে সিগের কারণে এটি "আমি জানি আমি কী সম্পর্কে কথা বলছি তা জানার পরিবর্তে একটি দুরন্ত ইনলাইন বিজ্ঞাপনের মতো দেখায় looks , কারণ এটি আমি যা করি "... আমি" ব্লাহ ব্লাহ ব্লাহ ব্লাহ "(সম্পূর্ণ প্রকাশ: আমি এই পণ্যটির উপরে কাজ করি) কারণ প্ররোচিত হওয়ার কারণেই আমি আরও বেশি কিছু করি এবং আপনার নামটি শেষে রাখি না। আমরা যদি আপনার ব্যক্তিগত বিবরণ চাই তবে আমরা আপনার অধ্যাপককে ক্লিক করতে এবং সেই সিগটি পড়তে এবং সেখানে লিঙ্কটি ক্লিক করতে পারি।
jcolebrand

5

এ জাতীয় আইটেমটি কখনও দেখেনি, তবে আমার সময়ে কয়েকটি সংবেদনশীল ডেটা সেট নিয়ে কাজ করার পরে, মূল জিনিসটি যা স্ক্র্যাম্ব করা দরকার তা হ'ল লোকের পরিচয় বা ব্যক্তিগতভাবে তথ্য সনাক্তকরণ। এটি কেবল ডাটাবেসের কয়েকটি জায়গায় উপস্থিত হওয়া উচিত

আপনার মাস্কিং অপারেশনের পরিসংখ্যানগত বৈশিষ্ট্য এবং উপাত্ত সম্পর্কিত সম্পর্ক বজায় রাখা উচিত এবং সম্ভবত প্রকৃত রেফারেন্স কোডগুলি ধরে রাখতে হবে (বা কমপক্ষে কিছুটা নিয়ন্ত্রিত অনুবাদ পদ্ধতিতে) যাতে আপনি এটি প্রকৃত ডেটার সাথে পুনর্মিলন করতে পারেন।

ক্ষেত্রগুলির নামগুলির একটি পৃথক তালিকা পেয়ে এবং এটি ফার্স্টনেমএক্সএক্সএক্সএক্সএক্স (যেখানে এক্সএক্সএক্সএক্স একটি ক্রম সংখ্যা, প্রতিটি স্বতন্ত্র মানের জন্য একটি) এর সাথে প্রতিস্থাপনের মাধ্যমে এই ধরণের জিনিসটি অর্জন করা যেতে পারে। ক্রেডিট কার্ড নম্বর এবং অনুরূপ তথ্য যা পরিচয় চুরির জন্য ব্যবহার করা যেতে পারে এটি সম্ভবত কোনও বিকাশের পরিবেশে নন-হবার সম্ভাবনা রয়েছে তবে আপনি কেবলমাত্র সত্যিকারের প্রয়োজন আপনার যদি পেমেন্ট প্রসেসিং সিস্টেমগুলি পরীক্ষা করা হয় - সাধারণত বিক্রেতা আপনাকে বিশেষ কোড দেবে ডামি অ্যাকাউন্টের জন্য।

এই ধরণের নামকরণের পদ্ধতি রচনা করা বিশেষত কঠিন নয় তবে ব্যবসায়ের সাথে বেনামে রাখার জন্য আপনাকে কী ঠিক তা সম্মত করতে হবে। প্রয়োজনে ক্ষেত্রের মাধ্যমে ডাটাবেস ক্ষেত্রের মধ্য দিয়ে যান। হ্যাঁ / না জিজ্ঞাসা করা আপনাকে মিথ্যা ইতিবাচক দিক দেয় যা আপনি চান না। ব্যবসায়িক প্রতিনিধিকে কেন, বা নির্দিষ্ট ডেটা বেনামে না রাখার পরিণতি বা নিয়ন্ত্রক প্রভাবের বিষয়টি ব্যাখ্যা করতে জিজ্ঞাসা করুন।


3

আমি কয়েক সপ্তাহ আগে একই কাজ ছিল। আমরা কয়েকটি সফ্টওয়্যার সিস্টেম মূল্যায়ন করেছি, তবে তাদের বেশিরভাগ কেবলমাত্র এক ধরণের ডেটা বেসের জন্য, যেমন ওরাকল এবং তারা প্রায়শই ব্যবহার করা খুব জটিল হয় ... সুতরাং এটি মূল্যায়নের জন্য আহহহ না। আমাদের কয়েক সপ্তাহ লেগেছিল।

আমরা ডেটা মাস্কিং স্যুট পেশাদার সংস্করণটি কেনার সিদ্ধান্ত নিয়েছি কারণ এটি আপনার পক্ষে সবচেয়ে সহজ ছিল। এটিতে ডেটা মাস্ক করার দুর্দান্ত সম্ভাবনাও রয়েছে, যেমন আপনি ইমেল ঠিকানাগুলি বাস্তব চেহারাযুক্তগুলিতে পরিবর্তন করতে পারেন যেমন ... @ সিমেনস ডট কমকে মাইক.মিলার @ সিমসেন ডটকম এ পরিণত করতে পারেন।

আমার যতদূর মনে আছে আপনি প্রায় 500 (?) রেকর্ডের জন্য এটি নিখরচায় চেষ্টা করতে পারেন।

এখানে লিঙ্কটি http://www.data-masking-tool.com/


1
কেবলমাত্র একটি ডেটা পয়েন্ট: এই লেখাটি হিসাবে, ডেটা মাস্কিং সরঞ্জামটি $ 1000 এর লজ্জাজনকভাবে চলে।
মাইকেল টেপার 21'13

2

আমার এটি করার পদ্ধতি:

  1. শুধুমাত্র দেখতে এবং ব্যবহারকারীদের জন্য অধিকার নির্বাচন করে একটি নতুন ডাটাবেস তৈরি করুন
  2. টেবিলগুলিতে এমন দৃষ্টিভঙ্গি তৈরি করুন যা অন্য ডেটাবেজে দেখা যায়
  3. মাস্ক কলামগুলি যেগুলি দিয়ে মাস্কিং দরকার: পুনরাবৃত্তি ('*', চর_সৌদ্ধিকতা ( column to be masked))

2

আমি প্রথম কয়েক বছর আগে এই পথটি লিখেছিলাম এবং তখন থেকে এই অনুশীলনের চারপাশে একটি পরামর্শ তৈরি করেছি।

আমি ধরে নিচ্ছি যে উদ্দেশ্যটি টেস্ট পরিবেশে ব্যবহারের জন্য পরীক্ষার ডেটা তৈরি করা যেখানে ডেটা অ্যাক্সেস করা ব্যক্তিদের উত্পাদন তথ্য দেখার অধিকার নেই।

প্রথমটি হ'ল যেটি আপনাকে মাস্ক করার জন্য ঠিক কী উপাদান উপাদানগুলি প্রয়োজন এবং তা করতে স্কাইমা স্পাই (মুক্ত উত্স) এর মতো কোনও ডেটা আবিষ্কারের সরঞ্জাম দিয়ে শুরু করা ভাল এবং এই কাজের জন্য আপনার প্রাসঙ্গিক জেডিবিসি ড্রাইভারের প্রয়োজন হবে তবে এটি প্রক্রিয়া একটি খুব দরকারী পদক্ষেপ।

ETL এর কয়েকটি ফাংশন সম্পাদন করতে সাম্প্রতিক বছরগুলিতে টেল্যান্ড ওপেন স্টুডিও অন্যতম সেরা সরঞ্জাম আমি ব্যবহার করেছি এবং আপনি এলোমেলো বা এর সাথে মানগুলি প্রতিস্থাপন করে কিছু বেসিক মাস্কিং অনুশীলনও করতে সক্ষম হবেন। সন্ধান করুন / প্রতিস্থাপন করুন - মানচিত্রের উপাদানটি ব্যবহার করে ধারাবাহিকতা বজায় রাখতে।

তবে আপনি যদি সত্যিকারের ডেটা মাস্কিং সরঞ্জামের সন্ধান করেন তবে আমি একটি উপযুক্ত ওপেন সোর্স সরঞ্জামটি পাই নি। আপনার যদি সরঞ্জামগুলির জন্য খুব পরিমিত বাজেট থাকে তবে আমি ডেটা মাস্কারের পরামর্শ দেব তবে আপনাকে এমএস এসকিউএল বা ওরাকল এর মাধ্যমে কিছু আমদানি ও রফতানি করতে হবে কারণ এটি কেবলমাত্র সেই প্রোটোকলের মাধ্যমে সংযুক্ত রয়েছে।

ডেটা মাস্কিং, ডেটা মাস্কিং পদ্ধতি, ডেটা আবিষ্কার এবং পরীক্ষার ডেটা সম্পর্কে তথ্যের জন্য http://www.datakocolate.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset দেখুন ব্যবস্থাপনা। Http://www.dataobfuscation.com.au এ একটি দরকারী ব্লগও রয়েছে


1

ইনফরম্যাটিকা থেকে বাজারে একটি সরঞ্জাম পাওয়া যায় যা ইনফরম্যাটিকা আইএলএম (টিডিএম) বলে। এটি ETL এর ব্যাকোন হিসাবে পাওয়ারসেন্টার এবং বিভিন্ন মাস্কিং বিকল্পের সাহায্যে মাস্ক ডেটা ব্যবহার করে। তবুও আপনার কোনও ডেটা বিশ্লেষক বা এসএমই দরকার যারা বুঝতে পারেন যে কীভাবে ডেটাটি মাস্ক করা উচিত। সরঞ্জাম নিজেই কোন ক্ষেত্রগুলি মাস্ক করা উচিত তথ্য সরবরাহ করে না, তবে সংবেদনশীল ডেটা ক্ষেত্র যেমন নাম, আইডি কলাম, নম্বর, ক্রেডিট কার্ড, এসএসএন নম্বর, অ্যাকাউন্ট নম্বর ইত্যাদি সনাক্ত করার জন্য একটি অভ্যন্তরীণ অ্যালগরিদম বা পদ্ধতি বা প্রক্রিয়া রয়েছে provide


এছাড়াও, ইনফরম্যাটিকা আইএলএম টিডিএম ডেটা সাবসেটিং তৈরি করতে দেয়। সুতরাং আপনি ডেটাটি সাবসেট করতে পারেন এবং এটি মাস্ক করতে পারেন বা সমস্ত ডেটা মাস্ক করতে পারেন তবে ব্যবসায়ের প্রয়োজন অনুযায়ী এটি সাবসেট করতে পারেন।
অবোধেশ যোনা

1

এই বছর আমার কাছে আইবিএম অপ্টিমের সাথে কাজ করার সুযোগ রয়েছে যা দাবি করা হয় তা করার দাবি করে। বিনামূল্যে নয়, তবে এটি কাজ করে it


1

আমি যেটিকে সবচেয়ে বেশি পছন্দ করি তা হ'ল আইআরআই ফিল্ডশিল্ড ( https://www.iri.com/products/fieldshield ) বহুমুখীতার দিক থেকে (বেশিরভাগ ডেটা মাস্কিং ফাংশন), গতি (অভ্যন্তরীণ ডেটা মুভমেন্টের জন্য CoSort ইঞ্জিন), এবং এরগনোমিক্স (সাধারণ 4 জিএল জবস) টন ডিবি এবং ফাইল সংযোগের সাথে এর Elpipse GUI তে সমর্থিত)। দাম অনুসারে এটি প্রায় অর্ধেক আইবিএম এবং ইনফরম্যাটিকা, যদিও 'বিগ' ডেটা ট্রান্সফর্মেশন, মাইগ্রেশন এবং বিআইয়ের জন্য আরও বড় ডেটা ইন্টিগ্রেশন স্যুইটে পাওয়া যায়। সুতরাং এটি নিখরচায় নয়, তবে কিছু ওপেন সোর্স (আইডিই এবং ওপেনএসএসএল এবং জিপিজি ব্যবহার করতে পারে) এবং উইন্ডোজ, লিনাক্স এবং অন্যান্য ইউনিক্স স্বাদে স্ক্রিপ্টগুলি চালিত হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.