সেন্সরিং এবং কাটছাঁটির মধ্যে পার্থক্য কী?


30

বইয়ে পরিসংখ্যানগত মডেল এবং লাইফটাইম ডেটা জন্য পদ্ধতি , শাস্ত্রে লেখা আছে:

সেন্সরিং: যখন কোনও এলোমেলো কারণে কোনও পর্যবেক্ষণ অসম্পূর্ণ থাকে।
কাটা: পর্যবেক্ষণের অসম্পূর্ণ প্রকৃতি যখন অধ্যয়ন নকশার অন্তর্নিহিত একটি পদ্ধতিগত নির্বাচন প্রক্রিয়াটির কারণে হয়।

কেটে যাওয়ার সংজ্ঞাতে "অধ্যয়ন নকশার অন্তর্নিহিত পদ্ধতিগত নির্বাচন প্রক্রিয়া" বলতে কী বোঝায়?

সেন্সরিং এবং কাটছাঁটির মধ্যে পার্থক্য কী?



3
সেন্সরিং: "আমাদের সেই অঞ্চলে কোথাও একটি পর্যবেক্ষণ হয়েছে তবে এটি কী তা আমরা জানি না"। কাটা: "পর্যবেক্ষণ? কি পর্যবেক্ষণ?"
গ্লেন_বি -রিনস্টেট মনিকা

আপনার সংজ্ঞা কোথা থেকে উদ্ধৃত হয়?
গ্লেন_বি

1
@ Glen_b আমি আমার প্রশ্ন সম্পাদনা করেছি
এবিসি

উত্তর:


57

সংজ্ঞাগুলি পৃথক হয় এবং দুটি পদ কখনও কখনও আন্তঃচঞ্চলভাবে ব্যবহৃত হয়। আমি নিম্নলিখিত ডেটা সেটটি ব্যবহার করে সর্বাধিক সাধারণ ব্যবহারগুলি ব্যাখ্যা করার চেষ্টা করব:

11.25245

সেন্সরিং : কিছু পর্যবেক্ষণগুলি সেন্সর করা হবে, যার অর্থ আমরা কেবল জানি যে তারা কিছু নীচে (বা উপরে)। উদাহরণস্বরূপ, যদি আমরা কোনও জলের নমুনায় রাসায়নিকের ঘনত্ব পরিমাপ করি তবে এটি ঘটতে পারে। যদি ঘনত্ব খুব কম হয় তবে পরীক্ষাগার সরঞ্জামগুলি রাসায়নিকের উপস্থিতি সনাক্ত করতে পারে না। এটি এখনও উপস্থিত থাকতে পারে, সুতরাং আমরা কেবল জানি যে ঘনত্ব পরীক্ষাগারের সনাক্তকরণের সীমা ছাড়িয়েছে।

যদি সনাক্তকরণের সীমাটি 1.5 হয়, যাতে এই সীমাটির নীচে নেমে আসা পর্যবেক্ষণগুলি সেন্সর করা হয়, তবে আমাদের উদাহরণস্বরূপ ডেটা সেটটি হয়ে উঠবে: যা আমরা জানি না প্রথম দুটি পর্যবেক্ষণের প্রকৃত মান তবে এটি কেবল 1.5 এর চেয়ে কম smaller

<1.5<1.5245,

ছাঁটাই : তথ্য উত্পন্ন করার প্রক্রিয়াটি এমন যে কেবল কাটা সীমা ছাড়িয়ে উপরে (বা নীচে) ফলাফলগুলি পর্যবেক্ষণ করা সম্ভব। উদাহরণস্বরূপ এটি ঘটতে পারে যদি সনাক্তকারী ব্যবহার করে পরিমাপ নেওয়া হয় যা কেবল তখনই সক্রিয় হয় যদি এটি সনাক্ত করা সংকেতগুলি নির্দিষ্ট সীমা ছাড়িয়ে যায়। প্রচুর দুর্বল আগত সংকেত থাকতে পারে তবে আমরা এই ডিটেক্টরটি ব্যবহার করে কখনই বলতে পারি না।

যদি ছাঁটাইয়ের সীমা 1.5 হয়, আমাদের উদাহরণস্বরূপ ডেটা সেটটি এবং আমরা জানি না যে বাস্তবে দুটি সংকেত ছিল যা রেকর্ড করা হয়নি।

245

সুতরাং, পদগুলির এই ব্যবহারের ক্ষেত্রে, "সেন্সরড" বিভ্রান্ত করছে যদি আমরা শব্দটির প্রযুক্তিগত ব্যবহারের শব্দটি বিবেচনা করি? অর্থাত্ এই পরিসংখ্যানগত অর্থে, এর অর্থ "অস্পষ্ট" বা "কেবল কিছু সীমার মধ্যে পড়ার জন্য পরিচিত" এর চেয়ে কিছু নয়, বরং প্রযুক্তিগত অর্থে যেমন - দমন বা মুছে ফেলা হয়, যখন কোনও বই স্টোর থেকে সরানো হয় কারণ এর বিষয়বস্তু।
মঙ্গলবার

3
সংক্ষিপ্তকরণের একটি দৃ concrete় উদাহরণের জন্য, গাড়ী বীমা সংস্থাগুলি কখনই দুর্ঘটনার কথা শুনতে পায় না যেখানে ক্ষয়ক্ষতির চেয়ে ক্ষয় কম, কারণ লোকেরা সেখানে রিপোর্ট করে না। এটি বাকী কাটা; আমরা কখনই এই ঘটনাগুলির ডেটা দেখি না। ডান সেন্সর করার উদাহরণ হিসাবে, যখন কোনও অসুস্থ রোগী তাদের চিকিত্সকের দেখা বন্ধ করতে বা অন্য কোনও শহরে চলে যাওয়ার সিদ্ধান্ত নেন, তখন যা জানা যায় তা হ'ল তারা চলে যাওয়ার দিন জীবিত ছিলেন, কিন্তু আমরা জানি না তারা কখন মারা গেল ।
ডেভিড হোয়াইট

@ মার্স: আমি সম্মত হই যে এটি আধুনিক অ-প্রযুক্তিগত ব্যবহার থেকে পিছনের দিকে শোনা যাচ্ছে যেখানে "সেন্সরিং" সমস্ত চিহ্ন সরিয়ে ফেলছে, এবং "ছাঁটাই" বিশদ সরিয়ে দিচ্ছে। তবে পরিসংখ্যানগুলিতে "সেন্সরিং" আরও পুরানো কালের প্রযুক্তিগত অর্থে ব্যবহৃত হয় যেখানে কোনও সেন্সর কোনওরকম কোনও চিহ্ন সরিয়ে ফেলতে পারত না: কোনও ছবি বা ভিডিওর আক্রমণাত্মক অংশগুলিতে কালো বাক্স বা ব্লারস রেখেছিল, ব্লিপস যা অবজ্ঞার coverাকনা দেয় রেডিওতে, বা সৈনিকদের বাড়িতে চিঠিপত্র বা শ্রেণিবদ্ধ নথি প্রকাশিত যেখানে সেন্সর করা (আরও আধুনিক শব্দ "redacted") অংশগুলি কালো হয়ে গেছে।
ওয়েইন

কল্পনা করুন আমি দুটি ধরণের ইভেন্ট ইভেন্টের মধ্যে সময় বিভক্তিকে পরিমাপ করি। তবে আমি কেবল 1 বছরের ইভেন্ট রেকর্ড করতে পারি। সময় কি সেন্সর করা হবে বা কেটে যাবে?
স্ক্যান

4

অন্য ক্ষেত্রের (প্রোগ্রামিং) দৃষ্টিভঙ্গি হিসাবে সেন্সরিং এবং কাটা কাটা দুটি স্বতন্ত্র অপারেশন।

সংবেদনশীল ডেটাসেটের সাথে কাজ করার সময়, উদাহরণস্বরূপ সামাজিক সুরক্ষা নম্বর এবং টেলিফোন নম্বরগুলি, আমি এটিকে সেন্সর করতে পারি বা অ্যাক্সেস দেওয়ার আগে সেন্সর করে দিতে পারি:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

এটি অনুরূপ ডেটা স্ট্রাকচারের সাথে, তবে আসল তথ্যমূলক সামগ্রী বা ব্যক্তিগত তথ্য ছড়িয়ে না দেওয়ার সাথে বাকী অ্যাপ্লিকেশনটিকে স্বাভাবিকভাবে যেমন পরিচালনা করতে দেয় তেমন কাজ করে।

বিপরীতে, কাটা কাটা সাধারণত একটি নির্দিষ্ট বিন্দু পরে অবশিষ্ট মান কেটে ফেলা হয়। একটি অ্যাপ্লিকেশনটিতে কাজ করার জন্য, আমার কয়েক হাজার রেকর্ডের প্রয়োজন নেই, সম্ভবত আমার কেবল প্রতিটির জন্য 50 ডলার দরকার যা ডেটাটিকে আরও দ্রুত অ্যাক্সেস করে এবং ডেটা আরও ছোট করে দেয়।

ট্রান্সকেশনের অনুরূপ বৈকল্পিক হ'ল সীমাবদ্ধ দৈর্ঘ্য বা নির্ভুলতার কলাম বা ডাটাটাইপতে কোনও মান সন্নিবেশ করার সময়:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

1
+1 এটি জেনে রাখা গুরুত্বপূর্ণ যে সেন্সরিং এবং কাটছাঁটির পরিসংখ্যানের বাইরে সম্পূর্ণ আলাদা অর্থ হতে পারে!
MånsT
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.