- যখন ভেরিয়েবলগুলি ডিচোটোমাইজিং করা হয়, তখন প্রক্রিয়াটিতে কোন তথ্যটি হারিয়ে যায়?
- বিশ্লেষণে ডিকোটোমাইজেশন কীভাবে সহায়তা করে?
উত্তর:
কী তথ্য হারিয়ে গেছে: এটি ভেরিয়েবলের উপর নির্ভর করে। সাধারণত, ডিকোটমাইজিংয়ের মাধ্যমে, আপনি দৃ as়ভাবে বলছেন যে একটি ভেরিয়েবল এবং অন্যটির মধ্যে একটি সরল রেখা রয়েছে। উদাহরণস্বরূপ, ক্যান্সার সম্পর্কিত একটি গবেষণায় একটি দূষণকারী সংক্রমণের একটানা পরিমাপ বিবেচনা করুন। যদি আপনি এটিকে "উচ্চ" এবং "নিম্ন" তে দ্বিধাইকরণ করেন তবে আপনি দৃ .়ভাবে দাবি করেন যে এগুলি কেবলমাত্র দুটি মানই গুরুত্বপূর্ণ। উচ্চ ক্যান্সারে আক্রান্ত হওয়ার ঝুঁকি রয়েছে, এবং এটি কম রয়েছে। তবে কী যদি ঝুঁকিটি অল্প সময়ের জন্য অবিচ্ছিন্নভাবে বেড়ে যায়, তারপরে ফ্ল্যাটস্ফুট হয়ে যায়, অবশেষে উচ্চ মানগুলিতে স্পাইক করার আগে আবার বেড়ে যায়? সব হারিয়ে গেছে।
আপনি যা লাভ করেন: এটি আরও সহজ। দ্বিধাত্বক ভেরিয়েবলগুলি পরিসংখ্যানগতভাবে মোকাবেলা করা প্রায়শই সহজ। এটি করার কারণ রয়েছে - যদি অবিচ্ছিন্ন পরিবর্তনশীল যাইহোক দুটি স্পষ্ট গ্রুপিংয়ের মধ্যে পড়ে তবে আমি প্রথমে ভেরিয়েবলের প্রাকৃতিক রূপ না এলে দ্বিচোটাইমাইজিং এড়ানোর ঝোঁক রাখি। আপনার ক্ষেত্রটি যে কোনওভাবে ভেরিয়েবলের ডাইচোটমাইজড ফর্ম রাখার জন্য জিনিসগুলি দ্বিধায়িতকরণ করা হয় তবে এটি প্রায়শই দরকারী । উদাহরণস্বরূপ, অনেকেই সিডি 4 কোষের গণনা 400 এরও কম সংখ্যক এইচআইভির জন্য সমালোচনামূলক প্রান্তিক হিসাবে বিবেচনা করে। যেমন, আমি প্রায়শই উপরে / 400 এর নীচে 0/1 ভেরিয়েবল রাখব, যদিও আমি পাশাপাশি ধারাবাহিক সিডি 4 গণনা ভেরিয়েবলটিও বজায় রাখতে পারি। এটি অন্যদের সাথে আপনার অধ্যয়নের সূত্রপাত করতে সহায়তা করে।
আমি পিটারের সাথে কিছুটা দ্বিমত পোষণ করব। ক্রমাগত পরিবর্তনশীলগুলিকে বিভাগগুলিতে বিভক্ত করা প্রায়শই ক্রুড ডিকোটোমাইজেশনের চেয়ে অনেক বেশি বোধগম্য, আমি বরং কোয়ান্টাইল শ্রেণিবিন্যাসের বিরোধী। এই জাতীয় শ্রেণীবদ্ধকরণগুলি অর্থপূর্ণ ব্যাখ্যা দেওয়া খুব কঠিন। আমি মনে করি যে আপনার প্রথম পদক্ষেপটি জৈবিক বা চিকিত্সাগতভাবে সমর্থিত কোনও শ্রেণিবদ্ধকরণ ব্যবহার করতে পারে কিনা তা দেখতে হবে এবং কেবলমাত্র কোয়ান্টাইলগুলি ব্যবহার করার পরে এই বিকল্পগুলি শেষ হয়ে গেলে।
দ্বিখোটাইমাইজেশন ডেটা বিশ্লেষণে যাদুকরী চিন্তাভাবনা যুক্ত করে। এটি খুব কমই একটি ভাল ধারণা।
রয়স্টন, অল্টম্যান এবং সৌরব্রির একটি নিবন্ধটি কেন এটি খারাপ ধারণা বলে কিছু কারণ রয়েছে।
আমার নিজের মতামত: আপনি যদি নির্ভরশীল পরিবর্তনশীলটিকে দ্বিগুণ করে তোলেন, বলুন, জন্মের ওজন ২.৫ কেজি (এটি সর্বদা করা হয়) তবে আপনি ২.৯৯ কেজি জন্মগ্রহণকারী বাচ্চাদের ঠিক ১.৫ কেজি জন্মগ্রহণকারী বাচ্চার সাথে চিকিত্সা করছেন এবং ২.২১ এ জন্মগ্রহণকারী শিশুদের কেজি ঠিক তাদের মতো 3.5 কেজি। এটা কোন মানে নেই।
একটি ভাল বিকল্প প্রায়শই কোয়ান্টাইল রিগ্রেশন হয়। আমি সম্প্রতি এনইএসইউজি-র জন্য এটি সম্পর্কে লিখেছিলাম। এই কাগজ এখানে
উপরেরগুলির একটি ব্যতিক্রম হ'ল যখন বিভাগগুলি যথেষ্ট উত্সাহিত হয়; উদাহরণস্বরূপ, আপনি যদি ড্রাইভিং আচরণের সাথে কাজ করছেন তবে ড্রাইভিংয়ের আইনি বয়সের উপর ভিত্তি করে শ্রেণিবদ্ধ করা বুদ্ধিমানের কাজ হবে।
আমি @ এপিগ্রাড এবং @ পিটারের উত্তর উভয়ই পছন্দ এবং সমর্থন করেছি। আমি কেবল যুক্ত করতে চেয়েছিলাম, এটি, বাইনারি একের মধ্যে বিরতি পরিবর্তনশীল বাইনিং করে (সম্ভাব্য) মেট্রিকাল ভেরিয়েবল কেবলমাত্র একটির। বাইনারি ভেরিয়েবলের সাথে গড় বা বৈকল্পিক গণনা করা অনুচিত (এবং কিছু লোক এটি সত্ত্বেও), এবং যেমনটি আমি অন্য কোথাও উল্লেখ করেছি , কিছু বহুবিশ্লেষ বিশ্লেষণ তাত্ত্বিক বা যৌক্তিকভাবে প্রয়োগযোগ্য নয়। উদাহরণস্বরূপ, আমি মনে করি বাইনারি ভেরিয়েবলগুলির সাথে সেন্ট্রয়েড / ওয়ার্ড শ্রেণিবদ্ধ ক্লাস্টারিং বা ফ্যাক্টর বিশ্লেষণ ব্যবহার করা সঠিক নয়।
তদন্তের ক্লায়েন্টরা প্রায়শই আমাদের আউটপুটে পরিবর্তনশীলগুলি দ্বিধায়িত করতে বাধ্য করে কারণ একটি ধারাবাহিক বৈশিষ্ট্যের চেয়ে কয়েকটি শ্রেণির বিবেচনা করা চিন্তা করা সহজ, তথ্য কম কুয়াশাচ্ছন্ন এবং (মিথ্যাভাবে) আরও বিশাল বলে মনে হয়।
তবে, ডিকোটোমাইজেশনকে সতর্ক করতে পারে এমন ক্ষেত্রেও রয়েছে। উদাহরণস্বরূপ যেখানে শক্তিশালী দ্বিগুণ হয় বা যখন বিশ্লেষণ (যেমন এমএএমবিএসি বা অন্যান্য) 2 সুপ্ত শ্রেণীর উপস্থিতি দেখায়।