ডাইকোটমাইজিং ভেরিয়েবলের প্রভাব কী?

যখন ভেরিয়েবলগুলি ডিচোটোমাইজিং করা হয়, তখন প্রক্রিয়াটিতে কোন তথ্যটি হারিয়ে যায়?
বিশ্লেষণে ডিকোটোমাইজেশন কীভাবে সহায়তা করে?

regression data-transformation binary-data

গেলম্যান এবং পার্কের একটি নিবন্ধ রয়েছে যা দুটির বিপরীতে একটি চলমান পরিবর্তনশীল থেকে তিনটি বিভাগ তৈরি করার অনুশীলনের সাথে তুলনা করে। সাধারণত নীচের অন্যদের দ্বারা ব্যাখ্যা করা কারণগুলির জন্য পরিবর্তনশীল অবিচ্ছিন্ন ছেড়ে রাখা ভাল।

— মাইকেল বিশপ 21

উত্তর:

কী তথ্য হারিয়ে গেছে: এটি ভেরিয়েবলের উপর নির্ভর করে। সাধারণত, ডিকোটমাইজিংয়ের মাধ্যমে, আপনি দৃ as়ভাবে বলছেন যে একটি ভেরিয়েবল এবং অন্যটির মধ্যে একটি সরল রেখা রয়েছে। উদাহরণস্বরূপ, ক্যান্সার সম্পর্কিত একটি গবেষণায় একটি দূষণকারী সংক্রমণের একটানা পরিমাপ বিবেচনা করুন। যদি আপনি এটিকে "উচ্চ" এবং "নিম্ন" তে দ্বিধাইকরণ করেন তবে আপনি দৃ .়ভাবে দাবি করেন যে এগুলি কেবলমাত্র দুটি মানই গুরুত্বপূর্ণ। উচ্চ ক্যান্সারে আক্রান্ত হওয়ার ঝুঁকি রয়েছে, এবং এটি কম রয়েছে। তবে কী যদি ঝুঁকিটি অল্প সময়ের জন্য অবিচ্ছিন্নভাবে বেড়ে যায়, তারপরে ফ্ল্যাটস্ফুট হয়ে যায়, অবশেষে উচ্চ মানগুলিতে স্পাইক করার আগে আবার বেড়ে যায়? সব হারিয়ে গেছে।

আপনি যা লাভ করেন: এটি আরও সহজ। দ্বিধাত্বক ভেরিয়েবলগুলি পরিসংখ্যানগতভাবে মোকাবেলা করা প্রায়শই সহজ। এটি করার কারণ রয়েছে - যদি অবিচ্ছিন্ন পরিবর্তনশীল যাইহোক দুটি স্পষ্ট গ্রুপিংয়ের মধ্যে পড়ে তবে আমি প্রথমে ভেরিয়েবলের প্রাকৃতিক রূপ না এলে দ্বিচোটাইমাইজিং এড়ানোর ঝোঁক রাখি। আপনার ক্ষেত্রটি যে কোনওভাবে ভেরিয়েবলের ডাইচোটমাইজড ফর্ম রাখার জন্য জিনিসগুলি দ্বিধায়িতকরণ করা হয় তবে এটি প্রায়শই দরকারী । উদাহরণস্বরূপ, অনেকেই সিডি 4 কোষের গণনা 400 এরও কম সংখ্যক এইচআইভির জন্য সমালোচনামূলক প্রান্তিক হিসাবে বিবেচনা করে। যেমন, আমি প্রায়শই উপরে / 400 এর নীচে 0/1 ভেরিয়েবল রাখব, যদিও আমি পাশাপাশি ধারাবাহিক সিডি 4 গণনা ভেরিয়েবলটিও বজায় রাখতে পারি। এটি অন্যদের সাথে আপনার অধ্যয়নের সূত্রপাত করতে সহায়তা করে।

আমি পিটারের সাথে কিছুটা দ্বিমত পোষণ করব। ক্রমাগত পরিবর্তনশীলগুলিকে বিভাগগুলিতে বিভক্ত করা প্রায়শই ক্রুড ডিকোটোমাইজেশনের চেয়ে অনেক বেশি বোধগম্য, আমি বরং কোয়ান্টাইল শ্রেণিবিন্যাসের বিরোধী। এই জাতীয় শ্রেণীবদ্ধকরণগুলি অর্থপূর্ণ ব্যাখ্যা দেওয়া খুব কঠিন। আমি মনে করি যে আপনার প্রথম পদক্ষেপটি জৈবিক বা চিকিত্সাগতভাবে সমর্থিত কোনও শ্রেণিবদ্ধকরণ ব্যবহার করতে পারে কিনা তা দেখতে হবে এবং কেবলমাত্র কোয়ান্টাইলগুলি ব্যবহার করার পরে এই বিকল্পগুলি শেষ হয়ে গেলে।

— Fomite
সূত্র

হাই @ পেগ্রাদ। আমি মনে করি কোয়ান্টাইল রিগ্রেশনটির মোটামুটি সহজ ব্যাখ্যা রয়েছে; এটি "ওষুধ" এর জন্য "এক্সএক্সএক্স পার্সেন্টাইল" বিকল্প ব্যতীত নিয়মিত ওএলএস প্রতিরোধের মতোই similar

— পিটার ফ্লুম - মনিকা পুনরায়

@ পিটারফ্লম দুঃখিত, আমার আরও পরিষ্কার হওয়া উচিত ছিল। ক্লিনিকাল / জৈবিক প্রমাণ থেকে নির্মিত বিভাগগুলির সাথে তুলনা করার সময় আমি তাদেরকে চিকিত্সা / জৈবিকভাবে সম্পর্কিত প্রাসঙ্গিক ব্যাখ্যা হিসাবে রচনা করা কঠিন বলে মনে করি। এটি স্বীকৃতভাবে আমার পক্ষে ক্ষেত্র-ভিত্তিক পক্ষপাতিত্ব।

— ফোমাইট

ওহ, ঠিক আছে, @ পেগ্রাড, এটি উপলব্ধি করে। এবং এই কেসটি অন্তর্ভুক্ত করার জন্য আমি আমার উত্তর সম্পাদনা করব।

— পিটার ফ্লুম - মনিকা পুনরায়

দেখে মনে হচ্ছে এপিগ্রাড এবং @ পিটারফ্লোম "কোয়ান্টাইল রিগ্রেশন" কে আলাদাভাবে ব্যাখ্যা করেছেন। এপিগ্রাড এক্স ভেরিয়েবলকে কোয়ান্টাইল দ্বারা সংজ্ঞায়িত গ্রুপগুলিতে বিভক্ত করার বিষয়ে কথা বলেছেন, অন্যদিকে পিটার ফ্লুম মডেলিংয়ের বিষয়ে কথা বলছেন, বলুন, প্রতিক্রিয়ার গড়ের পরিবর্তে 90 তম কোয়ান্টাইল।

— অনিকো

@ আনিকো এটিও সম্ভব হতে পারে। আমি ধরে নিয়েছিলাম (সম্ভবত ভুলভাবে) যে পিটারের অর্থ ডেটাগুলি কোয়ান্টাইলগুলিতে শ্রেণিবদ্ধ করা এবং এটি একটি রিগ্রেশন মডেলে ব্যবহার করা। আমার ক্ষেত্রে একটি সাধারণ (এবং বিরক্তিকর) প্রবণতা। এটি ক্ষেত্রে নাও হতে পারে।

— ফোমাইট

দ্বিখোটাইমাইজেশন ডেটা বিশ্লেষণে যাদুকরী চিন্তাভাবনা যুক্ত করে। এটি খুব কমই একটি ভাল ধারণা।

রয়স্টন, অল্টম্যান এবং সৌরব্রির একটি নিবন্ধটি কেন এটি খারাপ ধারণা বলে কিছু কারণ রয়েছে।

আমার নিজের মতামত: আপনি যদি নির্ভরশীল পরিবর্তনশীলটিকে দ্বিগুণ করে তোলেন, বলুন, জন্মের ওজন ২.৫ কেজি (এটি সর্বদা করা হয়) তবে আপনি ২.৯৯ কেজি জন্মগ্রহণকারী বাচ্চাদের ঠিক ১.৫ কেজি জন্মগ্রহণকারী বাচ্চার সাথে চিকিত্সা করছেন এবং ২.২১ এ জন্মগ্রহণকারী শিশুদের কেজি ঠিক তাদের মতো 3.5 কেজি। এটা কোন মানে নেই।

একটি ভাল বিকল্প প্রায়শই কোয়ান্টাইল রিগ্রেশন হয়। আমি সম্প্রতি এনইএসইউজি-র জন্য এটি সম্পর্কে লিখেছিলাম। এই কাগজ এখানে

উপরেরগুলির একটি ব্যতিক্রম হ'ল যখন বিভাগগুলি যথেষ্ট উত্সাহিত হয়; উদাহরণস্বরূপ, আপনি যদি ড্রাইভিং আচরণের সাথে কাজ করছেন তবে ড্রাইভিংয়ের আইনি বয়সের উপর ভিত্তি করে শ্রেণিবদ্ধ করা বুদ্ধিমানের কাজ হবে।

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

সুন্দর করে বললেন পিটার। বিশ্লেষণে ডিকোটোমাইজেশন একটি ভাল ধারণা এমন পরিস্থিতি আমি কল্পনা করতে পারি না।

— ফ্র্যাঙ্ক হ্যারেল

আমি @ এপিগ্রাড এবং @ পিটারের উত্তর উভয়ই পছন্দ এবং সমর্থন করেছি। আমি কেবল যুক্ত করতে চেয়েছিলাম, এটি, বাইনারি একের মধ্যে বিরতি পরিবর্তনশীল বাইনিং করে (সম্ভাব্য) মেট্রিকাল ভেরিয়েবল কেবলমাত্র একটির। বাইনারি ভেরিয়েবলের সাথে গড় বা বৈকল্পিক গণনা করা অনুচিত (এবং কিছু লোক এটি সত্ত্বেও), এবং যেমনটি আমি অন্য কোথাও উল্লেখ করেছি , কিছু বহুবিশ্লেষ বিশ্লেষণ তাত্ত্বিক বা যৌক্তিকভাবে প্রয়োগযোগ্য নয়। উদাহরণস্বরূপ, আমি মনে করি বাইনারি ভেরিয়েবলগুলির সাথে সেন্ট্রয়েড / ওয়ার্ড শ্রেণিবদ্ধ ক্লাস্টারিং বা ফ্যাক্টর বিশ্লেষণ ব্যবহার করা সঠিক নয়।

তদন্তের ক্লায়েন্টরা প্রায়শই আমাদের আউটপুটে পরিবর্তনশীলগুলি দ্বিধায়িত করতে বাধ্য করে কারণ একটি ধারাবাহিক বৈশিষ্ট্যের চেয়ে কয়েকটি শ্রেণির বিবেচনা করা চিন্তা করা সহজ, তথ্য কম কুয়াশাচ্ছন্ন এবং (মিথ্যাভাবে) আরও বিশাল বলে মনে হয়।

তবে, ডিকোটোমাইজেশনকে সতর্ক করতে পারে এমন ক্ষেত্রেও রয়েছে। উদাহরণস্বরূপ যেখানে শক্তিশালী দ্বিগুণ হয় বা যখন বিশ্লেষণ (যেমন এমএএমবিএসি বা অন্যান্য) 2 সুপ্ত শ্রেণীর উপস্থিতি দেখায়।

— ttnphns
সূত্র

আপনার যুক্তি বুঝতে আমার খুব কষ্ট হচ্ছে। এবং যদি কোনও ক্লায়েন্ট আমাদের খারাপ পরিসংখ্যান চর্চায় জড়িত করতে চায় তবে আমাদের দুবার ভাবা উচিত। দ্রষ্টব্য: ট্রাইকোটমাইজ কোনও শব্দ নয়। ডিচোটোমাইজেশন = ডিচো (দুই) + উত্তম (কাটা), সুতরাং এটি ব্যবহৃত হলে এটি ট্রাইটমাইজ / ট্রাইটোমাইজ হবে।

— ফ্র্যাঙ্ক হ্যারেল 21

ক্লায়েন্টের উপর যাত্রা হ'ল একটি বিলাপ, তর্ক নয়। গ্রীক হিসাবে, আপনি ঠিক বলেছেন; কথাটা সরিয়ে দিয়েছি।

— ttnphns

ধন্যবাদ। আমি ক্লায়েন্টের সাথে একটি নিবিড় শিক্ষা প্রক্রিয়া সত্ত্বেও, যতটা সম্ভব মানবিকভাবে সম্ভব পরিসংখ্যানমূলক বিলাপগুলিকে সংশোধনমূলক পদক্ষেপে অনুবাদ করার চেষ্টা করি।

— ফ্রাঙ্ক হ্যারেল