ধারাবাহিক ডেটা থেকে শ্রেণীবদ্ধে যাওয়া কি সর্বদা ভুল?


14

আমি যখন আপনার ডেটা সেটআপ করব সে সম্পর্কে আমি যখন পড়ি তখন একটি বিষয় আমি প্রায়শই দেখতে পেলাম যে কয়েকটি ধারাবাহিক তথ্যকে শ্রেণিবদ্ধ ডেটাতে রূপান্তর করা ভাল ধারণা নয়, যেহেতু থ্রেশহোল্ডগুলি দুর্বলভাবে নির্ধারিত হয় তবে আপনি ভুল উপসংহারটি করতে পারেন।

যাইহোক, আমার কাছে বর্তমানে কিছু তথ্য রয়েছে (প্রস্টেট ক্যান্সার রোগীদের জন্য পিএসএ মান), যেখানে আমি মনে করি যে সাধারণ sensকমত্যটি যদি আপনি 4 বছরের নিচে হন তবে আপনার সম্ভবত এটি নেই, আপনি যদি উপরে থাকেন তবে আপনি ঝুঁকিতে আছেন এবং এর মতো কিছু রয়েছে I 10 এবং 20 এর উপরে আপনার সম্ভবত এটি আছে। এরকম কিছু. সেক্ষেত্রে 0-4, 4-10 এবং> 10 বলার জন্য আমার ক্রমাগত পিএসএ মানগুলিকে শ্রেণিবদ্ধ করা কি এখনও ভুল হবে? বা প্রকৃতপক্ষে ঠিক আছে যেহেতু থ্রেশহোল্ডগুলি "দৃ determined় সংকল্পবদ্ধ" তাই বলার জন্য।


5
এটি নির্ভর করে (যথারীতি) উদাহরণস্বরূপ, আপনি যদি চিকিত্সকরা কীভাবে সিদ্ধান্ত নেবেন এবং যদি এই বিভাগগুলির উপর ভিত্তি করে সিদ্ধান্ত নেন তবে আপনি যদি এটি অধ্যয়ন করছেন তবে এটি আপনাকে একই বিভাগগুলি ব্যবহার করার জন্য সৌভাগ্য দেয়। আপনি যদি পরিবর্তে এলিভেটেড পিএসএ সম্পর্কিত জৈবিক পরিণতিগুলি অধ্যয়ন করছেন তবে সম্ভবত পিএসএকে আপনি মোটেও শ্রেণিবদ্ধ করতে চান না। সুতরাং, আপনার বিস্তৃত প্রশ্নের কোনও নির্দিষ্ট উত্তর নেই "এটি কি ঠিক আছে?"
whuber

আপনি ডেটা দিয়ে কী করার চেষ্টা করছেন? আপনি যে চিত্রটি বের করতে চান তার সাথে সাধারণত এমন সীমানা যুক্ত হয় না, যাতে এগুলি হাতে রেখে প্রশ্ন করা ভিক্ষা করে?
রিমকো গ্রিলিচ 13'19

আমি একটি লজিস্টিক রিগ্রেশন মডেলের জন্য ডেটা সেট আপ করছি। সুতরাং মূল প্রশ্নটি হ'ল কেবল অবিচ্ছিন্ন ডেটা ব্যবহার করা উচিত, না পরিবর্তে আলাদা ডেটা আছে।
ডেনভার ডাং

1
'ধারাবাহিক' ডেটা কী তা আমার কাছে পরিষ্কার নয়। এটি বাস্তবে বিদ্যমান এমন কিছু নয়। অসীম নির্ভুলতার সাথে পরিমাপ / পরিসংখ্যান বলে কোনও জিনিস নেই।
জিমি জেমস

1
@ বিলহরবাথ হ্যাঁ, আমি চিকিত্সক নই, সুতরাং এটি কীভাবে নির্ধারিত হয়েছে তা আমি পুরোপুরি নিশ্চিত নই। আপনি যদি কেবল উইকি পৃষ্ঠার দিকে লক্ষ্য করেন তবে এটিতে একটি জায়গা রয়েছে: "পিএসএ স্তরগুলি 4 থেকে 10 এনজি / এমএল (ন্যানোগ্রাম প্রতি মিলিলিটার) হিসাবে সন্দেহজনক বলে বিবেচিত হয় এবং পুনরাবৃত্তি পরীক্ষার মাধ্যমে অস্বাভাবিক পিএসএ নিশ্চিত করার বিষয়ে বিবেচনা করা উচিত। " এবং তারপরে অন্য স্থান: "নিম্ন-ঝুঁকি: পিএসএ <10, গ্লিসন স্কোর ≤ 6, এবং ক্লিনিকাল স্টেজ ≤ টি 2 এ ইন্টারমিডিয়েট-ঝুঁকি: পিএসএ 10-20, গ্লিসন স্কোর 7, বা ক্লিনিকাল পর্যায় টি 2 বি / সি উচ্চ ঝুঁকি: পিএসএ> 20 , গ্লিসন স্কোর ≥ 8, বা ক্লিনিকাল পর্যায়ে ≥ T3 "
ডেনভার ডাং

উত্তর:


23

আপনার দোরগোড়ায় কি তীব্র বিরতি আছে?

উদাহরণস্বরূপ, ধরুন আপনার patients.৯ এবং ৪.১ মান সহ দুটি রোগী এ এবং বি এবং 6..7 এবং 9.৯ মান সহ আরও দুটি রোগী সি এবং ডি রয়েছেন। এ এবং বি এর মধ্যে ক্যান্সারের সম্ভাবনার পার্থক্য কি সি এবং ডি এর সাথে সম্পর্কিত পার্থক্যের চেয়ে অনেক বেশি বড়?

যদি হ্যাঁ, তবে বিচক্ষণতা লাভ করে।

যদি তা না হয় তবে আপনার থ্রেশহোল্ডগুলি আপনার ডেটা বোঝার জন্য অর্থবোধ করতে পারে , তবে তারা একটি পরিসংখ্যানগতভাবে অর্থবোধক অর্থে "সঠিকভাবে নির্ধারিত" নয়। বিতর্ক করবেন না পরিবর্তে, আপনার পরীক্ষার স্কোর ব্যবহার করুন "হিসাবে হয়", এবং আপনি nonlinearity, ব্যবহারের কিছু সন্দেহ যদি

এটি খুব প্রস্তাবিত।


2
নীচে সেই লিঙ্কটি দুর্দান্ত পয়েন্টগুলিতে পূর্ণ। এই উত্তরের ভবিষ্যতের পাঠকদের এটি পরীক্ষা করা উচিত।
এরিক_কর্নফিল্ড

আমি মনে করি প্রস্তাবিত বিরতিতে ফলাফলের বৃহত্তর ঝাঁপ না থাকলে এবং ফলাফল যদি এই গ্রুপগুলির মধ্যে তুলনামূলকভাবে একজাতীয় হয় তবে বিবেচনাধীনতার অর্থ হবে না। অন্যথায়, @ স্টেফান কোলাসা ফাংশনে "লাফানোর" কাছে যাওয়ার আরও ভাল উপায় রয়েছে
এলএসসি

1

আমি মনে করি আদর্শ উত্তরটি সর্বদা খারাপ কারণ আপনি প্রক্রিয়াটিতে তথ্য হারাবেন। এটি বিশ্বাস করা শক্ত যে কোনও ক্ষেত্রেই আপনি প্রাকৃতিক ব্যবধানের ডেটা নেওয়ার এবং এটিকে শ্রেণিবদ্ধ করে কিছু অর্জন করতে পারেন।


উপযুক্ত পরিস্থিতি এমন হবে যেখানে ডিভির সাথে সেই নির্দিষ্ট এক্সের সম্পর্কের ক্ষেত্রে সত্যিকারের বিচ্ছিন্নতা রয়েছে এবং "বিভাগ" এর মধ্যে ফলাফল অপেক্ষাকৃত একজাতীয়।
এলএসসি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.