আমি নিম্নলিখিত ফর্ম্যাট সহ একটি ডেটাसेट পেয়েছি।
একটি বাইনারি ফলাফল ক্যান্সার / ক্যান্সার নেই। ডাটাসেটের প্রতিটি ডাক্তার প্রতিটি রোগীকে দেখেছেন এবং রোগীর ক্যান্সার রয়েছে কিনা সে বিষয়ে একটি স্বাধীন রায় দিয়েছেন। চিকিত্সকরা তাদের 5 টির মধ্যে তাদের আত্মবিশ্বাসের স্তরটি দেন যে তাদের নির্ণয়টি সঠিক, এবং আত্মবিশ্বাসের স্তরটি বন্ধনীগুলিতে প্রদর্শিত হয়।
আমি এই ডেটাসেট থেকে ভাল পূর্বাভাস পেতে বিভিন্ন উপায়ে চেষ্টা করেছি।
এটি আমার পক্ষে চিকিত্সকদের জুড়ে গড়ের পক্ষে বেশ ভালভাবে কাজ করে, তাদের আত্মবিশ্বাসের মাত্রা উপেক্ষা করে। উপরের সারণীতে এতে রোগী 1 এবং রোগীর 2 এর সঠিক নির্ণয় করা সম্ভব হবে, যদিও এটি ভুলভাবে বলে উঠত যে রোগীর 3 টিতে ক্যান্সার রয়েছে, যেহেতু 2-1 সংখ্যাগরিষ্ঠ দ্বারা চিকিত্সকরা মনে করেন রোগীর 3 টি ক্যান্সার রয়েছে।
আমি এমন একটি পদ্ধতিও চেষ্টা করেছিলাম যাতে আমরা এলোমেলোভাবে দুটি ডাক্তারকে নমুনা দিয়েছি এবং যদি তারা একে অপরের সাথে একমত না হয় তবে সিদ্ধান্ত নেওয়া ভোটটি যেকোন চিকিত্সকের কাছে বেশি আত্মবিশ্বাসী to এই পদ্ধতিটি অর্থনৈতিক যেটিতে আমাদের অনেক চিকিত্সকের পরামর্শের প্রয়োজন নেই, তবে এটি ত্রুটির হারকেও খানিকটা বাড়িয়ে তোলে।
আমি একটি সম্পর্কিত পদ্ধতি চেষ্টা করেছি যাতে আমরা এলোমেলোভাবে দুটি ডাক্তার নির্বাচন করি এবং তারা একে অপরের সাথে একমত না হলে আমরা এলোমেলোভাবে আরও দু'জনকে নির্বাচন করি। যদি কোনও রোগ নির্ণয় কমপক্ষে দুটি 'ভোট' দিয়ে এগিয়ে থাকে তবে আমরা সেই রোগ নির্ণয়ের পক্ষে সমাধান করি। যদি তা না হয়, আমরা আরও ডাক্তারদের নমুনা বজায় রাখি। এই পদ্ধতিটি বেশ অর্থনৈতিক এবং খুব বেশি ভুল করে না।
আমি অনুভূতিতে সাহায্য করতে পারি না যে আমি কিছু করার জন্য আরও কিছু অত্যাধুনিক উপায় মিস করছি। উদাহরণস্বরূপ, আমি অবাক হয়েছি যে আমি যদি ডেটাसेटকে প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে বিভক্ত করতে পারি এবং ডায়াগনসিসকে একত্রিত করার জন্য সর্বোত্তম উপায় নিয়ে কাজ করতে পারি, এবং তারপরে পরীক্ষাগুলিতে সেগুলি ওজন কীভাবে সম্পাদন করে তা দেখুন। একটি সম্ভাবনা হ'ল এক ধরণের পদ্ধতি যা আমাকে নিম্ন ওজনের ডাক্তারদের ট্রায়াল সেটে ভুল করতে থাকে এবং উচ্চ আত্মবিশ্বাসের সাথে সম্ভবত উচ্চতর ওজন নির্ণয় করতে দেয় (আত্মবিশ্বাসটি এই ডেটাসেটে নির্ভুলতার সাথে সম্পর্কিত)।
আমি এই সাধারণ বিবরণটির সাথে মিলে বিভিন্ন ডেটাসেট পেয়েছি, সুতরাং নমুনার আকারগুলি পৃথক হয় এবং সমস্ত ডেটাসেটগুলি চিকিত্সক / রোগীদের সাথে সম্পর্কিত নয়। যাইহোক, এই নির্দিষ্ট ডেটাসেটে 40 জন চিকিৎসক আছেন, যারা প্রত্যেকে 108 জন রোগী দেখেছেন।
সম্পাদনা: আমার @ জেরেমি-মাইলস উত্তরটি পড়ে আমার কিছু ফলাফলের লিঙ্ক এখানে ।
অপ্রকাশিত ফলাফল প্রথম কলামে। আসলে এই ডেটাসেটে সর্বাধিক আত্মবিশ্বাসের মান 4 ছিল, 5 নয় যা আমি ভুল করে আগে বলেছিলাম। এইভাবে @ জেরেমি-মাইলস অনুসরণের পরে যে কোনও রোগী সর্বোচ্চ অসমর্থিত স্কোর be হতে পারে That এর অর্থ হ'ল আক্ষরিক অর্থেই প্রতিটি ডাক্তার 4 এর আত্মবিশ্বাসের মাত্রায় জোর দিয়েছিলেন যে রোগীর ক্যান্সার হয়েছিল। যে কোনও রোগী সবচেয়ে কম অপ্রত্যাশিত স্কোর পেতে পারে এটি 0, যার অর্থ প্রতিটি রোগীর ক্যান্সারে আক্রান্ত না হওয়ার আত্মবিশ্বাসের মাত্রা 4 দিয়েছিল।
ক্রোনবাচের আলফা দ্বারা ওজন। আমি এসপিএসে দেখতে পেলাম যে একটি সামগ্রিক ক্রোনবাচের আলফা ছিল 0.9807। আমি আরও ম্যানুয়াল পদ্ধতিতে ক্রোনবাচের আলফা গণনা করে যাচাই করেছিলাম যে এই মানটি সঠিক ছিল। আমি 40 টি চিকিত্সকের একটি কোভেরিয়েন্স ম্যাট্রিক্স তৈরি করেছি, যা আমি এখানে পেস্ট করেছি । তারপরে ক্রোনব্যাকের সূত্রটি আমার বোঝার ভিত্তিতে যেখানে আইটেমের সংখ্যা (এখানে চিকিত্সকরা 'আইটেম') আমি ম্যাট্রিক্সের সমস্ত তির্যক উপাদানগুলির and এবং সমস্ত উপাদানগুলিকে করে কোভেরিয়েন্স ম্যাট্রিক্স। আমি তখন পেয়েছি আমি তখন 40 টি আলাদা ক্রোনব্যাক ফলাফল গণনা করি যা প্রতিটি ডাক্তার যখন অপসারণ করা হবে তখন ঘটবে ডেটা সেটটি। ক্রোনবাচের আলফায় শূন্যে নেতিবাচকভাবে অবদান রেখে এমন কোনও ডাক্তারকে আমি ভারী করেছিলাম। ক্রোনবাচের আলফায় তাদের ইতিবাচক অবদানের সমানুপাতিক অবশিষ্ট ডাক্তারদের জন্য আমি ওজন নিয়ে এসেছি।
মোট আইটেম সংশোধন দ্বারা ওজন। আমি সমস্ত সামগ্রিক আইটেম সম্পর্কিত সম্পর্কিত গণনা করি এবং তারপরে প্রতিটি ডাক্তারের ওজনের সম্পর্কগুলির আকারের সাথে আনুপাতিক।
রিগ্রেশন কোফিয়েনটিস দ্বারা ওজন।
একটি জিনিস আমি এখনও নিশ্চিত নই যে কোন পদ্ধতিটি অন্যটির চেয়ে "আরও ভাল" কাজ করছে তা কীভাবে বলা যায়। পূর্বে আমি পিয়ার্স স্কিল স্কোরের মতো জিনিসগুলি গণনা করছিলাম, যা উদাহরণস্বরূপ উপযুক্ত যেখানে বাইনারি পূর্বাভাস এবং বাইনারি ফলাফল রয়েছে for যাইহোক, এখন আমার 0 থেকে 1 এর পরিবর্তে 0 থেকে 7 অবধি পূর্বাভাস রয়েছে আমি কি সমস্ত ভারী স্কোর> 3.50 থেকে 1 এবং সমস্ত ওজনযুক্ত স্কোর <3.50 থেকে 0 তে রূপান্তর করব?
Cancer (4)
সাথে কোনও ক্যান্সারের পূর্বাভাস পর্যন্ত ডেটা নেই No Cancer (4)
। আমরা এটি বলতে পারি না No Cancer (3)
এবং Cancer (2)
একইরকম, তবে আমরা বলতে পারি একটি ধারাবাহিকতা রয়েছে Cancer (1)
এবং এই ধারাবাহিকের মাঝের পয়েন্টগুলি হয় এবং No Cancer (1)
।
No Cancer (3)
হয়Cancer (2)
? এটি আপনার সমস্যাটিকে কিছুটা সহজ করবে।