প্রস্তাবনা
এটি একটি দীর্ঘ পোস্ট। আপনি যদি এটি পুনরায় পড়ছেন, দয়া করে নোট করুন যে আমি প্রশ্নের অংশটি সংশোধন করেছি, যদিও ব্যাকগ্রাউন্ডের উপাদানগুলি একই রয়েছে। অতিরিক্ত হিসাবে, আমি বিশ্বাস করি যে আমি সমস্যার একটি সমাধান তৈরি করেছি। সমাধানটি পোস্টের নীচে উপস্থিত হয়। ক্লিফএবকে ধন্যবাদ জানাতে যে আমার মূল সমাধানটি (এই পোস্টটির বাইরে সম্পাদিত; সেই সমাধানের সম্পাদনার ইতিহাস দেখুন) অগত্যা পক্ষপাতদুষ্ট অনুমান উত্পাদন করেছে।
সমস্যা
মেশিন লার্নিং শ্রেণিবদ্ধকরণ সমস্যাগুলিতে, মডেল পারফরম্যান্স মূল্যায়নের একটি উপায় হ'ল আরওসি বক্ররেখা বা আরওসি বক্ররেখার (এওসি) এর অধীনে অঞ্চলকে তুলনা করা। যাইহোক, এটি আমার পর্যবেক্ষণ যে আরওসি বক্ররেখাগুলির পরিবর্তনশীলতা বা এটিউ এর অনুমান সম্পর্কে মূল্যবান সামান্য আলোচনা আছে; এটি হ'ল এগুলি ডেটা থেকে অনুমান করা পরিসংখ্যান, এবং এর সাথে কিছু ত্রুটি যুক্ত রয়েছে। এই অনুমানগুলিতে ত্রুটি চিহ্নিতকরণ বৈশিষ্ট্যযুক্ত করতে সহায়তা করবে, উদাহরণস্বরূপ, একজন শ্রেণিবদ্ধকারী আসলেই অন্যজনের চেয়ে উচ্চতর কিনা।
আমি এই সমস্যাটি সমাধানের জন্য নিম্নলিখিত পদ্ধতির বিকাশ করেছি, যাকে আমি আরওসি বক্ররেখাগুলির বায়েসিয়ান বিশ্লেষণ বলি। সমস্যাটি সম্পর্কে আমার চিন্তাভাবনায় দুটি মূল পর্যবেক্ষণ রয়েছে:
আরওসি বক্ররেখাগুলি ডেটা থেকে আনুমানিক পরিমাণের সমন্বয়ে গঠিত হয়, এবং এটি বায়সিয়ান বিশ্লেষণে কার্যকর।
আরওসি বক্ররেখা মিথ্যা পজিটিভ রেট বিপরীতে সত্য পজিটিভ রেট প্লট করে তৈরি করা হয়েছে, যার প্রতিটিই তথ্য থেকে অনুমান করা হয়। আমি বিবেচনা এবং কার্যাবলী (ক লজিস্টিক রিগ্রেশনে একটি র্যান্ডম বনে গাছ ভোট, SVM একটি hyperplane থেকে দূরত্ব, পূর্বাভাস সম্ভাব্যতা, ইত্যাদি), সিদ্ধান্ত থ্রেশহোল্ড সাজানোর বর্গ বি থেকে ব্যবহার করা। সিদ্ধান্ত থ্রেশহোল্ড মান তারতম্য বিভিন্ন অনুমান ফিরে আসবে এবং । তদুপরি, আমরা can বিবেচনা করতে পারিএফ পি আর ( θ ) টি পি আর এফ পি আর θ θ টি পি আর এফ পি আর টি পি আর ( θ )বার্নোল্লি ট্রায়ালের ক্রম সাফল্যের সম্ভাবনার একটি অনুমান হতে। আসলে, টিপিআরটিকে as হিসাবে সংজ্ঞায়িত করা হয়, এটি সাফল্য এবং মোট পরীক্ষার ক্ষেত্রে একটি পরীক্ষায় দ্বিপদী সাফল্যের সম্ভাবনার এমএলইও হয়।টিপিটিপি+এফএন>0
সুতরাং এবং এর আউটপুটটিকে এলোমেলো পরিবর্তনশীল হিসাবে বিবেচনা করে আমরা দ্বিপাক্ষিক পরীক্ষার সাফল্য সম্ভাবনা অনুমান করার সমস্যার মুখোমুখি হয়েছি যেখানে সাফল্য এবং ব্যর্থতার সংখ্যাটি সঠিকভাবে জানা (প্রদত্ত দ্বারা , , এবং , যা আমি অনুমান সব ঠিক করা হয়েছে)। প্রচলিতভাবে, কেউ কেবল এমএলই ব্যবহার করে এবং ধরে নেয় যে টিপিআর এবং এফপিআর নির্দিষ্ট মানগুলির জন্য স্থির করা হয়েছেএফ পি আর ( θ ) টি পি এফ পি ফ এন টি এন এন θ। তবে আরওসি বক্ররেখা সম্পর্কে আমার বয়েসীয় বিশ্লেষণে, আমি আরওসি বক্ররেখার পূর্ববর্তী সিমুলেশনগুলি আঁকছি, যা আরওসি বক্ররেখাগুলির উপরের উত্তরোত্তর বিতরণ থেকে নমুনা আঁকতে প্রাপ্ত হয়। এই সমস্যার জন্য একটি আদর্শ বায়সান মডেল হ'ল সাফল্যের সম্ভাবনার আগে বিটা সহ দ্বিপাক্ষিক সম্ভাবনা; সাফল্যের সম্ভাবনার উপর পরবর্তী বিতরণটিও বিটা, সুতরাং প্রতিটি- , আমাদের টিপিআর এবং এফপিআর মানগুলির উত্তরোত্তর বিতরণ রয়েছে have এটি আমাদের দ্বিতীয় পর্যবেক্ষণে নিয়ে আসে।
- আরওসি বক্ররেখা কমছে না। সুতরাং একবার এবং এর কিছু মান স্যাম্পল করলে, নমুনা বিন্দুর "দক্ষিণপূর্ব" আরওসি স্পেসে একটি বিন্দু নমুনার সম্ভাবনা শূন্য থাকে। তবে আকার-সীমাবদ্ধ নমুনা দেওয়া একটি কঠিন সমস্যা।এফ পি আর ( θ )
বায়েশিয়ান পদ্ধতির একক সংখ্যক প্রাক্কলন থেকে বিপুল সংখ্যক এটিসি অনুকরণ করতে ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, 20 টি সিমুলেশন মূল ডেটার তুলনায় এ জাতীয় চেহারা look
এই পদ্ধতিটির অনেকগুলি সুবিধা রয়েছে। উদাহরণস্বরূপ, একটি মডেলের এওসি অপরটির চেয়ে বেশি হওয়ার সম্ভাবনাটি তাদের পরবর্তী সিমুলেশনের এউসি তুলনা করে সরাসরি অনুমান করা যায়। বৈকল্পিকতার অনুমানগুলি সিমুলেশনের মাধ্যমে পাওয়া যায়, যা পুনরায় মডেলিং পদ্ধতির তুলনায় সস্তা এবং এই অনুমানগুলি পুনঃনির্মাণের পদ্ধতিগুলি থেকে উদ্ভূত পারস্পরিক সম্পর্কযুক্ত নমুনাগুলির সমস্যা নিয়ে আসে না।
সমাধান
আমি উপরের দুটি ছাড়াও সমস্যার প্রকৃতি সম্পর্কে তৃতীয় এবং চতুর্থ পর্যবেক্ষণ করে এই সমস্যার সমাধান সমাধান করেছি।
এফ পি আর ( θ ) এবং প্রান্তিক ঘনত্ব রয়েছে যা অনুকরণের জন্য উপযুক্ত
তাহলে (সহ ) একটি বেটা-বিতরণ পরামিতি সঙ্গে র্যান্ডম পরিবর্তনশীল এবং (সহ এবং ), আমরা বিবেচনা করতে পারেন কি TPR ঘনত্ব বিভিন্ন মান ধরে গড় যা আমাদের বিশ্লেষণের সাথে মিলে যায়। তা হ'ল, আমরা একটি শ্রেণিবিন্যাস প্রক্রিয়া বিবেচনা করতে পারি যেখানে আমাদের নমুনা বহির্ভূত মডেল পূর্বাভাস দ্বারা প্রাপ্ত মান সংগ্রহের মধ্য দিয়ে একটি নমুনা , এবং তারপরে মান de । ফলাফলের নমুনাগুলির উপরে বিতরণএফ পি আর ( θ ) টি পি এফ এন এফ পি টি এন θ ~ θ θ টি পি আর ( ~ θ ) টি পি আর ( ~ θ ) θ টি পি আর ( θ ) গ θ 1 / গমানগুলি সত্যিকারের ইতিবাচক হারের একটি ঘনত্ব নিজেই শর্তহীনযেহেতু আমরা জন্য একটি বিটা মডেল ধরে , ফলস্বরূপ বিতরণটি হ'ল বিটা বিতরণের একটি মিশ্রণ, আমাদের সংখ্যার equal আকারের সমান সংখ্যক উপাদান এবং মিশ্রণ সহগের সমষ্টি ।
এই উদাহরণে, আমি টিপিআরতে নিম্নলিখিত সিডিএফ পেয়েছি। উল্লেখযোগ্যভাবে, বিটা বিতরণের অবক্ষয়ের কারণে যেখানে প্যারামিটারগুলির মধ্যে একটি শূন্য, মিশ্রণের কয়েকটি উপাদান 0 বা 1 এ ডায়ারাক ডেল্টা ফাংশন This এটি 0 এবং 1 এ হঠাৎ স্পাইকগুলির কারণ হয়ে থাকে causes এই "স্পাইক" বোঝায় যে এই ঘনত্বগুলি অবিচ্ছিন্ন বা বিযুক্ত নয়। উভয় প্যারামিটারে ইতিবাচক যা পূর্বের একটি পছন্দ এই হঠাৎ স্পাইকগুলিকে "স্মুথিং" এর প্রভাব ফেলবে (দেখানো হয়নি), তবে ফলিত আরওসি বক্ররেখা পূর্বের দিকে টানা হবে। এফপিআর এর জন্যও এটি করা যেতে পারে (দেখানো হয়নি)। প্রান্তিক ঘনত্ব থেকে নমুনা আঁকাই বিপরীত রূপান্তর নমুনার একটি সহজ প্রয়োগ।
আকৃতি-সীমাবদ্ধতার প্রয়োজনীয়তা সমাধানের জন্য, আমাদের কেবল স্বাধীনভাবে টিপিআর এবং এফপিআর বাছাই করতে হবে।
অ-হ্রাসকারী প্রয়োজনীয়তা টিপিআর এবং এফপিআর থেকে প্রান্তিক নমুনাগুলি স্বাধীনভাবে বাছাই করা প্রয়োজনের সমান - যা আরওসি বক্ররেখাটির আকারটি সম্পূর্ণরূপে প্রয়োজনীয়তার দ্বারা নির্ধারিত হয় যে ক্ষুদ্রতম টিপিআর মানকে ক্ষুদ্রতম এফপিআরের সাথে যুক্ত করা যায় by মান এবং এই জাতীয়, যার অর্থ একটি আকার-সীমাবদ্ধ এলোমেলো নমুনার নির্মাণ এখানে তুচ্ছ। পূর্বে অনুচিত , সিমুলেশনগুলি প্রমাণ দেয় যে এই পদ্ধতিতে একটি আরওসি বক্ররেখা তৈরি করে গড় এওসি সমেত নমুনা তৈরি করে যা সংখ্যার নমুনার সীমাতে মূল এওসিতে রূপান্তর করে। নীচে 2000 সিমুলেশনগুলির একটি কে.ডি.
বুটস্ট্র্যাপের সাথে তুলনা
@ অ্যাডমো (ধন্যবাদ, অ্যাডামো!) এর সাথে দীর্ঘ আড্ডার আলোচনায় তিনি উল্লেখ করেছিলেন যে দুটি আরওসি বক্ররেখার তুলনা করার জন্য বা একক আরওসি বক্ররেখার পরিবর্তনশীলতা চিহ্নিত করার জন্য কয়েকটি প্রতিষ্ঠিত পদ্ধতি রয়েছে যার মধ্যে বুটস্ট্র্যাপ রয়েছে। সুতরাং একটি পরীক্ষা হিসাবে, আমি আমার উদাহরণটিকে বুটস্ট্র্যাপ করার চেষ্টা করেছি যা হোল্ডআউট সেটটিতে পর্যবেক্ষণ হিসাবে এবং ফলাফলকে বায়েশিয়ান পদ্ধতির সাথে তুলনা করে। ফলাফলগুলি নীচে তুলনা করা হয়েছে (বুটস্ট্র্যাপ বাস্তবায়ন এখানে সাধারণ বুটস্ট্র্যাপ - এলোমেলোভাবে মূল নমুনার আকারের প্রতিস্থাপনের সাথে নমুনা। বুটস্ট্র্যাপে কার্সারি রিডিং পুনরায় স্যাম্পলিং পদ্ধতিতে আমার জ্ঞানের উল্লেখযোগ্য ফাঁকগুলি উন্মোচিত করে, তাই সম্ভবত এটি একটি নয়) উপযুক্ত পদ্ধতি।)
এই প্রদর্শনটি দেখায় যে বুটস্ট্র্যাপের গড়টি মূল নমুনার নীচে পক্ষপাতদুষ্ট, এবং বুটস্ট্র্যাপের কে-ডি-ই ভালভাবে সংজ্ঞায়িত "হাম্পস" ফলন করে। এই কুঁচকির জেনিসিস খুব কমই রহস্যজনক - আরওসি বক্ররেখা প্রতিটি পয়েন্টের অন্তর্ভুক্তির জন্য সংবেদনশীল হবে এবং একটি ছোট নমুনার প্রভাব (এখানে, এন = ২০) হ'ল অন্তর্নিহিত পরিসংখ্যান প্রতিটিটির অন্তর্ভুক্তিতে আরও সংবেদনশীল বিন্দু। (জোর দিয়ে, এই প্যাটার্নিংটি কার্নেল ব্যান্ডউইথের কোনও নিদর্শন নয় - রাগ প্লটটি লক্ষ্য করুন note প্রতিটি স্ট্রাইপ একাধিক বুটস্ট্র্যাপের প্রতিরূপ যা একই মান। বুটস্ট্র্যাপে 2000 টি প্রতিলিপি রয়েছে, তবে স্বতন্ত্র মানগুলির সংখ্যা স্পষ্টতই অনেক কম We উপসংহারে পৌঁছতে পারে যে কুঁচিগুলি বুটস্ট্র্যাপ পদ্ধতির একটি অভ্যন্তরীণ বৈশিষ্ট্য)) বিপরীতে এর অর্থ, বায়েশিয়ান এউসি অনুমানগুলি মূল অনুমানের খুব কাছাকাছি থাকে,
প্রশ্ন
আমার সংশোধিত প্রশ্নটি হল আমার সংশোধিত সমাধানটি ভুল কিনা। একটি উত্তরের উত্তর প্রমাণ করবে (বা অস্বীকার করবে) যে আরওসি বক্ররেখার ফলে প্রাপ্ত নমুনাগুলি পক্ষপাতদুষ্ট, বা একইভাবে এই পদ্ধতির অন্যান্য গুণাবলী প্রমাণ বা অস্বীকার করবে।