শ্রেণিবদ্ধ সমাধান
মানগুলিকে শ্রেণিবদ্ধ হিসাবে আচরণ করা আপেক্ষিক আকারগুলির সম্পর্কে গুরুত্বপূর্ণ তথ্য হারায় । এ থেকে উত্তরণের জন্য একটি স্ট্যান্ডার্ড পদ্ধতিতে আদেশ দেওয়া হয় লজিস্টিক রিগ্রেশন । বাস্তবে, এই পদ্ধতিটি "জানে"এ < বি < ⋯ < জে< … এবং, রেজিস্ট্রারগুলির সাথে পর্যবেক্ষিত সম্পর্কগুলি ব্যবহার করে (যেমন আকার) আদেশটিকে সম্মান করে এমন প্রতিটি বিভাগের মান (কিছুটা নির্বিচারে) মানগুলি ফিট করে।
একটি চিত্র হিসাবে 30 হিসাবে বিবেচনা করুন (আকার, প্রাচুর্য বিভাগ) হিসাবে উত্পন্ন জোড়
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
প্রচুর পরিমাণে অন্তরগুলিতে [0,10], [11,25], ..., [10001,25000] এ শ্রেণীবদ্ধ করা হয়েছে।
আদেশযুক্ত লজিস্টিক রিগ্রেশন প্রতিটি বিভাগের জন্য সম্ভাব্য বন্টন উত্পাদন করে; বিতরণ আকারের উপর নির্ভর করে। এই জাতীয় বিশদ তথ্য থেকে আপনি তাদের চারপাশে আনুমানিক মান এবং বিরতি উত্পাদন করতে পারেন। এই ডেটাগুলি থেকে অনুমান করা 10 পিডিএফগুলির একটি প্লট এখানে রয়েছে (সেখানে 10 এর ডেটা অভাবের কারণে বিভাগের 10 এর অনুমান করা সম্ভব হয়নি):
অবিচ্ছিন্ন সমাধান
প্রতিটি বিভাগকে উপস্থাপন করতে এবং ত্রুটি শর্তের অংশ হিসাবে বিভাগের মধ্যে প্রকৃত প্রাচুর্য সম্পর্কে অনিশ্চয়তা দেখার জন্য কেন একটি সংখ্যাসূচক মান নির্বাচন করবেন না ?
আমরা এটি একটি আদর্শিক পুনঃপ্রকাশের একটি স্বতন্ত্র অনুমান হিসাবে বিশ্লেষণ করতে পারি চ যা প্রাচুর্যের মানকে রূপান্তর করে একটি অন্যান্য মান মধ্যে চ( ক ) যার জন্য পর্যবেক্ষণমূলক ত্রুটিগুলি, একটি ভাল অনুমানের, প্রতিসম বিতরণ এবং মোটামুটি একই প্রত্যাশিত আকার নির্বিশেষে একটি (একটি বৈকল্পিক-স্থিতিশীল রূপান্তর)।
বিশ্লেষণকে সহজ করার জন্য, ধরুন এই ধরণের রূপান্তর অর্জনের জন্য বিভাগগুলি বেছে নেওয়া হয়েছে (তত্ত্ব বা অভিজ্ঞতার ভিত্তিতে)। আমরা তখন ধরে নিতে পারিচ বিভাগের কাটপয়েন্টগুলি পুনরায় প্রকাশ করে αআমি তাদের সূচক হিসাবে আমি। প্রস্তাবটি কিছু "বৈশিষ্ট্যযুক্ত" মান নির্বাচন করার সমানβআমি প্রতিটি বিভাগের মধ্যে আমি এবং ব্যবহার f(βi) প্রাচুর্যের সংখ্যাগত মান হিসাবে যখনই প্রাচুর্যের মধ্যে শুয়ে থাকে αi এবং αi+1। এটি সঠিকভাবে পুনরায় প্রকাশিত মানের জন্য প্রক্সি হবেf(a)।
ধরা যাক, সেই প্রাচুর্য ত্রুটিযুক্তভাবে পালন করা হয় ε, যাতে হাইপোথিটিক্যাল ডেটাম আসলে হয় a+ε পরিবর্তে a। এটিকে কোড করার ক্ষেত্রে ত্রুটিf(βi) সংজ্ঞা দ্বারা, পার্থক্য f(βi)−f(a), যা আমরা দুটি শর্তের পার্থক্য হিসাবে প্রকাশ করতে পারি
error=f(a+ε)−f(a)−(f(a+ε)−f(βi)).
প্রথম পদ, f(a+ε)−f(a)দ্বারা নিয়ন্ত্রিত হয় f (আমরা কিছুই করতে পারি না ε) এবং যদি আমরা প্রচুর পরিমাণে শ্রেণিবদ্ধ না করি তবে উপস্থিত হবে । দ্বিতীয় শব্দটি এলোমেলো - এটি নির্ভর করেε- এবং স্পষ্টতই এর সাথে সম্পর্কযুক্ত ε। তবে আমরা এটি সম্পর্কে কিছু বলতে পারি: এটি অবশ্যই থাকা উচিতi−f(βi)<0 এবং i+1−f(βi)≥0। তাছাড়া, যদিfএকটি ভাল কাজ করছে, দ্বিতীয় শব্দটি প্রায় অভিন্নভাবে বিতরণ করা হতে পারে । উভয় বিবেচনাই বেছে নেওয়ার পরামর্শ দেয়βi যাতে f(βi) মাঝখানে পড়ে আছে i এবং i+1; এটাই,βi≈f−1(i+1/2)।
এই প্রশ্নের এই বিভাগগুলি একটি প্রায় জ্যামিতিক অগ্রগতি গঠন করে যা এটি সূচিত করে fলগারিদমের সামান্য বিকৃত সংস্করণ। অতএব, প্রাচুর্য উপাত্ত উপস্থাপনের জন্য আমাদের অন্তর শেষ প্রান্তের জ্যামিতিক উপায়গুলি ব্যবহার করা উচিত ।
এই পদ্ধতির সাথে সাধারণ সর্বনিম্ন স্কোয়াস রিগ্রেশন (ওএলএস) 8ালাইয়ের পরিবর্তে .1.১৯ (স্ট্যান্ডার্ড ত্রুটি ০.০8) এবং se..1৯ (স্টেটারের ০.৯7) এর বিপরীতে 7..70০ (স্ট্যান্ডার্ড ত্রুটি ০.০8) হয় এবং and..6৯ (সে এর মধ্যভাগ) 0.56) আকারের তুলনায় লগ প্রচুর পরিমাণে পুনরায় চাপানোর সময় । উভয়ই গড়ের প্রতি প্রতিক্রিয়া প্রদর্শন করে, কারণ তাত্ত্বিক opeাল কাছাকাছি হওয়া উচিত4log(10)≈9.21। প্রত্যাশিত হিসাবে যুক্ত বিচক্ষণতা ত্রুটির কারণে শ্রেণীবদ্ধ পদ্ধতিটি গড়ের (আরও ছোট opeালু) দিকে আরও কিছুটা রিগ্রেশন প্রদর্শন করে।
এই প্লটটি শ্রেণিবদ্ধ প্রচুর পরিমাণের উপর ভিত্তি করে ফিটের সাথে শ্রেণিবদ্ধ প্রাচুর্যগুলি দেখায় (প্রস্তাবিত হিসাবে বিভাগের সমাপ্তির জ্যামিতিক উপায় ব্যবহার করে) এবং প্রাচুর্যগুলির উপর ভিত্তি করে একটি ফিট fit তড়কা সাতিশয় কাছাকাছি, যা নির্দেশ উপযুক্ত মনোনীত সংখ্যাসূচক মান দ্বারা বিভাগ প্রতিস্থাপন এই পদ্ধতি উদাহরণে ভাল কাজ করে ।
উপযুক্ত "মিডপয়েন্ট" বেছে নেওয়ার জন্য সাধারণত কিছু যত্ন প্রয়োজন βi দুটি চরম বিভাগের জন্য, কারণ প্রায়শই fসেখানে আবদ্ধ হয় না। (এই উদাহরণের জন্য আমি প্রথম বিভাগের বাম দিকের পয়েন্টটি অপরিশোধিতভাবে নিয়েছি1 বরং 0 এবং শেষ বিভাগের ডান এন্ডপয়েন্ট 25000।) একটি সমাধান হ'ল প্রথমে চূড়ান্ত বিভাগগুলির মধ্যে নয়, ডেটা ব্যবহার করে সমস্যাটি সমাধান করা, তারপরে সেই চরম বিভাগগুলির জন্য উপযুক্ত মানগুলি অনুমান করার জন্য ফিট ব্যবহার করুন, তারপরে ফিরে যান এবং সমস্ত ডেটা ফিট করুন fit পি-মানগুলি সামান্য খুব ভাল হবে তবে সামগ্রিকভাবে ফিট আরও সঠিক এবং কম পক্ষপাতী হওয়া উচিত।