বিভিন্ন সারোগেট মডেলের পূর্বাভাসে অস্থিরতার প্রভাব
তবে দ্বিপাক্ষিক বিশ্লেষণের পিছনে একটি অনুমান হ'ল প্রতিটি বিচারের সাফল্যের একই সম্ভাবনা, এবং আমি নিশ্চিত নই যে ক্রস-বৈধকরণে 'ডান' বা 'ভুল' শ্রেণিবিন্যাসের পিছনের পদ্ধতিটি বিবেচনা করা যেতে পারে কিনা সাফল্যের একই সম্ভাবনা।
ভাল, সাধারণত যে সমতাটি এমন একটি অনুমান যা আপনাকে বিভিন্ন সরোগেট মডেলের ফলাফলগুলিকে সাজাতে দেয়।
অনুশীলনে, আপনার অনুমান যে এই অনুমানটি লঙ্ঘিত হতে পারে প্রায়শই সত্য। তবে আপনি এটি পরিমাপ করতে পারবেন কি না। এটিই আমি পুনরাবৃত্ত ক্রস বৈধকরণকে সহায়ক বলে মনে করি: বিভিন্ন সরোগেট মডেল দ্বারা একই মামলার পূর্বাভাসের স্থায়িত্ব আপনাকে মডেলগুলির সমতুল্য (স্থিতিশীল পূর্বাভাস) কিনা তা বিচার করতে দেয়।
এখানে পুনরাবৃত্তি (ওরফে পুনরাবৃত্তি) -ফোল্ড ক্রস বৈধকরণের একটি স্কিম রয়েছে :k
ক্লাসগুলি লাল এবং নীল। ডান দিকের চেনাশোনাগুলি ভবিষ্যদ্বাণীগুলির প্রতীক। প্রতিটি পুনরাবৃত্তিতে প্রতিটি নমুনা ঠিক একবারে পূর্বাভাস দেওয়া হয়। সাধারণত, গ্র্যান্ড মিডটি পারফরম্যান্সের প্রাক্কলন হিসাবে ব্যবহৃত হয়, স্পষ্টতই ধরে নেওয়া যায় যে সারোগেট মডেলের পারফরম্যান্স সমান। আপনি যদি বিভিন্ন সরোগেট মডেল (যেমন কলামগুলি জুড়ে) দ্বারা করা পূর্বাভাসগুলিতে প্রতিটি নমুনার সন্ধান করেন তবে আপনি দেখতে পারবেন যে এই নমুনার জন্য ভবিষ্যদ্বাণীগুলি কতটা স্থিতিশীল।i⋅k
আপনি প্রতিটি পুনরাবৃত্তির জন্য কার্যকারিতাও গণনা করতে পারেন (অঙ্কনটিতে 3 টি সারি ব্লক)। এর মধ্যে যে কোনও প্রকারের পার্থক্য রয়েছে তার অর্থ এই যে অনুমানটি যে সারোগেট মডেলগুলির সমতুল্য (একে অপরের সাথে তদতিরিক্ত এবং সমস্ত ক্ষেত্রে নির্মিত "গ্র্যান্ড মডেল" এর সাথেও মিলবে)। তবে এটি আপনাকে জানায় যে আপনার কতটা অস্থিরতা রয়েছে। দ্বিপদী অনুপাতের জন্য আমি যতক্ষণ না সত্যিকারের পারফরম্যান্স একই হিসাবে মনে করি (অর্থাত্ একই ক্ষেত্রে সর্বদা একই ক্ষেত্রে ভুলভাবে পূর্বাভাস দেওয়া হয় বা একই সংখ্যাটি ভিন্ন ভিন্ন ক্ষেত্রে ভুলভাবে পূর্বাভাস দেওয়া হয় কিনা) independent আমি জানি না যে কোনও ব্যক্তি বোধগম্যভাবে surrogate মডেলগুলির পারফরম্যান্সের জন্য একটি নির্দিষ্ট বিতরণ গ্রহণ করতে পারে কিনা। তবে আমি মনে করি যে কোনও অবস্থাতেই শ্রেণিবিন্যাসের ত্রুটিগুলির বর্তমানে সাধারণ প্রতিবেদনের চেয়ে একটি সুবিধা যদি আপনি কোনওভাবেই সেই অস্থিরতার কথা জানান।কেk সারোগেট মডেলগুলি প্রতিটি পুনরাবৃত্তির জন্য ইতিমধ্যে পুল করা হয়েছিল, অস্থিরতার বৈচিত্রটি পুনরাবৃত্তির মধ্যে পর্যবেক্ষিত বৈকল্পিকের প্রায় গুণ isk
আমার সাধারণত প্রায় 120 টিরও কম স্বতন্ত্র মামলা নিয়ে কাজ করতে হয়, তাই আমি আমার মডেলগুলিকে খুব দৃ reg়ভাবে নিয়ন্ত্রণ করি put আমি তখন সাধারণত দেখাতে সক্ষম হয়েছি যে সীমাবদ্ধ পরীক্ষার নমুনা আকারের পরিবর্তনের চেয়ে অস্থিরতা বৈকল্পিক । (এবং আমি মনে করি এটি মডেলিংয়ের জন্য বোধগম্য কারণ মানুষ নিদর্শনগুলি সনাক্ত করার দিকে পক্ষপাতদুষ্ট এবং এইভাবে খুব জটিল মডেল তৈরির দিকে আকৃষ্ট হয় এবং এইভাবে অত্যধিক মানানসই)।
আমি সাধারণত পুনরাবৃত্তির (এবং , এবং ) এবং সসীম পরীক্ষার নমুনা আকারের গড় পর্যবেক্ষণের পারফরম্যান্সের উপর দ্বি-দ্বিবিশ্বাসের আত্মবিশ্বাসের বিরতিতে পর্যবেক্ষণ করা অস্থিরতা বৈচিত্রের শতকরা প্রতিবেদন করি ।N কে i≪
nki
অঙ্কনটি ডুমুরের এক নতুন সংস্করণ। এই গবেষণাপত্রে 5: বেলাইট, সি এবং সালজার, আর .: ছোট নমুনা আকারের পরিস্থিতিতে কেমোমেট্রিক মডেলগুলির স্থায়িত্ব মূল্যায়ন ও উন্নতি করা, এনাল বায়ানাল কেম, 390, 1261-1271 (২০০৮)। ডিওআই: 10.1007 / s00216-007-1818-6
নোট করুন যে আমরা যখন কাগজটি লিখেছিলাম তখন আমি বিচ্ছিন্নতার বিভিন্ন উত্সগুলি পুরোপুরি বুঝতে পারি নি যা আমি এখানে ব্যাখ্যা করেছি - এটি মনে রাখবেন। আমি তাই মনে করি যে যুক্তিপ্রদত্ত কার্যকর নমুনা আকারের অনুমানের জন্য সঠিক নয়, যদিও প্রয়োগের সিদ্ধান্তে যে প্রতিটি রোগীর মধ্যে বিভিন্ন টিস্যু ধরণের প্রদত্ত টিস্যু ধরণের একটি নতুন রোগী যতটা সামগ্রিক তথ্য সম্পর্কে অবদান রাখে সম্ভবত এখনও বৈধ (আমার সম্পূর্ণ ভিন্ন ধরণের আছে) প্রমাণ যা সেইভাবে নির্দেশ করে)। তবে আমি এই সম্পর্কে এখনও পুরোপুরি নিশ্চিত নই (না কীভাবে এটি আরও ভাল করা যায় এবং এভাবে চেক করতে সক্ষম হবে) এবং এই সমস্যাটি আপনার প্রশ্নের সাথে সম্পর্কিত নয়।
দ্বি দ্বি আত্মবিশ্বাসের ব্যবধানের জন্য কোন কার্যকারিতা ব্যবহার করবেন?
এখনও অবধি, আমি পরিলক্ষিত গড় পারফরম্যান্সটি ব্যবহার করছি। আপনি সবচেয়ে খারাপ পর্যবেক্ষিত পারফরম্যান্সটিও ব্যবহার করতে পারেন: পর্যবেক্ষণ করা পারফরম্যান্সটি 0.5 এর কাছাকাছি, তারতম্যটি বৃহত্তর এবং এইভাবে আত্মবিশ্বাসের ব্যবধান। সুতরাং, 0.5 এর কাছাকাছি পর্যবেক্ষিত পারফরম্যান্সের আত্মবিশ্বাসের বিরতি আপনাকে কিছু রক্ষণশীল "সুরক্ষা মার্জিন" দেয়।
নোট করুন যে দ্বিপাক্ষিক আত্মবিশ্বাসের অন্তরগুলি গণনা করার জন্য কয়েকটি পদ্ধতিও যদি সফলতার লক্ষিত সংখ্যার পূর্ণসংখ্যা না হয় তবে কাজ করে। রস, টিডিতে বর্ণিত হিসাবে আমি "বায়সিয়ান পোস্টেরিয়র সম্ভাব্যতার সংহতকরণ" ব্যবহার করি
: দ্বিপদী অনুপাত এবং পোইসন রেট অনুমানের জন্য সঠিক আত্মবিশ্বাসের বিরতি, কমপুট বিওল মেড, 33, 509-531 (2003)। ডিওআই: 10.1016 / S0010-4825 (03) 00019-2
(আমি মতলবের জন্য জানি না, তবে আর এ আপনি binom::binom.bayes
উভয় আকারের প্যারামিটার সেট করে 1 ব্যবহার করতে পারেন )।
এই চিন্তাগুলি অজানা নতুন মামলার জন্য এই প্রশিক্ষণ ডেটা সেট ফলনের উপর নির্মিত পূর্বাভাস মডেলগুলিতে প্রযোজ্য । আপনি মামলার একই জনসংখ্যা থেকে টানা অন্যান্য প্রশিক্ষণ ডেটা সেট করার generatlize করার প্রয়োজন হলে, আপনি অনুমান করার জন্য কত মডেলের আকারের একটি নতুন প্রশিক্ষণ নমুনা তালিম প্রয়োজন চাই পরিবর্তিত হয়। ("শারীরিকভাবে" নতুন প্রশিক্ষণের ডেটা সেট না করে কীভাবে এটি করা যায় সে সম্পর্কে আমার কোনও ধারণা নেই)n
আরও দেখুন: বেঞ্জিও, ওয়াই এবং গ্র্যান্ডভ্যালেট, ওয়াই: কে-ফোল্ড ক্রস-বৈধকরণের বৈকল্পিকতার কোনও নিরপেক্ষ অনুমানক, মেশিন লার্নিং রিসার্চ জার্নাল, 2004, 5, 1089-1105 ।
(এই বিষয়গুলির সম্পর্কে আরও চিন্তা করা আমার গবেষণা টু-লিস্টে রয়েছে ... তবে আমি পরীক্ষামূলক বিজ্ঞান থেকে আসার পরে আমি পরীক্ষামূলক ডেটা সহ তাত্ত্বিক এবং অনুকরণের উপসংহারের পরিপূরক করতে পছন্দ করি - যা এখানে আমার পক্ষে বিশাল প্রয়োজন কারণ এখানে কঠিন রেফারেন্স পরীক্ষার জন্য স্বতন্ত্র মামলার সেট)
আপডেট: বায়োমিয়াল বিতরণ অনুমান করা কি ন্যায়সঙ্গত?
আমি নীচের মুদ্রা নিক্ষেপ পরীক্ষার মতো কে-ফোল্ড সিভি দেখতে পাচ্ছি: একটি মুদ্রা প্রচুর পরিমাণে নিক্ষেপের পরিবর্তে একই মেশিন দ্বারা উত্পাদিত মুদ্রাগুলিকে অল্প সংখ্যক বার নিক্ষেপ করা হয়। এই ছবিতে, আমার কাছে মনে হয় @ টাল পয়েন্ট দেখায় যে কয়েনগুলি একই নয়। যা স্পষ্টতই সত্য। আমি মনে করি কোনটি করা উচিত এবং কী করা যায় তা সারোগেট মডেলগুলির সমতুল্য অনুমানের উপর নির্ভর করে।k
যদি সরোগেট মডেলগুলির (মুদ্রাগুলি) মধ্যে পারফরম্যান্সের মধ্যে কোনও পার্থক্য থাকে, তবে "traditionalতিহ্যবাহী" অনুমান যে সারোগেট মডেলগুলির সমতুল্য তা ধরে রাখে না। সেক্ষেত্রে কেবল বিতরণ দ্বি-দ্বিণী নয় (যেমন আমি উপরে বলেছি, কোন বিতরণটি ব্যবহার করতে হবে সে সম্পর্কে আমার কোনও ধারণা নেই: এটি প্রতিটি সরোগেট মডেল / প্রতিটি মুদ্রার জন্য দ্বি-দ্বিফলের যোগফল হওয়া উচিত)। তবে নোট করুন, এর অর্থ এই যে সরোগেট মডেলগুলির ফলাফলের পুলিংয়ের অনুমতি নেই। তাই তন্ন তন্ন একটি দ্বিপদ হয় টেস্ট একটি ভাল পড়তা (আমি চেষ্টা উন্নত কিংবা গড় কর্মক্ষমতা আরও আত্মপক্ষ সমর্থন ছাড়া বিন্দু অনুমান হিসাবে ব্যবহার করা যেতে পারে: অস্থিরতা বলছে আমরা প্রকরণ একটি অতিরিক্ত উৎস আছে দ্বারা পড়তা)।n
অন্যদিকে যদি সারোগেটের (সত্য) পারফরম্যান্স একই হয়, তখন আমি "মডেলগুলির সমতুল্য" (একটি লক্ষণটি হ'ল ভবিষ্যদ্বাণীটি স্থিতিশীল) with আমি মনে করি এক্ষেত্রে সমস্ত সার্গেট মডেলের ফলাফলগুলি পোল করা যায়, এবং সমস্ত পরীক্ষার জন্য দ্বিপদী বিতরণ ব্যবহার করা ঠিক হবে: আমি মনে করি সেক্ষেত্রে আমরা সরোগেট মডেলগুলির সত্যিকারের এর সমান হতে মোটে ন্যায়সঙ্গত , এবং এভাবে পরীক্ষাকে একটি মুদ্রা বার নিক্ষেপের সমতুল্য বর্ণনা করে ।পি এনnpn