উত্তর:
পার্সিমোনিয়াস মডেল এমন একটি মডেল যা সম্ভাব্য হিসাবে কম কয়েকটি ভবিষ্যদ্বাণী ভেরিয়েবলের সাথে ব্যাখ্যা বা ভবিষ্যদ্বাণীগুলির একটি কাঙ্ক্ষিত স্তরটি সম্পন্ন করে।
মডেল মূল্যায়নের জন্য আপনি কী জানতে চান তার উপর নির্ভর করে বিভিন্ন পদ্ধতি রয়েছে। কোনও মডেলকে মূল্যায়নের জন্য দুটি উপায় রয়েছে: ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে এবং বর্তমান ডেটাতে ফিটের সদ্ব্যবহারের ভিত্তিতে। প্রথম ক্ষেত্রে আপনি জানতে চান যে আপনার মডেলটি পর্যাপ্ত পরিমাণে নতুন ডেটা পূর্বাভাস দেয় কিনা, দ্বিতীয়টিতে আপনি জানতে চান যে আপনার মডেলটি আপনার বর্তমান ডেটাতে সম্পর্কের যথেষ্ট পরিমাণে বর্ণনা করে কিনা। যারা দুটি ভিন্ন জিনিস।
পূর্বাভাসের জন্য ব্যবহৃত মডেলগুলি মূল্যায়নের সেরা উপায় হ'ল ক্রসওয়েডেশন। খুব সংক্ষেপে, আপনি যেমন আপনার ডেটাসেট কাটা। 10 টি আলাদা টুকরো, মডেলটি তৈরি করতে তাদের 9 টি ব্যবহার করুন এবং দশম ডেটাসেটের ফলাফলগুলির পূর্বাভাস দিন। পর্যবেক্ষণকৃত এবং পূর্বাভাসিত মানগুলির মধ্যে একটি সাধারণ গড় স্কোয়ার পার্থক্য আপনাকে পূর্বাভাসের নির্ভুলতার জন্য একটি পরিমাপ দেয়। আপনি যখন এই দশবার পুনরাবৃত্তি করেন, আপনি স্ট্যান্ডার্ড বিচ্যুতি নিয়ে সাধারণ মানটিতে আসতে দশটি পুনরাবৃত্তির মধ্যে গড় বর্গক্ষেত্রের পার্থক্য গণনা করেন। এটি আপনাকে স্ট্যান্ডার্ডস্টিকাল কৌশলগুলি (টি-টেস্ট বা আনোভা) ব্যবহার করে তাদের ভবিষ্যদ্বাণী যথার্থতার সাথে আবার দুটি মডেলের তুলনা করতে দেয়।
থিমের একটি বৈকল্পিক হ'ল প্রেসের মানদণ্ড (স্কোয়ার্সের প্রডিকশন সুম), হিসাবে সংজ্ঞায়িত
কোথায় ওয়াই আমি ( - আমি ) একটি মডেল সব পর্যবেক্ষণ বিয়োগ ith মান উপর ভিত্তি করে ব্যবহার ith পর্যবেক্ষণ জন্য পূর্বাভাস মান। আপনার কাছে খুব বেশি ডেটা না থাকলে এই মানদণ্ডটি বিশেষভাবে কার্যকর। সেক্ষেত্রে আপনার ডেটা ক্রসওয়েডিয়েশন পদ্ধতির মতো বিভক্ত করার ফলে স্থিতিশীল ফিটিংয়ের জন্য খুব ছোট যে উপাত্তগুলি উপস্থ হতে পারে।
আমাকে প্রথমে বলি যে আপনি যে মডেল কাঠামো ব্যবহার করেন তার উপর নির্ভর করে এটি সত্যই পৃথক। উদাহরণস্বরূপ, সম্ভাব্যতা-অনুপাতের পরীক্ষা ত্রুটিগুলির জন্য ক্লাসিক গাউসিয়ান ব্যবহার করার সময় জেনারেলাইজড অ্যাডিটিভ মিক্সড মডেলগুলির পক্ষে কাজ করতে পারে তবে দ্বিপদী রূপের ক্ষেত্রে অর্থহীন।
প্রথমে আপনার কাছে মডেলগুলির তুলনা করার আরও স্বজ্ঞাত পদ্ধতি রয়েছে। আপনি দুটি মডেলের ফিটের সদ্ব্যবহারের তুলনা করতে আপনি আইকে তথ্য মাপদণ্ড (এআইসি) বা বায়সিয়ান ইনফরমেশন মানদণ্ড (বিআইসি) ব্যবহার করতে পারেন। তবে কিছুই আপনাকে জানায় না যে দুটি মডেলই সত্যই পৃথক।
আর একটি হ'ল মল্লোর সিপি মাপদণ্ড। এটি সমস্ত সম্ভাব্য সাবমোডেলগুলি (বা সেগুলির একটি সাবধানে নির্বাচন) এর সাথে মডেলটির সাথে তুলনা করে প্রয়োজনীয়ভাবে আপনার মডেলটিতে সম্ভাব্য পক্ষপাত পরীক্ষা করে। Http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf আরও দেখুন
আপনি যে মডেলগুলির সাথে তুলনা করতে চান সেগুলি যদি নেস্টেড মডেলগুলি হয় (যেমন সমস্ত ভবিষ্যদ্বাণীকারী এবং আরও পার্সিমোনিয়াস মডেলের ইন্টারঅ্যাকশনগুলি আরও সম্পূর্ণ মডেলের মধ্যেও ঘটে), আপনি সম্ভাবনা অনুপাত পরীক্ষার আকারে (বা চি-স্কোয়ার্ড) একটি আনুষ্ঠানিক তুলনা ব্যবহার করতে পারেন বা উপযুক্ত ক্ষেত্রে একটি এফ পরীক্ষা, উদাহরণস্বরূপ যখন কমপক্ষে স্কোয়ার ব্যবহার করে উপযুক্ত লিনিয়ার মডেলগুলির তুলনা করা হয়)। অতিরিক্ত পরীক্ষক বা মিথস্ক্রিয়া সত্যিকারের মডেলটিকে উন্নত করে কিনা তা এই পরীক্ষাটি মূলত নিয়ন্ত্রণ করে। এই মাপদণ্ডটি প্রায়শই সামনে বা পিছনের ধাপের পদ্ধতিতে ব্যবহৃত হয়।
আপনার পক্ষে উকিল রয়েছে এবং আপনার এই পদ্ধতির শত্রু রয়েছে। আমি ব্যক্তিগতভাবে স্বয়ংক্রিয় মডেল নির্বাচনের পক্ষে নই, বিশেষত যখন এটি মডেলগুলি বর্ণনা করার বিষয়ে নয় এবং এটি বেশ কয়েকটি কারণে:
সুতরাং মূলত, আমি আগে থেকে নির্বাচিত মডেলগুলির একটি নির্বাচিত সেট তুলনা করতে আরও দেখতে পাচ্ছি। আপনি যদি মডেলটির পরিসংখ্যানগত মূল্যায়ন এবং অনুমানের পরীক্ষার বিষয়ে চিন্তা না করেন তবে আপনি আপনার মডেলগুলির ভবিষ্যদ্বাণীপূর্ণ যথার্থতার তুলনা করতে ক্রসওয়েডেশন ব্যবহার করতে পারেন।
তবে আপনি যদি ভবিষ্যদ্বাণীপূর্ণ উদ্দেশ্যে ভেরিয়েবল নির্বাচনের পরে থাকেন তবে আপনি সাপোর্ট ভেক্টর মেশিনস, নিউরাল নেটওয়ার্কস, র্যান্ডম অরণ্য এবং পছন্দগুলি মত চলক নির্বাচনের জন্য অন্যান্য পদ্ধতির দিকে নজর দিতে পারেন। এগুলি আরও প্রায়শই উদাহরণস্বরূপ ওষুধে ব্যবহৃত হয় যা নির্ধারণ করে যে হাজার মাপা প্রোটিনগুলির মধ্যে আপনার ক্যান্সার রয়েছে কিনা তা পর্যাপ্ত পরিমাণে পূর্বাভাস দিতে পারে। শুধু একটি (বিখ্যাত) উদাহরণ দিতে:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
এই সমস্ত পদ্ধতিতে ক্রমাগত ডেটার জন্য রিগ্রেশন ভেরিয়েন্ট রয়েছে।
পিছনে বা ফরোয়ার্ড নির্বাচন ব্যবহার করা একটি সাধারণ কৌশল, তবে আমি এটি প্রস্তাব করতে পারি না। এই জাতীয় মডেল বিল্ডিংয়ের ফলাফলগুলি সবই ভুল। পি-মানগুলি খুব কম, গুণাগুলি 0 থেকে দূরে থাকে, এবং অন্যান্য সম্পর্কিত সমস্যা রয়েছে।
যদি আপনাকে অবশ্যই স্বয়ংক্রিয় পরিবর্তনশীল নির্বাচন করতে হয় তবে আমি আরও আধুনিক পদ্ধতি যেমন লাসো বা এলএআরএ ব্যবহার করার পরামর্শ দেব।
আমি "এসএসএস উপস্থাপনা লিখেছিলাম " শিরোনামে "স্টেপওয়াইজ বন্ধ করা: কেন পদক্ষেপ এবং অনুরূপ পদ্ধতি খারাপ এবং আপনার কী ব্যবহার করা উচিত"
তবে, সম্ভব হলে, আমি এই স্বয়ংক্রিয় পদ্ধতিগুলি সম্পূর্ণ এড়িয়ে চলতাম এবং বিষয় দক্ষতার উপর নির্ভর করতাম। একটি ধারণা হ'ল 10 বা তত যুক্তিযুক্ত মডেল তৈরি করা এবং একটি তথ্যের মানদণ্ডের ভিত্তিতে সেগুলি তুলনা করা। @ নিক সাবে তার প্রতিক্রিয়ায় এর বেশ কয়েকটি তালিকাভুক্ত করেছেন।
এর উত্তর আপনার লক্ষ্যের উপর নির্ভর করবে। আপনি পরিসংখ্যানগতভাবে উল্লেখযোগ্য সহগের সন্ধান করতে পারেন, বা নতুন পর্যবেক্ষণগুলির ফলাফলের পূর্বাভাস দেওয়ার সময় আপনি যতটা সম্ভব মিসক্লাসিফিকেশনগুলি এড়িয়ে চলতে পারেন, বা আপনি কমপক্ষে মিথ্যা পজিটিভ সহ মডেলটিতে আগ্রহী হতে পারেন; সম্ভবত আপনি কেবল বক্ররেখাটি চান যা তথ্যের নিকটবর্তী হয় '
উপরের যে কোনও ক্ষেত্রে, আপনি যা খুঁজছেন তার জন্য আপনার কিছু প্রকারের পরিমাপের প্রয়োজন। বিভিন্ন অ্যাপ্লিকেশন সহ কয়েকটি জনপ্রিয় ব্যবস্থা হ'ল এওসি, বিআইসিসি, এআইসি, অবশিষ্টাংশ ত্রুটি, ...
আপনি প্রতিটি মডেলের জন্য আপনার লক্ষ্যটির সাথে সবচেয়ে ভাল মেলে সেই পরিমাপটি গণনা করুন এবং তারপরে প্রতিটি মডেলের জন্য 'স্কোর' তুলনা করুন। এটি আপনার লক্ষ্যের সেরা মডেলের দিকে নিয়ে যায়।
এই কয়েকটি পদক্ষেপের (যেমন এআইসি) মডেলটিতে নানজারো সহগের সংখ্যার উপর অতিরিক্ত চাপ দেয় কারণ অনেকগুলি ব্যবহার করা কেবলমাত্র উপাত্তকে উপকার করতে পারে (যাতে আপনি যদি নতুন ডেটার জন্য এটি ব্যবহার করেন তবে মডেলটি বেহুদা হয়, জনসংখ্যা). কোনও মডেলকে 'যত কম সম্ভব' ভেরিয়েবলগুলি ধরে রাখার জন্য অন্যান্য কারণ থাকতে পারে, উদাহরণস্বরূপ যদি ভবিষ্যদ্বাণীটির জন্য সমস্ত কিছু পরিমাপ করা ব্যয়বহুল হয়। কোনও মডেলটির 'সরলতা' বা 'স্বল্প সংখ্যক ভেরিয়েবল' এর পার্সিমনি হিসাবে সাধারণত উল্লেখ করা হয়।
সুতরাং সংক্ষেপে, একটি পার্সিমোনিয়াস মডেল একটি 'সিম্পল' মডেল, খুব বেশি ভেরিয়েবল ধারণ করে না।
এই ধরণের প্রশ্নগুলির সাথে প্রায়শই, আমি আপনাকে বিষয় এবং সম্পর্কিত বিষয়গুলির গভীরতর তথ্যের জন্য পরিসংখ্যান শিক্ষার দুর্দান্ত বইয়ের উল্লেখ করব ।
আমি এখানে আলোচনাকে আকর্ষণীয় বলে মনে করেছি, বিশেষত পার্সিমোনিয়াস এবং মডেলের মধ্যে আরও সংখ্যার সহগ এবং ভেরিয়েবলগুলির সাথে বিতর্ক।
আমার প্রো। প্রয়াত ডাঃ স্টিভ আরও ভাল ফিট / লার্জ আর ^ 2 এর তুলনায় অন্যান্য মডেলের তুলনায় কম আর ^ 2 দিয়ে পার্সিমোনিয়াস মডেলের উপর জোর দিয়েছিলেন।
সমস্ত মাছের জন্য এখানে ধন্যবাদ!
আকাশ