মডেল নির্বাচন এবং লজিস্টিক রিগ্রেশন মডেল কর্মক্ষমতা


9

মডেল নির্বাচন এবং লজিস্টিক রিগ্রেশনে মডেল কর্মক্ষমতা সম্পর্কে আমার একটি প্রশ্ন আছে। আমার কাছে তিনটি মডেল রয়েছে যা তিনটি পৃথক অনুমানের ভিত্তিতে তৈরি। প্রথম দুটি মডেলের (তাদের নাম জেড এবং এক্স রাখুন) প্রতিটি মডেলে কেবল একটি বর্ণনামূলক পরিবর্তনশীল থাকে এবং তৃতীয়টি (এর নাম ডাব্লু) আরও জটিল। আমি ডব্লিউ মডেলের জন্য পরিবর্তনশীল নির্বাচনের জন্য এআইসি এবং তারপরে এআইসি ব্যবহার করছি তিনটি মডেলের মধ্যে কোনটি নির্ভরশীল ভেরিয়েবলকে সেরা ব্যাখ্যা করে তা তুলনা করার জন্য। আমি খুঁজে পেয়েছি যে ডাব্লু মডেলটির সর্বনিম্ন এআইসি রয়েছে এবং এখন মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তি সম্পর্কে কিছু ধারণা পেতে সেই মডেলটিতে কিছু পারফরম্যান্সের পরিসংখ্যান করতে চাই। যেহেতু আমি জানি কেবলমাত্র এই মডেলটি অন্য দুটি তুলনায় ভাল তবে এটি কতটা ভাল তা নয়।

যেহেতু আমি মডেলটি শিখতে সমস্ত ডেটা ব্যবহার করেছি (সমস্ত তিনটি মডেলের তুলনা করতে সক্ষম হতে) আমি কীভাবে মডেল পারফরম্যান্সের সাথে যেতে পারি? আমি যা জড়ো করেছি তা থেকে আমি এআইসি ব্যবহার করে মডেল নির্বাচন থেকে যে চূড়ান্ত মডেলটি পেয়েছি তার উপরের কে-ফোল্ড ক্রস যাচাই করতে পারি না তবে শুরু থেকেই শুরু করা দরকার সমস্ত ব্যাখ্যামূলক ভেরিয়েবলগুলি অন্তর্ভুক্ত করে, এটি কি সঠিক? আমি ভাবব যে এটি এআইসির সাথে আমি চূড়ান্ত মডেলটি বেছে নিয়েছি যা আমি এটির কতটা ভাল অভিনয় করে তা জানতে চাই, তবে বুঝতে পারি যে আমি সমস্ত ডেটা সম্পর্কে প্রশিক্ষণ নিয়েছি যাতে মডেল পক্ষপাতদুষ্ট হতে পারে। সুতরাং যদি আমার শুরু থেকে সমস্ত ভাগে সমস্ত বর্ণনামূলক ভেরিয়েবলগুলি দিয়ে শুরু করা উচিত তবে আমি কিছু ভাঁজগুলির জন্য বিভিন্ন চূড়ান্ত মডেল পাব, আমি কি কেবল ভাঁজ থেকে মডেলটি বেছে নিতে পারি যা সেরা ভবিষ্যদ্বাণীমূলক শক্তি দিয়েছে এবং এটি তুলনার জন্য সম্পূর্ণ ডেটা সেটটিতে প্রয়োগ করতে পারি? এআইসি আরও দুটি মডেল (জেড এবং এক্স) নিয়েছেন? বা কিভাবে এটি কাজ করে?

আমার প্রশ্নের দ্বিতীয় অংশটি ওভার-প্যারামিটারাইজেশন সম্পর্কে একটি প্রাথমিক প্রশ্ন। আমার 156 ডেটা পয়েন্ট রয়েছে, 52 টি 1 এর বাকী 0 টি। ডাব্লু মডেলের জন্য বেছে নেওয়ার জন্য আমার কাছে 14 টি ব্যাখ্যামূলক ভেরিয়েবল রয়েছে, আমি বুঝতে পেরেছি যে ওভার-প্যারামিটারাইজেশনের কারণে আমি সবগুলিকে অন্তর্ভুক্ত করতে পারি না, আমি পড়েছি যে আপনি কেবলমাত্র কয়েকটি পর্যবেক্ষণের সাথে নির্ভরশীল ভেরিয়েবলের গ্রুপের 10% ব্যবহার করতে পারেন যা শুধুমাত্র আমার জন্য 5 হবে। আমি বাস্তুশাস্ত্রে একটি প্রশ্নের উত্তর দেওয়ার চেষ্টা করছি, আমি কি পরিবেশবিজ্ঞানের ভিত্তিতে নির্ভরশীলকে সর্বোত্তমভাবে ব্যাখ্যা করে বলে মনে করি সেই সূচনা পরিবর্তনগুলি নির্বাচন করা ভাল? বা আমি কীভাবে প্রারম্ভিক বর্ণনামূলক ভেরিয়েবলগুলি বেছে নেব? কিছু ভেরিয়েবল সম্পূর্ণরূপে বাদ দেওয়ার অধিকার বোধ করে না।

সুতরাং আমার সত্যিই তিনটি প্রশ্ন আছে:

  • ক্রস-বৈধতা সহ পুরো ডেটা সেটটিতে প্রশিক্ষিত কোনও মডেলটির পারফরম্যান্স পরীক্ষা করা কি ঠিক হবে?
  • যদি তা না হয় তবে আমি ক্রস-বৈধকরণের সময় কীভাবে চূড়ান্ত মডেলটি বেছে নেব?
  • আমি ওভার-প্যারামিটারাইজ করতে চাইলে কীভাবে আমি প্রারম্ভিক পরিবর্তনগুলি চয়ন করব?

আমার অগোছালো প্রশ্ন এবং আমার অজ্ঞতার জন্য দুঃখিত। আমি জানি যে অনুরূপ প্রশ্ন জিজ্ঞাসা করা হয়েছে তবে তবুও কিছুটা বিভ্রান্তি বোধ হচ্ছে। কোন চিন্তা এবং পরামর্শ প্রশংসা করুন।

উত্তর:


7

এটি সত্য যে আপনার মডেলটিকে বৈধতা দেওয়ার জন্য ডেটার একটি সেট সেট ব্যবহার করা ভাল। যাইহোক, আপনি এখনও বলতে পারেন যে আপনার মডেলটি আপনার ডেটাতে কতটা ভাল পারফর্ম করেছে, যতক্ষণ না আপনি নিজের কাজ সম্পর্কে সৎ হন। আপনি যা করতে পারবেন না তা হ'ল এটি অন্যান্য ডেটাতে এটি ভাল করবে: সম্ভবত এটি হবে না। দুর্ভাগ্যক্রমে, প্রচুর প্রকাশিত নিবন্ধগুলি অন্তত এই ভুল ধারণাটিতে ইঙ্গিত দেয়।

আপনি জিজ্ঞাসা করুন

পরিবেশের উপর ভিত্তি করে নির্ভরশীলকে সর্বোত্তমভাবে ব্যাখ্যা করা শুরু করা পরিবর্তনগুলি নির্বাচন করা কি ঠিক আছে?

এটি কেবল ঠিক আছে তা নয়, এটি কোনও স্বয়ংক্রিয় স্কিমের চেয়েও ভাল। আসলে, এগুলিও চূড়ান্ত পরিবর্তনশীল হতে পারে । এটি নির্ভর করে, কিছুটা ক্ষেত্রে, জ্ঞানের সীমাতে। আপনি কী গবেষণা করছেন সে সম্পর্কে যদি খুব বেশি কিছু না জানা থাকে তবে আরও গবেষণামূলক পদ্ধতির প্রয়োজন হতে পারে। তবে যদি আপনার ভাবার পক্ষে যুক্তিযুক্ত কারণ থাকে যে নির্দিষ্ট ভেরিয়েবলগুলি মডেলটিতে থাকা উচিত, তবে সেগুলি সব উপায়ে রেখে দিন And এবং তাত্পর্যপূর্ণ না হলেও আমি তাদের সেখানে রেখে দেওয়ার পক্ষে যুক্তি দেব।


1

আপনি যদি মডেল নির্বাচন করতে যাচ্ছেন তবে আমি মনে করি আপনি চেরি বাছাইয়ের পরিবর্তে একটি বিস্তৃত অনুসন্ধান করছেন এবং প্রতিটি মডেলকে ওজন করতে আরও ভাল। আপনার কেবলমাত্র 14 টি ভেরিয়েবল রয়েছে যা অবশ্যই কার্যকরভাবে সম্ভব - 16384 বিভিন্ন মডেল নিষিদ্ধ আকারে বড় নয়, বিশেষত নমুনার আকার ছোট হওয়ার কারণে। আমি সাধারণ ওজনগুলিও দেখব, এটি দ্বারা সংজ্ঞায়িত:

Wমি=[Σমেপুঃ(-12[একজনআমিসি-একজনআমিসিমি])]-1

এই ওজনগুলি ধরে নেওয়া হয় যে এআইসি লগ হওয়ার সম্ভাবনার দ্বিগুণ এবং বেতার সংখ্যার দ্বিগুণ negativeণাত্মক। সেরা মডেলটির ওজন যদি কাছাকাছি থাকে1তাহলে শুধু এটি ব্যবহার করুন। অন্যথায় মোট ফলাফলের সাথে মোট ওজন সহ মোট ফলাফলগুলি আপনার গড় গড় উচিত1। সাধারণত যেটি ঘটে তা হ'ল একটি "কোর" গ্রুপটি সর্বদা অন্তর্ভুক্ত করা উচিত, একটি "নন-কোর" সেট নিয়ে অনিশ্চয়তা এবং তৃতীয় সেট অ-গুরুত্বহীন ভেরিয়েবল যা উচ্চ ওজনযুক্ত মডেলগুলিতে কখনই উপস্থিত হয় না।

ওআইসিটিকে বিআইসির সাথে বা অন্য কোনও জরিমানা ভিত্তিক আইসি প্রতিস্থাপন করতে পারে তা বোঝার জন্য যে ওজন ব্যবহৃত নির্দিষ্ট জটিলতার জরিমানার উপর কতটা নির্ভর করে।


সমস্ত সম্ভাব্য মডেলগুলিতে এআইসি ব্যবহার করা চূড়ান্ত বহুগুণ সহ একটি প্রক্রিয়া যার জন্য আমি অভিনয়টি সম্পর্কে অবাক হই। বিস্তৃত সাধারণতায় কথা বলার ক্ষেত্রে এটিকে পরিবর্তনশীল নির্বাচনের সমস্যা হিসাবে বিবেচনা করা বরং শাস্তি হিসাবে সংকোচনের সমস্যা হিসাবে বিবেচনা করা সর্বদা যৌক্তিক নয়।
ফ্র্যাঙ্ক হ্যারেল

এমন কোনও প্রক্রিয়া রয়েছে যার মডেল নির্বাচনের ক্ষেত্রে চূড়ান্ত গুণ রয়েছে? আপনি একটি বিরাট বিচ্ছিন্ন স্থান নিয়ে কাজ করছেন - এটি অবিচ্ছিন্নভাবে অনেকগুলি তুলনা করে of আমি মনে করি মডেলগুলির উপর অন্তর্নিহিত পূর্বে যুক্তিসঙ্গত একটি কিনা প্রশ্নটি আরও বেশি।
সম্ভাব্যতা ব্লগ

ভাল করা. তবে আমি বেশিরভাগ মডেল নির্বাচনের অনুশীলনকে অপ্রয়োজনীয় (অর্থাত্ পার্সিমনি আপনার বন্ধু নয়) হিসাবে মনে করি এবং মোটেই কোনও প্রিয়ার না থাকার ফলস্বরূপ।
ফ্র্যাঙ্ক হ্যারেল

আমি এটিও সম্মত করি, আমি মনে করি মডেল কাঠামোর ইস্যুগুলির জন্য বেইস ফ্যাক্টরগুলি সর্বোত্তমভাবে ব্যবহৃত হয় যেমন উদাহরণস্বরূপ সাধারণ বা টি বিতরণ ব্যবহার করা যায় কিনা। এগুলি কোভারিয়েট নির্বাচনের জন্য অকেজো নয়, তবে সঙ্কুচিত হওয়ার তুলনায় অদক্ষ।
সম্ভাব্যতা ব্লগ

আমার দেরী মন্তব্যের জন্য দুঃখিত, তবে আপনি কি আর এ এ গণনা করার কোন সহজ উপায় সম্পর্কে জানেন? আমার কাছে AIC: গুলি রয়েছে একটি তালিকা বা ম্যাট্রিক্সে। আমি আর এ মোটামুটি নতুন তাই যে কোনও জটিল ফাংশন বিল্ডিং শক্ত। ধন্যবাদ!
মেল

0

উত্তর দেওয়ার জন্য "ক্রস-বৈধকরণের সাথে সম্পূর্ণ ডেটা সেটটিতে প্রশিক্ষিত কোনও মডেলটির পারফরম্যান্স পরীক্ষা করা কি ঠিক হবে?" না, আমি মনে করি এটি ঠিক আছে। আপনার ডেটাসেটের একই উপসেটটিতে আপনার সমস্ত 3 টি মডেল ফিট করা উচিত। তারপরে কোনটি আরও ভাল তা দেখার জন্য ক্রস-বৈধকরণ করুন।


1
সুতরাং আমি যদি আপনাকে সঠিকভাবে বুঝতে পারি তবে আমার কেবল সমস্ত মডেলের জন্য একটি প্রশিক্ষণ এবং একটি পরীক্ষার সেট ব্যবহার করা উচিত? আমি তখনও শেষ মডেলটির জন্য আমার 5 ভেরিয়েবলগুলি ব্যবহার করতে পারি বা এটি অতিরিক্ত পরামিতিগুলির জন্য ঝুঁকিপূর্ণ? এবং এটি কেবল একটি প্রশিক্ষণ এবং পরীক্ষার সেট নিয়ে ঝুঁকিপূর্ণ নয় - যেহেতু আমার যে আপেক্ষিক সামান্য তথ্যের সাথে এই বিভাজনটি হবে তার উপর নির্ভর করে এটি অনেক বেশি - বা উদ্বেগের কিছু নেই? অন্যথায় এটি অনুভব করে না যে এটি করার সবচেয়ে সঠিক উপায়।
মেল

0

ক্রস-বৈধতা সহ পুরো ডেটা সেটটিতে প্রশিক্ষিত কোনও মডেলটির পারফরম্যান্স পরীক্ষা করা কি ঠিক হবে?

আমি মনে করি না. বারবার ক্রস বৈধতা ব্যবহার করে তিনটি মডেলের প্রতিটি মূল্যায়ন করার জন্য সম্ভবত আরও ভাল পদ্ধতি হবে। প্রদত্ত পূর্বের জ্ঞানের উপর ভিত্তি করে আপনি আপনার বৈশিষ্ট্যগুলি বেছে নিয়েছেন আপনাকে বৈশিষ্ট্য নির্বাচনের বিষয়ে চিন্তা করার দরকার নেই। এই পদ্ধতিটি আপনাকে মডেলের কর্মক্ষমতা মূল্যায়ন করতে দেয় to

যদি তা না হয় তবে আমি ক্রস-বৈধকরণের সময় কীভাবে চূড়ান্ত মডেলটি বেছে নেব?

একবার আপনি পুনরায় ক্রস-বৈধতা ব্যবহার করে আপনার মডেলটির পারফরম্যান্সটি মূল্যায়ন করার পরে আপনি সমস্ত উপলব্ধ ডেটা ব্যবহার করে চূড়ান্ত মডেলটিকে প্রশিক্ষণ দিতে পারেন।

আমি ওভার-প্যারামিটারাইজ করতে চাইলে কীভাবে আমি প্রারম্ভিক পরিবর্তনগুলি চয়ন করব?

যদি আমি সঠিকভাবে বুঝতে পারি: উপরের কোনও অনুগ্রহকারীর পরামর্শ অনুসারে আপনি হয় অঞ্চলটির পূর্বের জ্ঞাততার উপর ভিত্তি করে আপনার বৈশিষ্ট্যগুলিতে যুক্ত করতে পারেন অন্যথায় ওভারফিটিং এড়াতে আপনার ক্রস-বৈধকরণের মধ্যে বৈশিষ্ট্য নির্বাচন করতে হবে। চূড়ান্ত মডেলটির প্রশিক্ষণ দেওয়ার সময় এই একই বৈশিষ্ট্য নির্বাচন পদ্ধতিটি সমস্ত ডেটাতে প্রয়োগ করা হবে। আপনি মডেলটির সাধারণ সম্পাদিত পারফরম্যান্সের প্রতিবেদন করতে এই মডেলটি ব্যবহার করতে পারবেন না, এটি অবশ্যই ক্রস-বৈধকরণের প্রাক্কলন থেকে আসা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.