পদক্ষেপে লজিস্টিক রিগ্রেশন এবং নমুনা


13

আমি এসপিএসএসে ডেটা সেট করে স্টেপওয়াইজ লজিস্টিক রিগ্রেশন ফিটিং করছি। পদ্ধতিতে, আমি আমার মডেলটিকে প্রায় এলোমেলো উপসেটে ফিট করছি। মোট নমুনার 60%, যা প্রায় 330 টি ক্ষেত্রে।

যা আমি আকর্ষণীয় মনে করি তা হ'ল আমি যখনই আমার ডেটা পুনরায় নমুনা করি তখন আমি চূড়ান্ত মডেলটিতে বিভিন্ন পরিবর্তনশীল পপ করে আসছি। কয়েকটি ভবিষ্যদ্বাণীকারী সর্বদা চূড়ান্ত মডেলটিতে উপস্থিত থাকে, তবে অন্যরা নমুনার উপর নির্ভর করে পপ ইন এবং আউট করে।

আমার প্রশ্ন এই। এই হ্যান্ডেল করার সেরা উপায় কি? আমি ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির একত্রিতকরণটি দেখার আশা করছিলাম, তবে এটি হয় না। কিছু মডেল অপারেশনাল ভিউ থেকে অনেক বেশি স্বজ্ঞাত ধারণা দেয় (এবং সিদ্ধান্ত গ্রহণকারীদের কাছে ব্যাখ্যা করা আরও সহজ হবে) এবং অন্যরা ডেটা কিছুটা আরও ভাল ফিট করে।

সংক্ষেপে, যেহেতু ভেরিয়েবলগুলি চারপাশে বদলে যাচ্ছে, আপনি কীভাবে আমার পরিস্থিতি মোকাবেলার পরামর্শ দিবেন?

অগ্রিম ধন্যবাদ.

উত্তর:


16

আপনি যদি পদক্ষেপের পদ্ধতি ব্যবহার করতে চলেছেন তবে পুনরায় নমুনা দেবেন না। একবার এবং সবার জন্য একটি করে এলোমেলো সাবসামেল তৈরি করুন। এটিতে আপনার বিশ্লেষণ সম্পাদন করুন। আউট-আউট ডেটার বিপরীতে ফলাফলগুলি বৈধ করুন। এটি সম্ভবত বেশিরভাগ "উল্লেখযোগ্য" ভেরিয়েবলগুলি উল্লেখযোগ্য না হয়ে দেখা দেয় turn

( 12/2015 সম্পাদনা করুন: আপনি পুনরায় মডেলিং, পদক্ষেপের পদ্ধতি পুনরাবৃত্তি করে এবং পুনরায় যাচাইকরণের মাধ্যমে সত্যই সাধারণ পদ্ধতির বাইরে যেতে পারেন: এটি আপনাকে ক্রস-বৈধকরণের আকারে নিয়ে যাবে But তবে এ ক্ষেত্রে আরও পরিবর্তনশীলের অত্যাধুনিক পদ্ধতিগুলি রিজ রিগ্রেশন, লাসো এবং ইলাস্টিক নেট এর মতো নির্বাচনটি ধাপে ধাপে রিগ্রেশন করার চেয়ে পছন্দনীয়)

যে ভেরিয়েবলগুলি বোধগম্য হয় তার উপর ফোকাস করুন, যা ডেটা আরও ভাল ফিট করে। 330 রেকর্ডের জন্য যদি আপনার হাতে কয়েক মুখ্য ভেরিয়েবল থাকে তবে আপনার পক্ষে প্রথম স্থানে ওভারফিট করার ঝুঁকি রয়েছে। পদক্ষেপের প্রতিরোধের জন্য মোটামুটি তীব্র প্রবেশ এবং ছেড়ে যাওয়ার মাপদণ্ড ব্যবহার করার বিষয়ে বিবেচনা করুন। এফ টেস্ট বা টি পরীক্ষার জন্য থ্রেশহোল্ডগুলির পরিবর্তে এটি এআইসি বা তে বেস করুন ।CpFt

(আমি মনে করি আপনি স্বাধীন ভেরিয়েবলগুলির যথাযথ পুনঃপ্রকাশগুলি সনাক্তকরণের জন্য ইতিমধ্যে বিশ্লেষণ এবং অনুসন্ধান চালিয়ে গিয়েছেন, যে আপনি সম্ভবত কার্যকর মিথস্ক্রিয়া সনাক্ত করেছেন এবং আপনি যে প্রতিষ্ঠিত করেছেন যে নির্ভরশীল ভেরিয়েবলের লগাইটের মধ্যে সত্যই একটি লিনিয়ার সম্পর্ক রয়েছে) এবং নিবন্ধকগণ। যদি তা না হয় তবে এই প্রয়োজনীয় প্রাথমিক কাজটি করুন এবং কেবল তখনই ধাপে ধাপে ফিরে আসুন।)

আমি যেমন দিয়েছি যেমন জেনেরিক পরামর্শ অনুসরণ সম্পর্কে সতর্ক থাকুন: --)। আপনার পদ্ধতির বিশ্লেষণের উদ্দেশ্য (ভবিষ্যদ্বাণী? বহির্মুখী? বৈজ্ঞানিক বোঝাপড়া? সিদ্ধান্ত গ্রহণ?) এর পাশাপাশি তথ্যের প্রকৃতি, ভেরিয়েবলের সংখ্যা ইত্যাদির উপর নির্ভর করা উচিত approach


2
মডেল ব্যাখ্যার গুরুত্ব তুলে ধরার জন্য +1। আমি আরও জটিল ক্রস-বৈধকরণ প্রকল্পগুলির সাথে অজ্ঞাততর এমএল পদ্ধতির (বা গোছানো পদ্ধতিগুলি) সম্পর্কে কিছুই যুক্ত করব না, কারণ আমি অনুভব করেছি যে আপনি ইতিমধ্যে এখানে যা বলেছেন তা বোঝা যাচ্ছে: (1) পুনর্নির্মাণের মাধ্যমে বৈশিষ্ট্য নির্বাচন বিচ্ছিন্নতার মধ্যে খুব কমই ব্যাখ্যাযোগ্য (যেমন, একের পর এক ফলাফলের তুলনা করে) এবং (২) এগুলি সমস্ত কিছু নির্ভর করে যদি আমরা কোন ভবিষ্যদ্বাণীমূলক বা ব্যাখ্যামূলক মডেল খুঁজছি।
chl

আপনার অন্তর্দৃষ্টি জন্য ধন্যবাদ। আমি আমার অনুসন্ধানের স্থানটি সংকীর্ণ করতে কিছু প্রাক-স্ক্রিনিং করেছি এবং কেবলমাত্র কয়েকটি সংখ্যক ভেরিয়েবলগুলির সাথে পূর্বাভাসের জন্য সেরা মডেলটি সন্ধান করতে চাই। আমি মডেলটিতে কেবল 7 ভবিষ্যদ্বাণী নিক্ষেপ করছি, যা আমি এটি বুঝতে পারি ঠিক আছে be আমি একটি নমুনা দিয়ে লেগে থাকার ধারণাটি বুঝতে পারি, তবে ফ্লিপ দিকে, আমার মডেলটি মূলত আলাদা ছিল এবং ফলাফলগুলি সম্পূর্ণ নমুনা-নির্ভর, যা আমাকে বিরতি দেয়।
বিটিবার্ট 3

@ বিটিবার্ট ৩ রাইট: যখন আপনার ডেটাগুলির এলোমেলো উপগ্রহগুলির মধ্যে ফলাফলগুলি পৃথক হয়, আপনি স্বাধীন ভেরিয়েবলগুলি স্বাধীন ভেরিয়েবলের শক্তিশালী বা ধারাবাহিক ভবিষ্যদ্বাণীকারী নন বলে প্রমাণ হিসাবে গ্রহণ করতে পারেন।
শুক্রবার

12

একটি গুরুত্বপূর্ণ প্রশ্ন হ'ল "কেন আপনি কম কয়েকটি ভেরিয়েবলের সাথে একটি মডেল কেন সম্ভব চান?" যদি আপনি আপনার মডেলটির অপারেশনাল ব্যবহারের জন্য ডেটা সংগ্রহের ব্যয়কে হ্রাস করতে যথাসম্ভব কয়েকটি ভেরিয়েবল রাখতে চান, তবে হুইবার এবং এমবিকিউ দ্বারা প্রদত্ত উত্তরগুলি একটি দুর্দান্ত শুরু।

যদি ভবিষ্যদ্বাণীমূলক পারফরম্যান্স যা গুরুত্বপূর্ণ তা হ'ল, তবে আপনি সম্ভবত কোনও বৈশিষ্ট্য নির্বাচন না করেই সম্ভবত আরও ভাল এবং এর পরিবর্তে নিয়মিত লজিস্টিক রিগ্রেশন (সিএফ রিজ রিগ্রেশন) ব্যবহার করুন। প্রকৃতপক্ষে যদি ভবিষ্যদ্বাণীমূলক পারফরম্যান্সটি প্রাথমিক গুরুত্ব ছিল, তবে আমি একটি ছোট ডেটাসেটের অতিরিক্ত ওজন এড়াতে "বেল্ট-অ্যান্ড-ব্রেসেস" কৌশল হিসাবে ব্যাগযুক্ত নিয়মিত লজিস্টিক রিগ্রেশন ব্যবহার করব। রিগ্রেশন সাবটেল সিলেকশন সম্পর্কিত তাঁর বইয়ের মিলার পরিশিষ্টে এই পরামর্শটি বেশিরভাগই দিয়েছেন এবং আমি এটি বেশিরভাগ বৈশিষ্ট্যযুক্ত সমস্যা এবং খুব বেশি পর্যবেক্ষণ নয় এমন সমস্যার জন্য দুর্দান্ত পরামর্শ বলে মনে করেছি।

যদি ডেটা বোঝা গুরুত্বপূর্ণ হয়, তবে ভবিষ্যদ্বাণী করার জন্য ব্যবহৃত মডেলটিকে ডেটা বোঝার জন্য প্রয়োজন হবে না। সেক্ষেত্রে আমি অনেকবার ডেটা পুনরায় নমুনা করতাম এবং নমুনাগুলির মধ্যে নির্বাচিত ভেরিয়েবলগুলির ধরণগুলি দেখতে পেতাম যে কোন ভেরিয়েবলগুলি তথ্যবহুল ছিল (এমবিকিউ অনুসারে, যদি বৈশিষ্ট্য নির্বাচনটি অস্থির হয় তবে কোনও একক নমুনা পুরো চিত্র দেয় না), তবে আমি ভবিষ্যদ্বাণীগুলির জন্য ব্যাগযুক্ত নিয়মিত লজিস্টিক রিগ্রেশন মডেলটিকে ব্যবহার করব।


1
পয়েন্টার নিয়মিত লজিস্টিক রিগ্রেশন করার জন্য +1। যদিও এটি "অসম্পূর্ণভাবে" অনেক সময় "ডেটা" পুনর্নির্মাণের সময় "প্যাটার্নগুলিতে" কীভাবে রুপান্তরিত হতে পারে তা অস্পষ্ট look এটি অনেকটা ডাটা স্নোপিংয়ের মতো শোনাচ্ছে এবং তাই হতাশা এবং ত্রুটির কারণ হতে পারে বলে মনে হয়।
whuber

5
বৈশিষ্ট্য নির্বাচন যখন নির্বাচন অস্থির হয় তখন সর্বদা হতাশা এবং ত্রুটির একটি রেসিপি হয়ে থাকবে। কেবলমাত্র একটি নমুনা ব্যবহার হতাশাকে হ্রাস করে, তবে ত্রুটির সম্ভাবনা বাড়ে কারণ এটি আপনাকে যে নির্দিষ্ট নমুনায় দেখেন তার উপর ভিত্তি করে সমস্যার জন্য প্রাসঙ্গিক বৈশিষ্ট্যগুলি সম্পর্কে সন্ধান করতে উত্সাহিত করে - যা ওভার- মানানসই. পুনরায় স্যাম্পলিং আপনাকে বৈশিষ্ট্য নির্বাচনের অনিশ্চয়তার ধারণা দেয় - যা প্রায়শই গুরুত্বপূর্ণ। এক্ষেত্রে পর্যাপ্ত তথ্য নেই বলে প্রাসঙ্গিক বৈশিষ্ট্যগুলি সম্পর্কে আমাদের কোনও দৃ strong় সিদ্ধান্ত নেওয়া উচিত নয়।
ডিকরান মার্শুপিয়াল

ভাল যুক্তি; আমি ঘৃণা করি যখন লোকেরা কেবল পুনরায় মডেলিংয়ের অর্থ গণনা করে, এটি এমন অপচয়।

10

সাধারণভাবে, বৈশিষ্ট্য নির্বাচনের দুটি সমস্যা রয়েছে:

  • সর্বনিম্ন অনুকূল , যেখানে আপনি ভেরিয়েবলের ক্ষুদ্রতম সেটগুলির সন্ধান করেন যা আপনাকে ক্ষুদ্রতম ত্রুটি দেয়
  • সমস্ত প্রাসঙ্গিক , যেখানে আপনি কোনও সমস্যায় প্রাসঙ্গিক সকল ভেরিয়েবলের সন্ধান করেন

ভবিষ্যদ্বাণীকারী নির্বাচনের রূপান্তরটি সমস্ত প্রাসঙ্গিক সমস্যার একটি ডোমেনে, যা নরক শক্ত এবং সুতরাং লজিস্টিক রিগ্রেশন, ভারী গণনা এবং খুব যত্নশীল চিকিত্সার চেয়ে অনেক বেশি শক্তিশালী সরঞ্জাম প্রয়োজন।

তবে মনে হচ্ছে আপনি প্রথম সমস্যাটি করছেন, তাই আপনার এই সম্পর্কে চিন্তা করা উচিত নয়। আমি সাধারণত দ্বিতীয় whuber এর উত্তর করতে পারেন, কিন্তু আমি যে দাবি পুনরায় মডেলিং ড্রপ করা উচিত তার সাথে আমি একমত নই - এখানে বৈশিষ্ট্য নির্বাচন স্থিতিশীল করার পদ্ধতি হবে না, তবে তবুও এটি মিলিত বৈশিষ্ট্য নির্বাচন + প্রশিক্ষণের পারফরম্যান্স অনুমান করার জন্য একটি সিমুলেশন হবে , সুতরাং আপনাকে আপনার নির্ভুলতার আত্মবিশ্বাসের অন্তর্দৃষ্টি দেবে।


+1 আমি আশঙ্কা করি যে প্রচুর পুনরায় মডেলিং কেবল বিভ্রান্ত ও বিভ্রান্তিমূলক হবে। ক্রস বৈধকরণ বা যাচাইকরণের জন্য একটি হোল্ড-আউট নমুনার মাধ্যমে নিয়ন্ত্রিত উপায়ে পুনরায় মডেলিং করা অবশ্যই সমস্যাযুক্ত নয়।
whuber

6

আপনি জেআর স্ট্যাটিস্টে মিনশাউসেন এবং বুহলম্যানের কাগজ স্থিতিশীলতা নির্বাচনের দিকে নজর দিতে পারেন। সোক বি (2010) 72 পার্ট 4, এবং এর পরে আলোচনা। আপনি বারবার এলোমেলোভাবে আপনার ডেটা পয়েন্টগুলির সেটটিকে দুটি ভাগে ভাগ করে এবং প্রতিটি অর্ধেকের বৈশিষ্ট্যগুলি অনুসন্ধান করার পরে কি হয় তা তারা বিবেচনা করে। এক অর্ধেকের মধ্যে আপনি যা দেখেন তা অন্য অর্ধের সাথে আপনি যা দেখেন তার চেয়ে আলাদা তা ধরে নিয়ে আপনি মিথ্যা বাছাই করা ভেরিয়েবলের প্রত্যাশিত সংখ্যার সীমা প্রমাণ করতে পারবেন।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.