অনেকগুলি স্বাধীন ভেরিয়েবলের মধ্যে উল্লেখযোগ্য ভবিষ্যদ্বাণীকারী সনাক্ত করা te


31

দুটি অ-ওভারল্যাপিং জনসংখ্যার ডেটাসেটে (রোগী এবং স্বাস্থ্যকর, মোট ) আমি ক্রমাগত নির্ভরশীল ভেরিয়েবলের জন্য ( স্বতন্ত্র ভেরিয়েবলগুলির মধ্যে) উল্লেখযোগ্য ভবিষ্যদ্বাণী খুঁজে পেতে চাই । ভবিষ্যদ্বাণীকারীদের মধ্যে সম্পর্ক রয়েছে। ভবিষ্যদ্বাণীকারীদের মধ্যে কোনও নির্ভরশীল পরিবর্তনশীল "বাস্তবতার সাথে" সম্পর্কিত (নির্ভরশীল ভেরিয়েবলের যথাসম্ভব যথাযথ ভবিষ্যদ্বাণী করার চেয়ে) এর সাথে সম্পর্কিত কিনা তা অনুসন্ধানে আমি আগ্রহী। যেহেতু আমি অসংখ্য সম্ভাব্য পদ্ধতির সাথে অভিভূত হয়েছি, আমি জিজ্ঞাসা করতে চাই যে কোন পদ্ধতির জন্য সর্বাধিক প্রস্তাব দেওয়া হচ্ছে?n=60300

  • আমার বোধগম্যতা থেকে ধাপে ধাপে অন্তর্ভুক্তি বা ভবিষ্যদ্বাণীকারীদের বর্জনীয় নয়

  • যেমন এফডিআর (সম্ভবত খুব রক্ষণশীল?) ব্যবহার করে একাধিক তুলনার জন্য প্রতিটি পূর্বাভাসীর জন্য আলাদাভাবে লিনিয়ার রিগ্রেশন এবং সঠিক পি-মানগুলি চালান

  • অধ্যক্ষ-উপাদানগুলির রিগ্রেশন: ব্যাখ্যা করা শক্ত কারণ আমি পৃথক ভবিষ্যদ্বাণীকারীদের ভবিষ্যদ্বাণীপূর্ণ শক্তি সম্পর্কে তবে কেবলমাত্র উপাদানগুলি সম্পর্কে বলতে পারব না।

  • অন্য কোন পরামর্শ?


আমি শুনেছি যে লোকেরা এই জাতীয় জিনিসগুলি করতে এল 1 নিয়ন্ত্রিত রিগ্রেশন ব্যবহার করে। তবে আমি যথাযথ উত্তর লিখতে যথেষ্ট জানি না ...
কিং

2
সেরা প্রস্তাবনা দেওয়ার জন্য, এটি "গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারীদের" সনাক্ত করার পরে আপনি কীভাবে এগিয়ে যাবেন তা আমাদের জানতে সহায়তা করবে to আপনি কি ফলাফলটি যথাসম্ভব পূর্বাভাস দেওয়ার চেষ্টা করছেন ; এটি পূর্বাভাস দেওয়ার একটি পার্সিমোনীয় উপায়টি আবিষ্কার করুন (উদাহরণস্বরূপ, কে প্রেডিকটারের সেট আপ ব্যবহার করে দক্ষতার সাথে এটি করা হবে; ফলাফলটি "বাস্তবে" কি কারণ ব্যাখ্যা করে; বা অন্য কিছু? এছাড়াও, আপনার ডেটা সেট কত বড়?
রোল্যান্ডো 2

@ রোল্যান্ডো: মন্তব্যের জন্য ধন্যবাদ! আমি প্রশ্নটি আপডেট করেছি: আমার মোট পর্যবেক্ষণের সংখ্যা এন = 60 বিষয়। আমার লক্ষ্য নির্ভরশীল পরিবর্তনশীলটিকে যথাসম্ভব যথাযথ ভবিষ্যদ্বাণী করা নয় বরং ফলাফলটি "বাস্তবে" কী কারণে ঘটেছে তা ব্যাখ্যা করা (= পরের স্টাডিজ / ডেটাসেটগুলিতে নিশ্চিত হওয়া যায় এমন ভেরিয়েবলের মধ্যে সম্পর্কের
সন্ধানের আশা

আমি কিছু ডামি ডেটা সহ একটি ফলো-আপ প্রশ্নও পোস্ট করেছি। আমি সমস্ত ইঙ্গিত জন্য খুব কৃতজ্ঞ হবে। stats.stackexchange.com/questions/34859/…
কৌতুক

উত্তর:


30

আমি লসো নিয়মিতকরণের সাথে একটি গ্ল্যাম চেষ্টা করার পরামর্শ দেব । এটি ভেরিয়েবলের সংখ্যার জন্য মডেলটিতে একটি জরিমানা যুক্ত করে এবং আপনি পেনাল্টিটি বাড়ানোর সাথে সাথে মডেলটিতে ভেরিয়েবলের সংখ্যা হ্রাস পাবে।

পেনাল্টি প্যারামিটারটির মান নির্বাচন করতে আপনার ক্রস-বৈধতা ব্যবহার করা উচিত। আপনার যদি আর থাকে তবে আমি গ্ল্যামনেট প্যাকেজটি ব্যবহার করার পরামর্শ দিচ্ছি । alpha=1লাসো রিগ্রেশন এবং alpha=0রিজ রিগ্রেশন-এর জন্য ব্যবহার করুন । 0 এবং 1 এর মধ্যে একটি মান সেট করা লাসো এবং রিজ পেনাল্টির সংমিশ্রণটি ব্যবহার করবে, এটি ইলাস্টিক নেট হিসাবেও জানে know


4
আমি জাচের সাথে একমত ডেভিড ক্যাসেল এবং আমি এ সম্পর্কে একটি কাগজ লিখেছিলাম, এসএএস-তে মনোনিবেশ করে তবে পুরোপুরি নয়। এটি স্টেপওয়াইজ স্টপিং
পিটার ফ্লুম - মনিকা পুনরায়

1
আমি মনে করি এটি রিজের জন্য 0 এবং লাসোর জন্য 1
কিং

1
@ জাচ: ইঙ্গিতগুলির জন্য ধন্যবাদ কিছু পরীক্ষা-পরিসংখ্যান পাওয়ার উপায় আছে যা আমাকে একক ভবিষ্যদ্বাণীকারীদের তাত্পর্য বিচার করতে দেয়। শেষ পর্যন্ত আমি বলতে সক্ষম হতে চাই "প্রিডেক্টর এক্স নির্ভরশীল পরিবর্তনশীল ওয়াইয়ের সাথে উল্লেখযোগ্যভাবে সম্পর্কিত"।
কৌতুক

2
সিআইএস সম্পর্কিত , এলএএসএসও প্রয়োগকারী আর আর প্যাকেজের ম্যানুয়াল থেকে ( cran.r-project.org/web/packages/penalized/vignettes/… , পৃষ্ঠা 18): "রিগ্রেশন স্ট্যান্ডার্ড ত্রুটি জিজ্ঞাসা করা খুব স্বাভাবিক প্রশ্ন সহগ বা অন্যান্য আনুমানিক পরিমাণ। নীতিগতভাবে এই জাতীয় স্ট্যান্ডার্ড ত্রুটিগুলি সহজেই গণনা করা যায়, যেমন বুটস্ট্র্যাপ ব্যবহার করে Still তবুও, এই প্যাকেজটি ইচ্ছাকৃতভাবে তাদের সরবরাহ করে না for এর কারণ হ'ল দৃ standard় পক্ষপাতমূলক অনুমান যেমন উত্থানের মতো স্ট্যান্ডার্ড ত্রুটিগুলি খুব বেশি অর্থবহ নয় arise দণ্ডিত অনুমান পদ্ধতি থেকে "
মিউরা

2
@ মিউউরা সম্প্রতি চালু হয়েছিল মূল লাসোর লেখকদের দ্বারাও এটির একটি পরীক্ষার পরিসংখ্যান: কাগজ এবং স্লাইড (পড়ার পক্ষে সহজ)
ক্যাম.ড্যাভিডসন।পিলন

23

জাচের উত্তর (+1) প্রসারিত করার জন্য, আপনি লিনিয়ার রিগ্রেশন-এ যদি লাসো পদ্ধতি ব্যবহার করেন তবে আপনি যোগফলটিকে একটি চতুর্ভুজ ফাংশন এবং পরম মান ফাংশনটি হ্রাস করার চেষ্টা করছেন, অর্থাত:

minβ(YXβ)T(YXβ)+i|βi|

প্রথম অংশটি চতুর্ভুজ (নীচে সোনার) এবং দ্বিতীয় অংশটি বর্গাকার আকৃতির বক্ররেখা (নীচে সবুজ)। কালো রেখাটি ছেদ রেখা। βলাসো অবজেক্টিভ ফাংশন

চৌকোটি ও বর্গাকার আকৃতির বক্ররেখার কনট্যুর বক্ররেখা দ্বারা এখানে প্লট করা সর্বনিম্ন ছেদকেন্দ্রের বক্ররেখার উপরে অবস্থিত:

লাসোর কনট্যুর বক্ররেখা

আপনি দেখতে পাচ্ছেন যে সর্বনিম্ন অক্ষের একটিতে রয়েছে, সুতরাং এটি রিগ্রেশন থেকে সেই পরিবর্তনশীলটিকে সরিয়ে দিয়েছে।

রিগ্রেশন এবং ভেরিয়েবল নির্বাচনের জন্য জরিমানা (অন্যথায় লাসো নিয়ন্ত্রণ হিসাবে পরিচিত) ব্যবহার করার জন্য আপনি আমার ব্লগ পোস্টটি চেক করতে পারেন । L1


8
(+1) তবে ব্লগ পোস্টের জন্য যা সত্যিই ভাল। আপনার উত্তরটি কিছুটা হলেও প্রসারিত করতে পারলে ভালো লাগবে, কারণ এটি উপলব্ধ তথ্য অবশিষ্ট থাকার সম্ভাবনা বাড়িয়ে তুলবে।
richiemorrisroe

2

আপনার ভবিষ্যদ্বাণীকারীদের গুরুত্বপূর্ণ হওয়ার সম্ভাবনা সম্পর্কে আপনার পূর্ব বিশ্বাস কী? সম্ভবত সম্ভবত তাদের বেশিরভাগেরই ঠিক শূন্য প্রভাব রয়েছে, বা সমস্ত কিছু ফলাফলকে প্রভাবিত করে, কিছু ভেরিয়েবল অন্যদের চেয়ে কম কম?

এবং কীভাবে স্বাস্থ্যের অবস্থা ভবিষ্যদ্বাণীমূলক কাজের সাথে সম্পর্কিত?

আপনি যদি বিশ্বাস করেন যে কেবলমাত্র কয়েকটি ভেরিয়েবল গুরুত্বপূর্ণ, আপনি স্পাইক এবং স্ল্যাব আগে ব্যবহার করতে পারেন (উদাহরণস্বরূপ আর এর স্পাইকস্ল্যাবগ্যাম প্যাকেজে), বা এল 1। আপনি যদি ভাবেন যে সমস্ত ভবিষ্যদ্বাণীকারী ফলাফলটিকে প্রভাবিত করে, আপনি ভাগ্য থেকে দূরে থাকতে পারেন।

এবং সাধারণভাবে, পর্যবেক্ষণের ডেটা থেকে কার্যকারণ নির্ধারণ সম্পর্কিত সমস্ত সতর্কতা প্রয়োগ হয়।


2

আপনি যাই করুন না কেন, এটি আপনার ডেটাসেটের সাহায্যে সত্যই করতে পারবেন তা দেখানোর জন্য ভবিষ্যদ্বাণীকারীদের গুরুত্বের দিক থেকে বুটস্ট্র্যাপের আত্মবিশ্বাসের ব্যবধানগুলি লাভজনক। আমি সন্দেহবাদী যে কোনও পদ্ধতিই নির্ভরযোগ্যভাবে "সত্য" ভবিষ্যদ্বাণী খুঁজে পেতে পারে।


1

আমি মনে করি ল্যাসো রিগ্রেশন খুব ভাল পারফর্ম করে না যখন , তবে আমি নিশ্চিত নই। আমি মনে করি এই ক্ষেত্রে ইলাস্টিক নেট পরিবর্তনশীল নির্বাচনের জন্য আরও উপযুক্ত।np


এটি সত্য, আরও নির্দিষ্টভাবে যখন এন << পি, এই মূল ইলাস্টিক নেট পেপারটি দেখুন: স্ট্যানফোর্ড.ইডু
~হাসিই

1
যখন এন <পি, লাসো বেশিরভাগ এন ভেরিয়েবল নির্বাচন করে।
মিউরা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.