পদক্ষেপের প্রতিরোধের আধুনিক, সহজেই ব্যবহৃত বিকল্পগুলি কী কী?


76

আমার প্রায় 30 টি স্বাধীন ভেরিয়েবল সহ একটি ডেটাসেট রয়েছে এবং তাদের এবং নির্ভরশীল ভেরিয়েবলের মধ্যে সম্পর্কটি অনুসন্ধান করার জন্য একটি জেনারেলাইজড লিনিয়ার মডেল (জিএলএম) তৈরি করতে চাই।

আমি সচেতন যে এই পরিস্থিতির জন্য আমাকে যে পদ্ধতিটি শিখানো হয়েছিল, ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে বাড়ানো হয় তা এখন পরিসংখ্যানগত পাপ বলে বিবেচিত হয় ।

এই পরিস্থিতিতে মডেল নির্বাচনের আধুনিক পদ্ধতিগুলি কী ব্যবহার করা উচিত?


4
অন্যান্য ব্যক্তিরা পরিসংখ্যানগত পদ্ধতিগুলি উল্লেখ করেছেন যা সহায়ক হতে পারে তবে আমি প্রথমে আপনাকে জিজ্ঞাসা করব ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং আকার সম্পর্কে আপনার কোনও তত্ত্ব আছে কিনা। আপনার নমুনা কত বড়? জটিল মডেলগুলি এড়াতে আপনার কি কারণ আছে?
মাইকেল বিশপ

2
প্রাক-পরীক্ষার পক্ষপাতিত্ব সমস্যা এবং মিস-স্পেসিফিকেশন সমস্যাগুলির বিরুদ্ধে লড়াইয়ের বিকল্প হিসাবে কেউ কি মডেলকে গড় হিসাবে বিবেচনা করেছেন? মোটামুটিভাবে সমস্ত ভেরিয়েবলগুলি বলা সম্ভাব্য ভবিষ্যদ্বাণীকারী এবং আপনি তাদের কার্যকর হওয়ার সম্ভাবনাটি অনুমান করতে পারেন। সুতরাং সম্মিলিত অনুমানক কেবল পূর্বাভাসের কর্মক্ষমতা উন্নত করে না, "স্কোপ" এর অধীনে ভেরিয়েবলগুলির পরামিতিগুলির জন্য ভাল বৈশিষ্ট্য অনুমানও উত্পাদন করে।
দিমিত্রিজ সেলভ

1
সংকোচন। আর কেউ পদক্ষেপের চেয়ে বেশি ব্যবহার করবেন না, আশা করি
আকসাকাল

উত্তর:


56

স্টেপওয়াইজ রিগ্রেশন- এর বিভিন্ন বিকল্প রয়েছে । সর্বাধিক ব্যবহৃত আমি হ'ল:

  • মডেলটিতে কোন ভেরিয়েবল অন্তর্ভুক্ত করা উচিত তা সিদ্ধান্ত নিতে বিশেষজ্ঞের মতামত
  • আংশিক স্বল্প স্কোয়ারস রিগ্রেশন । আপনি মূলত সুপ্ত ভেরিয়েবলগুলি পান এবং তাদের সাথে একটি রিগ্রেশন করেন। আপনি নিজে পিসিএও করতে পারেন এবং তারপরে মূল ভেরিয়েবলগুলি ব্যবহার করতে পারেন।
  • সর্বনিম্ন সঙ্কুচিত সংকোচন এবং নির্বাচন অপারেটর (ল্যাসো)।

পিএলএস রিগ্রেশন এবং ল্যাসো উভয়ই আর প্যাকেজগুলিতে প্রয়োগ করা হয়

পিএলএস : http://cran.r-project.org/web/packages/pls/ এবং

লারস : http://cran.r-project.org/web/packages/lars/index.html

আপনি যদি কেবলমাত্র আপনার নির্ভরশীল পরিবর্তনশীল এবং স্বতন্ত্র ভেরিয়েবলের মধ্যে সম্পর্কটি অনুসন্ধান করতে চান (উদাহরণস্বরূপ আপনার পরিসংখ্যানগত তাত্পর্য পরীক্ষা করার দরকার নেই), আমি র্যান্ডম অরণ্য বা শ্রেণিবিন্যাস / রেগ্রেশন ট্রিগুলির মতো মেশিন লার্নিং পদ্ধতিরও সুপারিশ করব । এলোমেলো বনগুলিও আপনার নির্ভরশীল এবং স্বতন্ত্র ভেরিয়েবলের মধ্যে জটিল অ-লিনিয়ার সম্পর্ক আনুমানিক করতে পারে, যা লিনিয়ার কৌশল দ্বারা প্রকাশিত নাও হতে পারে ( লিনিয়ার রিগ্রেশনের মতো )।

মেশিন লার্নিংয়ের একটি ভাল সূচনা পয়েন্ট CRAN এ মেশিন লার্নিং টাস্ক ভিউ হতে পারে:

মেশিন লার্নিংয়ের কার্য দেখুন : http://cran.r-project.org/web/views/MachineLearning.html


10
গ্ল্যামনেট প্যাকেজটি লাসোর একটি খুব দ্রুত বাস্তবায়ন
ডেভিড জে হ্যারিস

2
আমি সতর্ক করে দিয়েছিলাম যে সুপ্ত পরিবর্তনশীল সম্প্রদায়ের মধ্যে, পিএলসারগুলি তাদের নিজস্ব একটি খুব বিচ্ছিন্ন চক্র গঠন করে এবং গুরুতর সাহিত্যকে কখনই প্রবেশ করতে সক্ষম হয় নি (যার অর্থ, উদাহরণস্বরূপ, মাইকেলের রচনায় ন্যূনতম স্কোয়ার অনুমানকারীগুলির অ্যাসিপটোটিক তত্ত্ব) ব্রাউন, পিটার বেন্টলার, অ্যালবার্ট স্যাটোরা এবং অ্যালেক্স শাপিরো এবং কেন বোলনের সবচেয়ে গুরুত্বপূর্ণ কয়েকটি ব্যক্তির নামকরণের জন্য যন্ত্রের পরিবর্তনশীল মডেলিং)। আশ্চর্যজনক হলেও, পিএলএস হ'ল পরিসংখ্যান চেনাশোনাগুলিতে একটি গ্রহণযোগ্য পদ্ধতি বলে মনে হচ্ছে, যা সাধারণত সুপ্ত পরিবর্তনশীল মডেলিং সম্প্রদায়ের তুলনায় কঠোরতার উচ্চতর মানকে সমর্থন করে।
স্টাসকে

6
পরিসংখ্যান শেখার উপাদানসমূহ differend পরিবর্তনশীল নির্বাচন এবং সংকোচন পদ্ধতি একটি তুলনামূলক আছে: (OLS ঔজ্জ্বল্যের প্রেক্ষাপটে,) সেরা উপসেট, সেতুবন্ধ, Lasso, Pls, পিসিআর।
সিবিলেট


16

মডেলের গড়পড়তা উপায় হল একটি উপায় (একটি তথ্য-তাত্ত্বিক পদ্ধতির)। আর প্যাকেজ গ্লমুলটি প্রিডেক্টর ভেরিয়েবলের প্রতিটি সংমিশ্রনের জন্য রৈখিক মডেলগুলি সম্পাদন করতে পারে এবং এই ফলাফলগুলির জন্য গড় মডেল সম্পাদন করতে পারে।

Http://sites.google.com/site/mcgillbgsa/workshops/glm মাল্টি দেখুন

আগে প্রডেক্টর ভেরিয়েবলের মধ্যে কোলাইনারিটি তদন্ত করতে ভুলবেন না। ভেরিয়েন্স ইনফ্লেশন ফ্যাক্টর (আর প্যাকেজ "গাড়ী" এ উপলব্ধ) এখানে দরকারী।


ধন্যবাদ। এটি কি সত্যিই সমস্ত সম্ভাব্য মডেলের সাথে খাপ খায়? এমনকি মিথস্ক্রিয়া ছাড়াই যে এক্ষেত্রে প্রায় এক বিলিয়ন মডেল।
পিটার এলিস

আফাইক এটি পারে তবে একটি জেনেটিক অ্যালগরিদম বিকল্প রয়েছে যা সমস্ত মডেলের মূল্যায়ন করতে সময় কমিয়ে দেয়। Www.jstatsoft.org/v34/i12/paper
অলিপি

3
এছাড়াও MuMIn, AICcmodavgপ্যাকেজগুলি, যদিও glmultiবড় মডেলের সেট সম্পর্কে চতুর।
বেন বলকার

8

@ জোহানেস একটি দুর্দান্ত উত্তর দিয়েছেন। আপনি যদি SAS ব্যবহারকারী হন, তবে লাসো PROC GLMSELECT এর মাধ্যমে এবং আংশিক ন্যূনতম স্কোয়ারগুলি PROC PLS এর মাধ্যমে উপলব্ধ।

ডেভিড ক্যাসেল এবং আমি লাসো (এবং অন্তত অ্যাঙ্গেল রিগ্রেশন) সম্পর্কে কয়েকটি এসএএস ব্যবহারকারী গ্রুপে একটি উপস্থাপনা করেছি। এটি এখানে উপলব্ধ


7

আকর্ষণীয় আলোচনা। পরিসংখ্যানগত পাপ হিসাবে ধাপে ধাপে সংক্ষিপ্তকরণকে লেবেল দেওয়া একটি ধর্মীয় বিবৃতি - যতক্ষণ না কেউ জানেন যে তারা কী করছে এবং অনুশীলনের উদ্দেশ্যগুলি সুস্পষ্ট, এটি অবশ্যই তার নিজস্ব অনুমানের একটি সূক্ষ্ম পদ্ধতির এবং অবশ্যই এটি পক্ষপাতদুষ্ট, এবং অনুকূলতার গ্যারান্টি দেয় না, তবুও, আমরা অন্যান্য অনেক কাজ সম্পর্কে একই কথা বলা যেতে পারে। আমি সিসিএ উল্লেখ করে দেখিনি, যা কোভেরিয়েট স্পেসের পারস্পরিক সম্পর্কের আরও মৌলিক সমস্যার সমাধান করে, অনুকূলতার গ্যারান্টি দেয়, বেশ খানিকটা সময় ধরে ছিল, এবং এর কিছুটা শিক্ষণ বক্ররেখা রয়েছে। এটি আর সহ বিভিন্ন প্ল্যাটফর্মে প্রয়োগ করা হয়েছে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.