বায়েশিয়ান মডেল নির্বাচন এবং বিশ্বাসযোগ্য ব্যবধান


10

আমার কাছে তিনটি ভেরিয়েবল সহ একটি ডেটাসেট রয়েছে, যেখানে সমস্ত ভেরিয়েবলগুলি পরিমাণগত হয়। একে , এবং বলি । আমি এমসিএমসির মাধ্যমে বায়েশীয় দৃষ্টিভঙ্গিতে একটি রিগ্রেশন মডেল ফিট করছিYএক্স1এক্স2rjags

আমি একটি অনুসন্ধানী বিশ্লেষণ করেছি এবং এর স্ক্র্যাটারপ্লট সুপারিশ করে যে একটি চতুর্ভুজ শব্দটি ব্যবহার করা উচিত। তারপরে আমি দুটি মডেল লাগিয়েছিY×এক্স2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

মডেল 1 এ প্রতিটি প্যারামিটারের প্রভাবের আকার ছোট নয় এবং 95% বিশ্বাসযোগ্য ব্যবধানে মান থাকে না ।0

মডেল 2 পরামিতি প্রভাব আকার এবং সকল প্যারামিটার জন্য ছোট এবং বিশ্বাসযোগ্য অন্তর প্রতিটি ধারণ ।β3β40

কোনও বিশ্বাসযোগ্য ব্যবধানে থাকা সত্য যে পরামিতিটি তাৎপর্যপূর্ণ তা নয়?0

তারপরে আমি নীচের মডেলটি সামঞ্জস্য করেছি

(3)y=β0+β1x1+β2x2+β3x22

প্রতিটি প্যারামিটারের প্রভাবের আকারটি ছোট নয়, তবে সমস্ত বিশ্বাসযোগ্য ব্যবধানে ।β10

বায়সিয়ান পরিসংখ্যানগুলিতে পরিবর্তনশীল নির্বাচন করার সঠিক উপায় কোনটি?

সম্পাদনা: আমি বিটা মডেলের মতো কোনও রেগ্রেশন মডেলটিতে লাসো ব্যবহার করতে পারি? আমি পরিবর্তনশীল ছড়িয়ে ছড়িয়ে একটি মডেল ব্যবহার করছি যেখানে যেখানে a একটি ভেক্টর। আমারও আগে ল্যাপ্লেস ব্যবহার করা উচিত ?

log(σ)=δδX
δδδδ

এডিআইটি 2: আমি দুটি মডেল লাগিয়েছি, একটি গাউসিয়ান , এবং একটি ল্যাপ্লেসের (ডাবল ) সঙ্গে।βjδj

গাউসির মডেলটির অনুমানগুলি হ'ল

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

লাসো মডেলের জন্য অনুমানগুলি হ'ল

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

জন্য অনুমান δ2 এবং δ4 লাসো মডেলটিতে অনেকটা হ্রাস পেয়েছে, এর অর্থ হল এই মডেলটি থেকে আমার এই পরিবর্তনগুলি অপসারণ করা উচিত?

সম্পাদনা 3: ডাবল এক্সফোনেনশিয়াল পূর্বের (লাসো) মডেলটি আমাকে গাউসিয়ান প্রিরিয়ারদের সাথে মডেলের চেয়ে বড় ডিভ্যান্স, বিআইসি এবং ডিআইসি মান দেয় এবং বিচ্ছুরতা সহগ অপসারণের পরেও আমি একটি ছোট মান পাইδ2 গাউসির মডেলটিতে


2
ডিবিডিএ 2 ই * এর বিভাগ 18.4 একাধিক রিগ্রেশনে পরিবর্তনশীল নির্বাচন সম্পর্কে। অত্যন্ত সতর্কতার সাথে আপনি প্রতিটি সহগ সহ অন্তর্ভুক্তি সূচকগুলি রাখতে পারেন এবং অন্তর্ভুক্তির উত্তরোত্তর সম্ভাবনাটি দেখতে পারেন। প্যারামিটারগুলির পোস্টেরিয়র ডিস্ট্রিবিউটের ব্যাখ্যায় যখন শূন্য সহ 95% এইচডিআই সমানতা শূন্যকে নির্দেশ করে না। * ডিবিডিএ 2 ই বায়েশিয়ান ডেটা বিশ্লেষণের দ্বিতীয় সংস্করণ।
জন কে। ক্রশচেকে 17:57

2
বায়েশিয়ান কাঠামোয় মডেলগুলির তুলনা করার প্রাকৃতিক উপায় হ'ল প্রান্তিক সম্ভাবনার মধ্য দিয়ে, বিশ্বাসযোগ্য অন্তরগুলির মধ্য দিয়ে নয়। মডেল গড়ের সাথে সংযুক্ত একটি বিকল্প হ'ল মিশ্রণের প্রতিনিধিত্ব ব্যবহার করা এবং প্রতিটি মডেল / উপাদানগুলির ওজন থেকে কোন মডেল ডেটা দ্বারা পছন্দসই হয় তা নির্ধারণ করা।
সিয়ান

@ শি'আন কিন্তু প্রান্তিক সম্ভাবনার মধ্য দিয়ে দু'একটি বেশি মডেলের তুলনা করা বেইস ফ্যাক্টর ব্যবহারের মতো হবে না, যদি সমস্ত মডেলকে পূর্বের সম্ভাবনা একই দেওয়া হত?
ডেল্টাভিভ

প্রিয় প্রফেসর কুরুশকে, আমার আন্তরিক অন্তরগুলির গণনা সম্পর্কে সন্দেহ আছে। আমি যা বুঝতে পেরেছি যে বিভিন্ন প্রিয়ারের উপর ভিত্তি করে উত্তরোত্তর বিশ্বাসযোগ্যতার উপর নির্ভর করে অনেক বিশ্বাসযোগ্য অন্তর থাকতে পারে। তবে এখানে কীভাবে সিদ্ধান্ত নেওয়া যায় যে কোন প্রিয়াররা সবচেয়ে প্রশংসনীয়, যার ফলস্বরূপ সবচেয়ে প্রশংসনীয় উত্তরোত্তর দেয়? আরেকটি প্রশ্ন হ'ল, আমি পোস্টারিয়রগুলিকে গণনার জন্য ভেরিয়েনাল ইনফারেন্স (ষষ্ঠ) ব্যবহার করছি এবং শেষ পর্যন্ত মডেল প্রমাণগুলির নীচের সীমানা গণনা করছি। ষষ্ঠ ক্ষেত্রে পোস্টারিয়রদের জন্য বিশ্বাসযোগ্য ব্যবধানটি কীভাবে গণনা করবেন? তাছাড়া ষষ্ঠ ক্ষেত্রে বায়েস ফ্যাক্টরের দিকে কীভাবে এগিয়ে যেতে হয়?
সন্দীপন কর্মকার

উত্তর:


9

এটি সুপরিচিত যে, যা তাৎপর্যপূর্ণ (বা এআইসির মতো কিছু অন্যান্য মানদণ্ড, কোনও বিশ্বাসযোগ্য ব্যবধানে 0 ইত্যাদি রয়েছে) এর উপর ভিত্তি করে একটি মডেল তৈরি করা বেশ সমস্যাযুক্ত, বিশেষত যদি আপনি তখন অনুমান করেন যেন আপনি মডেল বিল্ডিং করেন নি। বায়েশীয় বিশ্লেষণ করলে তা বদলায় না ( https://stats.stackexchange.com/a/201931/86652 দেখুন )। অর্থাৎ আপনার পরিবর্তনশীল নির্বাচন করা উচিত নয়, বরং গড় গড় মডেল (বা এমন কিছু যা আপনাকে কিছু শূন্য সহগ পেতে পারে তবে পুরো মডেলিং প্রক্রিয়া যেমন লাসো বা ইলাস্টিক নেট) প্রতিফলিত করে)।

বায়েশিয়ান মডেল পছন্দটি সাধারণত বায়েশিয়ান মডেল গড় হিসাবে গড়ে তোলা হয়। আপনার আলাদা আলাদা পূর্ব সম্ভাবনা সহ প্রতিটি মডেল রয়েছে। যদি কোনও মডেলের উত্তরোত্তর মডেলের সম্ভাবনা যথেষ্ট পরিমাণে কম হয়ে যায়, আপনি মূলত পুরোপুরি মডেলটিকে ত্যাগ করবেন। প্রতিটি মডেল এবং ফ্ল্যাট প্রিয়ারের সমান পূর্বের ওজনের জন্য, সমানুপাতিক ওজনের সাথে মডেল গড়মেপুঃ(-সাথে BIC/2) প্রতিটি মডেলের জন্য এটি প্রায়।

আপনি বিকল্প হিসাবে মডেলটিকে পূর্বের হিসাবে গড় হিসাবে প্রকাশ করতে পারেন যা পয়েন্ট ভরগুলির মধ্যে একটি মিশ্রণ (পয়েন্ট ভর এর ওজন হ'ল এফেক্টের পূর্ব সম্ভাবনা হুবহু = প্রভাবটি মডেলটিতে নয়) এবং একটি অবিচ্ছিন্ন বিতরণ (যেমন স্পাইক-এবং-স্ল্যাব প্রিয়ার্স)। এমসিএমসি স্যাম্পলিং যেমন পূর্বের জন্য বেশ কঠিন হতে পারে।

কারভালহো এট আল। হর্সশো সংকোচনের আগে অনুপ্রাণিত করে প্রস্তাব করুন যে এটি স্পাইক এবং স্ল্যাব এর আগে একটি অবিচ্ছিন্ন সান্নিধ্যের মতো কাজ করে। এটি একটি শ্রেণিবিন্যাসের মডেলটিতে সমস্যাটি এম্বেড করারও একটি ঘটনা, যেখানে কিছু পরিমাণে কিছু আকারের প্রভাবগুলির উপস্থিতি এবং উপস্থিতি অন্যদের জন্য প্রয়োজনীয় প্রমাণকে কিছুটা শিথিল করে (বৈশ্বিক সঙ্কুচিত প্যারামিটারের মাধ্যমে, এটি কিছুটা মিথ্যা-আবিষ্কারের মতো) হার নিয়ন্ত্রণ) এবং অন্যদিকে স্বতন্ত্র প্রভাবগুলি যদি তাদের পক্ষে যথেষ্ট প্রমাণ থাকে তবে তাদের নিজেরাই দাঁড়াতে দেয়। স্ট্যান / আর্স্টানে নির্মিত ব্র্যামস আর প্যাকেজ থেকে এটির একটি সুবিধাজনক বাস্তবায়ন রয়েছে । আরও অনেক অনুরূপ প্রিয়ার রয়েছে যেমন ঘোড়া ++ আগে এবং পুরো বিষয়টি চলমান গবেষণার একটি ক্ষেত্র।


বায়সিয়ান লাসো কি এই স্ট্যাটাসের মতো ? স্ট্যাককেেক্সচেঞ্জ / প্রশ্নগুলি / 28609/… ? আমি ছড়িয়ে ছিটিয়ে পরিবর্তনশীল একটি মডেল আমারও সেই পরামিতিগুলির জন্য ডাবল এক্সপোঞ্জেনেল ব্যবহার করা উচিত?

2

বায়েশিয়ান ভেরিয়েবল নির্বাচনের জন্য বেশ কয়েকটি আনুষ্ঠানিক পদ্ধতি রয়েছে। বায়েশিয়ান পরিবর্তনশীল নির্বাচন পদ্ধতিগুলির একটি সামান্য পুরানো পর্যালোচনা এখানে উপস্থাপন করা হয়েছে:

বায়েশিয়ান পরিবর্তনশীল নির্বাচন পদ্ধতিগুলির একটি পর্যালোচনা: কী, কীভাবে এবং কী

একটি সাম্প্রতিক পর্যালোচনা, যাতে বিভিন্ন পদ্ধতির তুলনা এবং আর প্যাকেজগুলি প্রয়োগ করা হয় যেখানে তাদের কার্যকারিতা অন্তর্ভুক্ত রয়েছে:

ইউনিভারিয়েট লিনিয়ার রিগ্রেশন-এ বয়েশিয়ান চলক নির্বাচন এবং মডেল গড়ের জন্য পদ্ধতি এবং সরঞ্জাম

এই রেফারেন্সটি বিশেষভাবে কার্যকর যে এটি আপনাকে নির্দিষ্ট আর প্যাকেজগুলিতে নির্দেশ করে যেখানে ভেরিয়েবল নির্বাচন চালানোর জন্য আপনাকে কেবল প্রতিক্রিয়া এবং কোভারিয়েট মানগুলি (এবং কিছু ক্ষেত্রে হাইপারপ্যারমিটার মানগুলি) প্লাগ করতে হবে।

আরেকটি, দ্রুত এবং নোংরা এবং অ-প্রস্তাবিত, "বয়েসিয়ান" ভেরিয়েবল নির্বাচন পরিচালনা করার পদ্ধতিটি হ'ল বিআইসি এবং আর কমান্ড স্টেপএআইসি () ব্যবহার করে স্টেপওয়াইজ সিলেকশন (এগিয়ে, পিছিয়ে, উভয়) ব্যবহার করুন, যা শর্ত অনুসারে নির্বাচন সম্পাদনের জন্য টুইঙ্ক করা যেতে পারে সাথে BIC।

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

পরীক্ষার আরেকটি দ্রুত এবং নোংরা উপায় β4=0 হ'ল সেভেজ-ডিকির ঘনত্বের অনুপাত এবং ইতিমধ্যে যে উত্তরের সিমুলেশন পেয়েছেন তা ব্যবহার করে:

https://arxiv.org/pdf/0910.1452.pdf


আমি মনে করি যে প্রশ্নটি জিজ্ঞাসা করছে যে মডেল 3 এর তিনটি প্যারামিটারগুলির কেন বিশ্বাসযোগ্য অঞ্চলগুলি 0 রয়েছে এবং নেই কিনা β40. 0
মাইকেল আর চেরনিক

@ মিশেল চের্নিক তাহলে ওপি কেন জিজ্ঞাসা করছে "In this case is reasonable say that $\beta_4\neq 0$"? এবং "Which is the right way to do variable selection in Bayesian statistics"?
সিটিহুলু

আমি প্রশ্নের সেই অংশটি মিস করেছি তবে আমি মনে করি না এটিই মূল সমস্যা ছিল।
মাইকেল আর। চেরনিক


1

বায়েশিয়ান পরিসংখ্যানগুলির সম্পূর্ণ ধারণাটি ঘন ঘনবাদী পদ্ধতির থেকে পৃথক। এইভাবে আমি মনে করি তাৎপর্যের শর্তাদি সঠিক নয়। আমি অনুমান করি যে এটির ফলাফল (বিতরণ) আপনি আপনার মডেল থেকে পেয়েছেন কিনা তা সিদ্ধান্ত নেওয়া ঠিক পাঠকের উপর নির্ভর করেβতার পক্ষে নির্ভরযোগ্য বা বিশ্বাসযোগ্য। এটি সর্বদা বিতরণ নিজেই উপর নির্ভর করে। এটি কতটা স্কিউড এবং প্রশস্ত এবং অঞ্চলটি কতটা শূন্যের নীচে?

আপনি এখানে 41:55-এ এই বিষয়ে একটি সুন্দর বক্তৃতাও পেতে পারেন:

https://vimeo.com/14553953


আমি একটি ভেরিয়েবলের হিস্টোগ্রামের উদাহরণ যুক্ত করেছি যা বিশ্বাসযোগ্য ব্যবধান অন্তর্ভুক্ত করে 0আপনি কি একবার দেখে নিতে পারেন?

1
উইকএন্ড থেকে ফিরে। আমরা হিস্টোগ্রামটি কোথায় পাব?
burton030
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.