লাসো লজিস্টিক রিগ্রেশনটিতে সহগের তাত্পর্যটির জন্য পরীক্ষা করা


10

[একই উত্তর এখানে জিজ্ঞাসা করা হয়েছিল ]

আমি এল 1 নিয়মিতকরণ (লসো লজিস্টিক রিগ্রেশন) এর সাথে একটি লজিস্টিক রিগ্রেশন মডেল ফিট করেছি এবং আমি তাত্পর্যপূর্ণ জন্য ফিটেড সহগের পরীক্ষা করতে এবং তাদের পি-মান পেতে চাই। আমি জানি ওয়াল্ডের পরীক্ষাগুলি (উদাহরণস্বরূপ) নিয়মিতকরণ ছাড়াই সম্পূর্ণ সহনশীলতায় পৃথক সহগের তাত্পর্য পরীক্ষা করার একটি বিকল্প, তবে লাসোর সাথে আমার মনে হয় আরও সমস্যা দেখা দিয়েছে যা সাধারণত ওয়াল্ড সূত্র প্রয়োগ করতে দেয় না। উদাহরণস্বরূপ, পরীক্ষার জন্য জড়িত ভেরিয়েন্স অনুমানগুলি স্বাভাবিক অভিব্যক্তিগুলি অনুসরণ করে না। আসল লাসো পেপার

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

সহগের বৈকল্পিকগুলি অনুমান করার জন্য একটি বুটস্ট্র্যাপ-ভিত্তিক প্রক্রিয়া প্রস্তাব করে যা পরীক্ষার জন্য (আবার, আমি মনে করি) পরীক্ষার প্রয়োজন হতে পারে (বিভাগের ২.২, পৃষ্ঠা ২ 27২ এর শেষ অনুচ্ছেদ এবং ২3৩ এর শুরু):

একটা পদক্ষেপ বুটস্ট্র্যাপ মাধ্যমে হল: পারেন টি সংশোধন করা যেতে পারে বা আমরা ধরে নিখুত হতে পারে প্রতিটি বুটস্ট্র্যাপ নমুনা জন্য। ফিক্সিং সেরা উপসেটটি ( বৈশিষ্ট্যগুলির ) নির্বাচন করা এবং তারপরে সেই উপসেটের জন্য সর্বনিম্ন স্কোয়ারের স্ট্যান্ডার্ড ত্রুটি ব্যবহার করার সাথে সমানটিটি

আমি যা বুঝি তা হ'ল নিয়মিত প্যারামিটারের জন্য এটি সর্বোত্তম মান (এটি বুটস্ট্র্যাপের অংশ নয়) সন্ধান না করা পর্যন্ত পুরো ডেটাসেটের সাথে বারবার একটি লাসো রিগ্রেশন ফিট করুন এবং তারপরে লাস্টোর দ্বারা নির্বাচিত বৈশিষ্ট্যগুলিকে সাবমিরগুলিতে ওএলএস রেজিস্ট্রেশনগুলি ফিট করতে ব্যবহার করুন তথ্যগুলির মধ্যে এবং সেই সমস্তগুলির মধ্যে প্রতিটি থেকে বৈকল্পিকগুলি গণনা করার জন্য সাধারণ সূত্রগুলি প্রয়োগ করুন। (এবং তারপরে প্রতিটি সহগের চূড়ান্ত বৈকল্পিক প্রাক্কলন পাওয়ার জন্য প্রতিটি গুণকের এই সমস্ত বৈকল্পগুলির সাথে আমার কী করা উচিত?)

তদুপরি, সহগের লাসোর অনুমান এবং বুটস্ট্র্যাপ-আনুমানিক বৈকল্পগুলির সাথে যথাযথ তাত্পর্য পরীক্ষা (উদাহরণস্বরূপ ওয়াল্ডের পরীক্ষা যা অনুমান করা বিটা এবং রূপগুলি ব্যবহার করে) ব্যবহার করা কি সঠিক? আমি মোটামুটি নিশ্চিত যে এটি না, তবে যে কোনও সহায়তা (একটি ভিন্ন পরীক্ষা ব্যবহার করুন, আরও সোজাসাপ্টা পদ্ধতির ব্যবহার করুন, তলিয়ে যাওয়া ...) স্বাগত অপেক্ষা বেশি।

উত্তরগুলি অনুসারে এখানে আমি সন্দেহ করি অনুমান এবং পি-মানগুলি পাওয়া যায় না। আমার ক্ষেত্রে, পি-মানগুলি একটি বাহ্যিক প্রয়োজনীয়তা (যদিও এল 1 নিয়মিতকরণের ব্যবহার আমার পছন্দ ছিল)।

অনেক ধন্যবাদ

সম্পাদনা যদি লাসো লজিস্টিক রিগ্রেশনটির পূর্ববর্তী রান দ্বারা নির্বাচিত কেবলমাত্র ভেরিয়েবলগুলি ব্যবহার করে আমি কোনও ওএলএস লজিস্টিক রিগ্রেশন ফিট করি? স্পষ্টতই ( এখানে দেখুন ),

ক্রস-বৈধতা করার পরে আবার মডেল চালানোর দরকার নেই (আপনি কেবল cv.glmnet আউটপুট থেকে সহগুণ পাবেন) এবং বাস্তবে আপনি যদি নতুন লজিস্টিক রিগ্রেশন মডেলটিকে দন্ড ছাড়াই ফিট করেন তবে আপনি ব্যবহারের উদ্দেশ্যকে পরাস্ত করছেন ating ফাঁস-দড়ি

তবে আমি যদি ভেরিয়েবলের সংখ্যা কম রাখার সময় পি-ভ্যালু গণনা করতে সক্ষম হওয়ার একমাত্র উদ্দেশ্য নিয়ে এটি করি? এটা কি খুব নোংরা উপায়? :-)


লাসো মডেলগুলির জন্য অনুমান করতে আপনি CRAN প্যাকেজ এইচডিও পরীক্ষা করতে পারেন যা উচ্চ মাত্রিক মডেলগুলির জন্য অনুমান সরবরাহ করে, আপনি এটি একবার দেখে নিতে পারেন ...
টম ওয়েনসিলিয়ার্স

সম্পূর্ণ পদ্ধতিগুলি এই গবেষণাপত্রে ভালভাবে বর্ণিত হয়েছে: projecteuclid.org/euclid.ss/1449670857
টম Wenseleers

এছাড়াও রয়েছে প্যাকেজ cran.r-project.org/web/packages/selectiveInferences/index.html যা লাসোর জন্য অনুপ্রবেশ সরবরাহ করতে কার্যকর হতে পারে ...
টম ওয়েনসিলার্স

এটি জিজ্ঞাসা করার জন্য একটি দুর্দান্ত এবং গুরুত্বপূর্ণ প্রশ্ন।
জিনুয়া ওয়াং

উত্তর:


5

সাধারণ তাত্পর্য পরীক্ষাগুলি ব্যবহার করার ক্ষেত্রে সমস্যাটি হ'ল তারা নালটিকে ধরে নিয়েছে যে এলোমেলো ভেরিয়েবল রয়েছে, ফলাফলের পরিবর্তনশীলগুলির সাথে কোনও সম্পর্ক নেই। তবে লাসোর সাথে আপনার যা রয়েছে তা হ'ল র্যান্ডম ভেরিয়েবলগুলির গুচ্ছ, যা থেকে আপনি লাসো দিয়ে সেরাগুলি নির্বাচন করেন এবং বিটাগুলি সঙ্কুচিতও হয়। সুতরাং আপনি এটি ব্যবহার করতে পারবেন না, ফলাফল পক্ষপাতদুষ্ট হবে।

যতদূর আমি জানি, বুটস্ট্র্যাপটি বৈকল্পিকের অনুমানের জন্য ব্যবহার করা হয় না, তবে পরিবর্তিত নির্বাচনের সম্ভাব্যতা অর্জন করতে ব্যবহৃত হয়। এবং সেগুলি আপনার পি-মান। হাসির বিনামূল্যে বইটি দেখুন, স্ট্যাটিস্টিকাল লার্নিং উইথ স্পারসিটি, chapter ষ্ঠ অধ্যায় একই জিনিস সম্পর্কে কথা বলছে। http://web.stanford.edu/~hastie/StatLearnSparsity/

লাসো https://arxiv.org/pdf/1408.4026.pdf থেকে পি-মান পেতে আরও কিছু উপায়ের জন্য এই কাগজটি দেখুন


4

এন

ভাগ্যক্রমে, সাম্প্রতিক বছরগুলিতে নির্বাচন-পরবর্তী নির্বাচনের জন্য অ্যাকাউন্ট হিসাবে অনুমান পদ্ধতিগুলি বিকাশে অনেক অগ্রগতি হয়েছে। আপনার মামলার জন্য কিছু প্রাসঙ্গিক তথ্য উল্লেখ করা হয়েছে: http://projecteuclid.org/euclid.aos/1460381681 এবং, https://arxiv.org/pdf/1602.07358.pdf । এই রেফারেন্সগুলিতে আলোচিত কৌশলগুলি আর-প্যাকেজ সিলেক্ট ইন্ফারেন্স- https://cran.r-project.org/web/packages/selectiveInferences/index.html এ প্রয়োগ করা হয়েছে । নির্বাচনী উল্লেখ প্যাকেজটি আপনার প্রয়োজনীয় বৈধ আত্মবিশ্বাসের অন্তরগুলি তৈরি করবে।


1
ইউনিভার্সের কোর্সেরায় মেশিন লার্নিং স্পেশালাইজেশনে। ওয়াশিংটনের, 2 (রিগ্রেশন) এর শিক্ষকরা পুরো সপ্তাহটি লাসো রিগ্রেশনকে উত্সর্গ করেছিলেন। একটি স্লাইডে, আমি বর্ণিত পদ্ধতিটি (লাসো ব্যবহার করে বৈশিষ্ট্যগুলি নির্বাচন করতে এবং তারপরে কেবলমাত্র সেই ভেরিয়েবলগুলির সাথে একটি এলএস রিগ্রেশন ফিটিং করা) হ'ল নিন্দিত ডিবিজিং এবং মারিও ফিগিওয়েরো একটি কাগজ থেকে গ্রাফ দিয়ে সঠিক এবং চিত্রিত হিসাবে বিবেচিত। স্লাইড 105 এখানে চেক করুন: github.com/MaxPoon/coursera- মাচাইন- শিখুন- বিশেষীকরণ
পাবলো

তারা লাসোকে ডিবিজেস করার পরামর্শ দিলে তারা হাইপোথিসিস পরীক্ষার বিষয়ে মোটেও আলোচনা করে না। এছাড়াও, ডি-বাইসিং শব্দটি বিভ্রান্তিমূলক, কারণ মডেলটিকে রিফাইটিং করার সময় লাসোর দ্বারা অনুপ্রবেশিত নিম্নমুখী পক্ষপাত থেকে মুক্তি পেয়ে যায়, এটি বিজয়ীর অভিশাপ দ্বারা প্ররোচিত wardর্ধ্বমুখী পক্ষপাতকে সহায়তা করে না। যতদূর আমি জানি, নির্বাচিত মডেলটির রিগ্রেশন সহগের প্রাক্কলনকে সত্যিকার অর্থেই একমাত্র উপায় শর্তসাপেক্ষে সর্বাধিক সম্ভাবনার প্রাক্কলন গণনা করা। arxiv.org/abs/1705.09417
ব্যবহারকারী3903581
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.