পটভূমি
আমি মেডিসিনে ক্লিনিকাল গবেষণা করছি এবং বেশ কয়েকটি পরিসংখ্যান কোর্স নিয়েছি। আমি কখনও লিনিয়ার / লজিস্টিক রিগ্রেশন ব্যবহার করে একটি কাগজ প্রকাশ করি নি এবং সঠিকভাবে পরিবর্তনশীল নির্বাচন করতে চাই। ব্যাখ্যামূলকতা গুরুত্বপূর্ণ, সুতরাং অভিনব মেশিন শেখার কোনও কৌশল নেই। আমি ভেরিয়েবল সিলেকশন সম্পর্কে আমার বোঝার সংক্ষিপ্তসার করেছি - কেউ কোনও ভ্রান্ত ধারণার উপর আলোকপাত করতে মন চায়? আমি এটির সাথে দুটি (1) অনুরূপ (2) সিভি পোস্ট পেয়েছি , তবে তারা আমার উদ্বেগের পুরোপুরি উত্তর দেয়নি। কোন চিন্তা অনেক প্রশংসা হবে! আমার শেষে 3 টি প্রাথমিক প্রশ্ন আছে।
সমস্যা এবং আলোচনা
আমার সাধারণ রিগ্রেশন / শ্রেণিবিন্যাসের সমস্যাটিতে 200-300 টি পর্যবেক্ষণ রয়েছে, 15% এর বিপরীত ইভেন্টের হার (শ্রেণিবদ্ধকরণ) এবং 40 টির মধ্যে 25 টির উপরে তথ্য যা সাহিত্যে "পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ" প্রভাব ফেলেছে বা প্রশংসনীয় বলে দাবি করা হয়েছে ডোমেন জ্ঞান দ্বারা জ্ঞান।
আমি উদ্ধৃতিগুলিতে "পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ" রেখেছি কারণ মনে হচ্ছে সবাই এবং তাদের মা ধাপে ধাপে রিগ্রেশন ব্যবহার করে তবে হ্যারেল (৩) এবং ফ্লুম (৪) বেশ কয়েকটি ভাল কারণে এটি পছন্দ করে না। এটি আরও একটি গেলম্যান ব্লগ পোস্ট আলোচনার দ্বারা সমর্থিত (5)। মনে হয় একমাত্র আসল সময় যা পদক্ষেপের পক্ষে গ্রহণযোগ্য তা হ'ল যদি এটি সত্যিকারের অনুসন্ধান বিশ্লেষণ হয়, বা কেউ ভবিষ্যদ্বাণীতে আগ্রহী হয় এবং এতে ক্রস-বৈধকরণ প্রকল্প জড়িত থাকে। বিশেষত যেহেতু অনেক চিকিত্সা কমরেবিডিজি কোলিনারিটিতে ভুগছে এবং অধ্যয়নগুলি ছোট নমুনার আকারে ভুগছে, তাই আমার বোঝার বিষয় যে সাহিত্যে প্রচুর মিথ্যা ইতিবাচকতা থাকবে; এটি আমার সম্ভাব্য ভেরিয়েবলগুলি অন্তর্ভুক্ত করার জন্য সাহিত্যের উপর নির্ভর করার সম্ভাবনা কম করে makes
আর একটি জনপ্রিয় পদ্ধতির মাধ্যমে ভবিষ্যদ্বাণীকারীদের এবং স্বতন্ত্র ভেরিয়েবলের মধ্যে একটি সূচনা পয়েন্ট হিসাবে ধারাবাহিক অবিচ্ছিন্ন রিগ্রেশন / সংযোগগুলি ব্যবহার করা হয়। নির্দিষ্ট প্রান্তিকের নীচে (বলুন, পি <0.2)। এই স্ট্যাকএক্সচেঞ্জ পোস্টে বর্ণিত কারণগুলির জন্য এটি ভুল বা কমপক্ষে বিভ্রান্ত বলে মনে হচ্ছে (6)।
শেষ অবধি, মেশিন লার্নিংয়ে জনপ্রিয় দেখা যায় এমন একটি স্বয়ংক্রিয় পদ্ধতি হ'ল এল 1 (লাসো), এল 2 (রিজ), বা এল 1 + এল 2 কম্বো (ইলাস্টিক নেট) এর মতো দণ্ড ব্যবহার করা। আমার বোধগম্যতা হ'ল এগুলিতে ওএলএস বা লজিস্টিক রিগ্রেশন এর মতো সহজ ব্যাখ্যা নেই।
গেলম্যান + হিল নিম্নলিখিত প্রস্তাব:
আমার পরিসংখ্যান কোর্সে, আমি ভেরিয়েবল দ্বারা মডেল / ভেরিয়েবল সিলেকশন ভেরিয়েবল করতে পূর্ণ এবং নেস্টেড মডেলগুলির সাথে তুলনা করতে এফ টেস্টগুলি বা ডিভায়েন্সের বিশ্লেষণগুলি ব্যবহার করেও স্মরণ করি। এটি যুক্তিসঙ্গত বলে মনে হচ্ছে তবে ভেরিয়েবলগুলি সন্ধানের জন্য পদ্ধতিগতভাবে ফিটিং সিক্যুয়ালি নেস্টেড মডেলগুলি দেখে মনে হয় যে এটি সহজেই স্বয়ংক্রিয়ভাবে চালিত হতে পারে (তাই আমি কিছুটা উদ্বিগ্ন) এবং এটিও মনে হয় যে এটি ক্রম সংক্রান্ত সমস্যায় ভুগছে আপনি পরিবর্তনশীল অন্তর্ভুক্তি পরীক্ষা। আমার বোধগম্যতা হল এটি বহুবিধ লাইনারিটি এবং অবশিষ্টাংশ প্লটগুলি (অবশিষ্ট রেখার পূর্বাভাস) তদন্ত করে পরিপূরক হওয়া উচিত।
প্রশ্নাবলী:
গেলম্যান সারাংশটি কি যাওয়ার উপায়? আপনি তার প্রস্তাবিত কৌশলটিতে কী যুক্ত করবেন বা পরিবর্তন করবেন?
সম্ভাব্য মিথস্ক্রিয়া এবং রূপান্তর (যা খুব পক্ষপাত / ত্রুটি / বাদ পড়ার প্রবণ বলে মনে হয়) সম্পর্কে বিশুদ্ধভাবে চিন্তা বাদ দিয়েও, সম্ভাব্য বিষয়গুলি আবিষ্কার করার অন্য কোনও উপায় কি? মাল্টিভিয়ারিয়েট অ্যাডিপটিভ রিগ্রেশন স্প্লাইন (এমএআরএস) আমার কাছে সুপারিশ করা হয়েছিল, তবে আমাকে অবহিত করা হয়েছে যে ননলাইনারি / ট্রান্সফর্মেশনগুলি কোনও স্ট্যান্ডার্ড রিগ্রেশন মডেলটিতে একই ভেরিয়েবলগুলিতে অনুবাদ করে না।
ধরুন আমার লক্ষ্যটি খুব সাধারণ: বলুন, "আমি এক্স এর সাথে এক্স 1 এর সংস্থান অনুমান করতে চাই, কেবল এক্স 2 এর জন্য অ্যাকাউন্টিং"। প্রকৃত ভবিষ্যদ্বাণীমূলক দক্ষতার (যেমন ক্রস-বৈধকরণ আরএমএসই বা নির্ভুলতার ব্যবস্থা দ্বারা পরিমাপ করা যেতে পারে) উল্লেখ না করে কেবল কেবল ওয়াই ~ এক্স 1 + এক্স 2 পুনরায় জমা দেওয়া, ফলাফলটি রিপোর্ট করা কি পর্যাপ্ত? ইভেন্টের হার বা নমুনার আকারের উপর নির্ভর করে কি এই পরিবর্তনটি হয় বা R ^ 2 অতি কম হলে (আমি জানি যে R ^ 2 ভাল নয় কারণ আপনি সর্বদা অতিরিক্ত পরিমাণে এটি বাড়িয়ে তুলতে পারেন)? ভবিষ্যদ্বাণীক শক্তিটিকে অপ্টিমাইজ করার চেয়ে আমি সাধারণত আগ্রহ / ব্যাখ্যায় আগ্রহী।
উদাহরণ উপসংহার:
- "এক্স 2 এর জন্য নিয়ন্ত্রণ করা, এক্স 1, এক্স 1 এর রেফারেন্স স্তরের তুলনায় ওয়াইয়ের সাথে পরিসংখ্যানগতভাবে উল্লেখযোগ্যভাবে যুক্ত ছিল না।" (লজিস্টিক রিগ্রেশন সহগ)
- "এক্স 1 ওয়াইয়ের পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ ভবিষ্যদ্বাণী ছিল না, কারণ ডিএফ পরিবর্তনের তুলনায় বিচ্যুতির মডেল ড্রপ যথেষ্ট পরিমাণে ছিল না।" (বিচ্যুতি বিশ্লেষণ)
ক্রস-বৈধকরণ সবসময় প্রয়োজনীয়? যে ক্ষেত্রে, কেউ এসএমওটিই, স্যাম্পলিং ইত্যাদির মাধ্যমে ক্লাসগুলির কিছুটা ভারসাম্যও করতে চাইতে পারে