স্বয়ংক্রিয় মডেল নির্বাচনের জন্য অ্যালগরিদম


193

আমি স্বয়ংক্রিয় মডেল নির্বাচনের জন্য একটি অ্যালগরিদম বাস্তবায়ন করতে চাই। আমি স্টেপওয়াইজ রিগ্রেশন করার কথা ভাবছি তবে যা কিছু করবে তা (যদিও এটি লিনিয়ার রিগ্রেশনগুলির উপর ভিত্তি করে থাকতে হবে)।

আমার সমস্যাটি হ'ল আমি কোনও পদ্ধতি বা একটি ওপেন সোর্স বাস্তবায়ন (আমি জাভা জাগ্রত করছি) সন্ধান করতে অক্ষম। আমার যে পদ্ধতিটি মনে আছে তা হ'ল:

  1. সমস্ত কারণের পারস্পরিক সম্পর্কের ম্যাট্রিক্স গণনা করুন
  2. একে অপরের সাথে কম পারস্পরিক সম্পর্ক রয়েছে এমন কারণগুলি বেছে নিন
  3. কম টি-স্ট্যাট রয়েছে এমন কারণগুলি সরান
  4. অন্যান্য কারণগুলি যুক্ত করুন (এখনও পাওয়া যায় নিম্ন সম্পর্কের ফ্যাক্টরের উপর ভিত্তি করে)।
  5. কিছু মানদণ্ড (উদাহরণস্বরূপ এআইসি) একটি নির্দিষ্ট প্রান্তের উপরে না পৌঁছানো বা না পাওয়া বা আমরা আরও বড় মান খুঁজে না পাওয়া পর্যন্ত বেশ কয়েকবার পুনরাবৃত্তি করুন।

আমি বুঝতে পারি যে এটির (স্টেপএআইসি) জন্য একটি আর বাস্তবায়ন রয়েছে, তবে আমি কোডটি বুঝতে বেশ শক্ত। এছাড়াও আমি ধাপে ধাপে রিগ্রেশন বর্ণনা করে নিবন্ধগুলি সন্ধান করতে সক্ষম হইনি।


72
সত্যি বলতে গেলে, আমি মনে করি এটি একটি বিপর্যয়কর ধারণা, প্রায় অনেকগুলি মিথ্যা সিদ্ধান্তে পৌঁছানোর গ্যারান্টিযুক্ত।
গাং

4
@ গুং: যদিও আমি একমত যে মডেল নির্বাচনের ফলাফল অন্ধভাবে অনুসরণ করা একটি খারাপ ধারণা, আমি মনে করি এটি বিশ্লেষণের সূচনালগ্ন হিসাবে কার্যকর হতে পারে। আমার ক্ষেত্রে আমার কাছে কয়েক শতাধিক কারণ উপলব্ধ রয়েছে এবং আমি 5-10 সবচেয়ে প্রাসঙ্গিক চয়ন করতে চাই। স্বয়ংক্রিয় মডেল নির্বাচন না করে আমি কীভাবে এটি করতে পারি তা আমি দেখতে পাচ্ছি না (যা পরে ম্যানুয়ালি সংশোধন করা হবে)।
এস

12
সমস্ত মডেল নির্বাচনের পদ্ধতিগুলি নীচে আমার উত্তরে আমি যে সমস্যার বিষয়ে আলোচনা করছি তার সাপেক্ষে। এছাড়াও, আপনি যতগুলি সম্ভাব্য কারণগুলির সন্ধান করতে চান তার সংখ্যা তত বেশি, সেই সমস্যাগুলি তত বেশি চরম আকার ধারণ করে এবং বৃদ্ধি লিনিয়ার হয় না। যদিও আরও কিছু ভাল পন্থা রয়েছে (@ জ্যাচ আলোচিত), যা ক্রস-বৈধকরণের সাথে মিলিতভাবে ব্যবহার করা উচিত (@ জ্যাকট্যানার দ্বারা আলোচিত), টি, আর এবং এআইসি এর উপর ভিত্তি করে নির্বাচন করা তাদের মধ্যে নেই। তদুপরি, শত শত কারণের সাথে প্রয়োজনীয় পরিমাণের পরিমাণ সহজেই কয়েক মিলিয়নতে হতে পারে। দুর্ভাগ্যক্রমে, আপনার আগে একটি খুব কঠিন কাজ।
গাং

7
মডেল নির্বাচন করার উদ্দেশ্য কী? এটি কোন ভবিষ্যদ্বাণীপূর্ণ / পূর্বাভাস মডেলের জন্য বা আপনি গুরুত্বপূর্ণ ভেরিয়েবলগুলি সন্ধান করছেন? এছাড়াও আপনি যে ডেটা সেটটি ব্যবহার করছেন তা কতটা বড় - কতগুলি অবসেশন এবং কতগুলি ভেরিয়েবল?
সম্ভাব্যতা

6
এখানে আকর্ষণীয় মতামত, তবে আমি মনে করি অ্যালগরিদমিক মডেল নির্বাচন পদ্ধতিগুলির বিরুদ্ধে নেতিবাচক দৃষ্টিভঙ্গি কিছুটা তারিখযুক্ত। উদাহরণস্বরূপ, ইকোনোমেট্রিক্সের ক্ষেত্রে ডেভিড হেন্ডরির সাম্প্রতিক কাজটি বিবেচনা করুন, বিশেষত পিসজিভ সফ্টওয়্যার এবং স্যাচুরেশন পদ্ধতিতে তাঁর কাজ। তার পদ্ধতির একটি ওভারভিউ সরবরাহকারী একটি বক্তৃতা এখানে পাওয়া যাবে । @ মিশেল চেরনিক যেমন উল্লেখ করেছেন (এবং হেন্ড্রিও তা করবেন!), বিষয়বস্তু জ্ঞান (ব্যাপকভাবে) গুরুত্বপূর্ণ। এ কারণেই বিষয় বিশেষজ্ঞের মধ্যে মূল্য আছে - একা অ্যালগরিদমকে কাজ করতে দেওয়া ভুল।
গ্রিম ওয়ালশ

উত্তর:


333

আমি মনে করি এই পদ্ধতির ভুল হয়েছে, তবে আমি যদি তা ব্যাখ্যা করি তবে সম্ভবত এটি আরও সহায়ক হবে। বিপুল সংখ্যক ভেরিয়েবল সম্পর্কে কিছু তথ্য প্রদত্ত সেরা মডেলটি জানতে চাওয়া যথেষ্ট বোধগম্য। তদুপরি, এটি এমন একটি পরিস্থিতি যেখানে লোকেরা নিজেকে নিয়মিত খুঁজে পায়। এছাড়াও, রিগ্রেশন সম্পর্কিত অনেক পাঠ্যপুস্তক (এবং কোর্স) ধাপে ধাপে নির্বাচন পদ্ধতিগুলি অন্তর্ভুক্ত করে, যা বোঝায় যে সেগুলি অবশ্যই বৈধ হতে হবে। দুর্ভাগ্যক্রমে, তারা না, এবং এই পরিস্থিতি এবং লক্ষ্যটির জুটি সফলভাবে নেভিগেট করা বেশ কঠিন। নীচে স্বয়ংক্রিয় ধাপে ধাপে মডেল নির্বাচন প্রক্রিয়াগুলির সাথে সমস্যার তালিকা রয়েছে (ফ্র্যাঙ্ক হ্যারেলকে দায়ী, এবং এখান থেকে অনুলিপি করা হয়েছে ):

  1. এটি আর-স্কোয়ার মানগুলি দেয় যা খারাপভাবে পক্ষপাতদুষ্ট উচ্চ।
  2. প্রিন্টআউটে প্রতিটি ভেরিয়েবলের পাশে উদ্ধৃত F এবং চি-স্কোয়ার পরীক্ষাগুলিতে দাবিযুক্ত বিতরণ নেই।
  3. পদ্ধতিটি মিথ্যাভাবে সংকীর্ণ প্রভাব এবং পূর্বাভাসিত মানগুলির জন্য আত্মবিশ্বাসের ব্যবধানগুলি দেয়; অল্টম্যান এবং অ্যান্ডারসন (1989) দেখুন।
  4. এটি পি-মান দেয় যাগুলির সঠিক অর্থ হয় না এবং তাদের জন্য সঠিক সংশোধন করা একটি কঠিন সমস্যা।
  5. এটি পক্ষপাতদুষ্ট রিগ্রেশন সহগগুলি দেয় যা সঙ্কুচিত হওয়া দরকার (বাকী পরিবর্তনশীলগুলির সহগগুলি খুব বড়; তিবশিরানী [1996] দেখুন)।
  6. সহপাঠের উপস্থিতিতে এটির মারাত্মক সমস্যা রয়েছে।
  7. এটি এমন পদ্ধতিগুলির উপর ভিত্তি করে (যেমন নেস্টেড মডেলগুলির জন্য F পরীক্ষাগুলি) যা পূর্বনির্ধারিত হাইপোথেসিসগুলি পরীক্ষা করার জন্য ব্যবহৃত হয়েছিল were
  8. নমুনার আকার বাড়ানো খুব বেশি সাহায্য করে না; ডারকসেন এবং কেসেলম্যান (1992) দেখুন।
  9. এটি আমাদের সমস্যার কথা চিন্তা না করার অনুমতি দেয়।
  10. এটি প্রচুর কাগজ ব্যবহার করে।

প্রশ্নটি হচ্ছে, এই পদ্ধতিগুলি সম্পর্কে কী খারাপ / কেন এই সমস্যাগুলি ঘটে? বেশীরভাগ মানুষই যারা মৌলিক রিগ্রেশন অবশ্যই গ্রহণ করেছে ধারণার সাথে পরিচিত গড় থেকে রিগ্রেশন , তাই এই কি আমি এই বিষয়গুলো ব্যাখ্যা করতে ব্যবহার করেন। (যদিও এটি প্রথমে অফ-বিষয় মনে হতে পারে তবে আমার সাথে সহ্য করুন, আমি প্রতিশ্রুতি দিচ্ছি এটি প্রাসঙ্গিক।)

ট্রায়আউটগুলির প্রথম দিন একটি হাই স্কুল ট্র্যাক কোচ কল্পনা করুন। ত্রিশ বাচ্চা দেখায়। এই বাচ্চাদের অভ্যন্তরীণ দক্ষতার কিছু অন্তর্নিহিত স্তর রয়েছে যার কাছে কোচ বা অন্য কারওাই সরাসরি অ্যাক্সেস পাচ্ছে না। ফলস্বরূপ, কোচ কেবলমাত্র তিনিই করতে পারেন যা তাদের সকলেরই 100 মিটার ড্যাশ চালানো। সময়গুলি সম্ভবত তাদের অভ্যন্তরীণ দক্ষতার একটি পরিমাপ এবং সেভাবে নেওয়া হয়। তবে এগুলি সম্ভাব্য; কেউ কতটা ভাল করে তার কিছু অনুপাত তাদের আসল দক্ষতার উপর ভিত্তি করে এবং কিছু অনুপাত এলোমেলো। কল্পনা করুন যে আসল পরিস্থিতি নিম্নলিখিত:

set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)

প্রথম দৌড়ের ফলাফলগুলি বাচ্চাদের প্রতি কোচের মন্তব্য সহ নিম্নলিখিত চিত্রটিতে প্রদর্শিত হবে।

প্রথম দৌড়

নোট করুন যে বাচ্চাদের প্রতিযোগিতামূলক সময় অনুসারে তাদের অভ্যন্তরীণ দক্ষতার উপর ওভারল্যাপ ছেড়ে যায় - এই ঘটনাটি অত্যন্ত গুরুত্বপূর্ণ। কিছু প্রশংসা করার পরে, এবং কিছু অন্যকে চিত্কার (যেমন কোচদের ঝোঁক), তিনি তাদের আবার চালানো হয়েছে। কোচের প্রতিক্রিয়া (উপরে একই মডেল থেকে সিমুলেটেড) সহ দ্বিতীয় রেসের ফলাফল এখানে রয়েছে:

দ্বিতীয় দৌড়

লক্ষ্য করুন যে তাদের অভ্যন্তরীণ দক্ষতা অভিন্ন, তবে সময়টি প্রথম দৌড়ের তুলনায় প্রায় বাউন্স হয়েছিল। কোচের দৃষ্টিকোণ থেকে, তিনি যে উন্নতির দিকে ঝুঁকেছিলেন, এবং তার প্রশংসা করেছেন তারা আরও খারাপ কাজ করতেন (উইকি পৃষ্ঠায় তালিকাভুক্ত কাহিনিমান উক্তি থেকে আমি এই কংক্রিটের উদাহরণটি গ্রহণ করেছি), যদিও প্রকৃতপক্ষে গড়নের প্রতি সংক্ষিপ্ততা একটি সাধারণ গাণিতিক কোচ আংশিক এলোমেলো একটি পরিমাপের উপর ভিত্তি করে দলের হয়ে অ্যাথলেটদের নির্বাচন করছেন।

এখন, এটি স্বয়ংক্রিয়ভাবে (উদাহরণস্বরূপ, পদক্ষেপের) মডেল নির্বাচন কৌশলগুলির সাথে কী করতে পারে? একই ডেটাসেটের উপর ভিত্তি করে একটি মডেল বিকাশ এবং নিশ্চিতকরণকে কখনও কখনও ডেটা ড্রেজিং বলা হয়। যদিও ভেরিয়েবলের মধ্যে কিছু অন্তর্নিহিত সম্পর্ক রয়েছে এবং শক্তিশালী সম্পর্কগুলি শক্তিশালী স্কোর অর্জন করবে বলে আশা করা হয় (যেমন, উচ্চতর টি-স্ট্যাটিস্টিকস), এগুলি এলোমেলো ভেরিয়েবল এবং উপলব্ধ মূল্যবোধে ত্রুটি থাকে। সুতরাং, আপনি যখন উচ্চতর (বা নিম্ন) উপলব্ধি হওয়া মানগুলির ভিত্তিতে ভেরিয়েবলগুলি নির্বাচন করেন, তখন তাদের অন্তর্নিহিত সত্য মান, ত্রুটি বা উভয়ের কারণে এগুলি হতে পারে। আপনি যদি এই পদ্ধতিতে এগিয়ে যান, আপনি কোচ যেমন দ্বিতীয় দফার পরে ছিলেন তেমন অবাক হবেন। আপনি উচ্চ টি-পরিসংখ্যান, বা স্বল্প আন্তঃসংযোগের ভিত্তিতে ভেরিয়েবলগুলি নির্বাচন করেন কিনা তা সত্য। সত্য, পি-ভ্যালু ব্যবহারের চেয়ে এআইসি ব্যবহার করা আরও ভাল, কারণ এটি জটিলতার জন্য মডেলটিকে শাস্তি দেয় তবে এআইসি নিজেই এলোমেলো পরিবর্তনশীল (যদি আপনি বেশ কয়েকবার একটি গবেষণা চালান এবং একই মডেলটি ফিট করেন তবে এআইসি ঠিক একইভাবে চারদিকে বাউন্স করবে) অন্য সবকিছু). দুর্ভাগ্যবশত,

আমি আশা করি এই সহায়ক।


43
ডেটা ড্রেজিংয়ের প্রাথমিক ঘটনা explanation
ফ্র্যাঙ্ক হ্যারেল

17
এটি একটি খুব সুচিন্তিত উত্তর, যদিও লিনিয়ার মডেল নির্বাচনের প্রসঙ্গে আইিক পি-ভ্যালু (বা বিক বা অনুরূপ) এর চেয়ে উন্নতি, এই ধারণার সাথে আমি সম্পূর্ণই একমত নই। আইকের মতো যে কোনও জরিমানা যা ফর্ম হয় তা পি-মান সেট করার সমতুল্য (প্রবেশ এবং প্রস্থান উভয়)। আইক মূলত আপনাকে কীভাবে পি-মান নির্বাচন করবেন তা বলে দেয়। 2L+kpPr(χ12>k)
সম্ভাব্যতা

7
আমার মন্তব্যটি পদক্ষেপের বা অনুরূপ অ্যালগরিদমের জন্য আইিক ব্যবহারের ক্ষেত্রে ছিল। আমার মন্তব্যটিও খুব সংক্ষিপ্ত ছিল। টীকা হল ভেরিয়েবলের সংখ্যা, পেনাল্টি ( আইিক জন্য বাইক ), এবং সর্বাধিক লগ হওয়ার সম্ভাবনার দ্বিগুণ negative । অ-শূন্য সহগের সংকোচন ছাড়াই "সাবসেট" শৈলীর নির্বাচন করার সময় আই-ও বিক বিভিন্নভাবে ধারণাগত হলেও পি-মানগুলি থেকে কার্যকরভাবে নয়। pk2logN2L
সম্ভাব্যতা

9
@ গুং - আপনি যদি দুটি সাথে একটি প্যারামিটার আলাদা করে পান তবে আপনি । এখন প্রথম পদটি হ'ল সম্ভাবনা অনুপাতের পরিসংখ্যান, যার উপর পি-মান ভিত্তি করে। সুতরাং সম্ভাবনা অনুপাতের পরিসংখ্যান যদি কিছু কাটফটের চেয়ে বড় হয় তবে আমরা অতিরিক্ত পরামিতি যুক্ত করছি। এটি পি-মান পদ্ধতির সাথে একই রকম হয় is এখানে কেবল একটি ধারণাগত পার্থক্য রয়েছে(2L1+2p0+2)(2L0+2p0)=2(L1L0)+2
সম্ভাব্যতা

2
উদাহরণস্বরূপ, কেন এআইসি সমস্যার সমাধান করেন না দেখুন: মুন্ড্রি, আর (2011)। তথ্য তত্ত্ব-ভিত্তিক পরিসংখ্যানগত অনুক্রমের বিষয়গুলি fre ঘন ঘনবাদীর দৃষ্টিকোণ থেকে একটি মন্তব্য। আচরণমূলক পরিবেশবিজ্ঞান এবং সমাজবিজ্ঞান, 65 (1), 57-68।
জাঙ্ক

70

পরীক্ষা করে দেখুন ক্যারেট প্যাকেজ আর মধ্যে এটা আপনাকে সাহায্য করবে ক্রস বৈধকরণ ধাপে জ্ঞানী রিগ্রেশন মডেল (ব্যবহারের method='lmStepAIC'বা method='glmStepAIC'), এবং সাহায্য করতে পারে আপনারা কীভাবে বোঝেন যে মডেলের এই প্রকারের দরিদ্র ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা আছে ঝোঁক। তদ্ব্যতীত, আপনি findCorrelationকলিনারি ভেরিয়েবলগুলি সনাক্ত করতে এবং নির্মূল করতে ক্যারেটে ফাংশনটি ব্যবহার করতে পারেন , এবং rfeকম টি-স্ট্যাটিস্টিক (ব্যবহার rfeControl=rfeControl(functions=lmFuncs)) সহ ভেরিয়েবলগুলি নির্মূল করতে ক্যারেটে ফাংশনটি ব্যবহার করতে পারেন ।

যাইহোক, পূর্ববর্তী উত্তরে উল্লিখিত হিসাবে, পরিবর্তনশীল নির্বাচনের এই পদ্ধতিগুলি আপনাকে সমস্যায় ফেলতে পারে, বিশেষত যদি আপনি তা পুনরাবৃত্তভাবে করেন। সম্পূর্ণরূপে অনুষ্ঠিত আউট টেস্ট সেটটিতে আপনি আপনার পারফরম্যান্সটির মূল্যায়ন করেছেন তা নিশ্চিত করে নিন। এমনকি আপনি নিজের অ্যালগরিদমে খুশি না হওয়া পর্যন্ত পরীক্ষার সেটটির দিকেও তাকান না!

অবশেষে, রিজ রিগ্রেশন, লাসো বা ইলাস্টিক নেট এর মতো "বিল্ট-ইন" বৈশিষ্ট্য নির্বাচনের সাথে ভবিষ্যদ্বাণীপূর্ণ মডেল ব্যবহার করা আরও ভাল (এবং সহজ) হতে পারে। বিশেষত, method=glmnetক্যারেটের জন্য আর্গুমেন্টটি চেষ্টা করে দেখুন এবং সেই মডেলের ক্রস-বৈধতাযুক্ত যথার্থতাকে আর্গুমেন্টের সাথে তুলনা করুন method=lmStepAIC। আমার অনুমান যে প্রাক্তন আপনাকে নমুনা ছাড়িয়ে অনেক বেশি দেবে, এবং আপনার কাস্টম ভেরিয়েবল নির্বাচন অ্যালগরিদম বাস্তবায়ন এবং যাচাইয়ের বিষয়ে আপনাকে চিন্তা করতে হবে না।


1
ডাবল পেরেটোর মতো শাস্তি একটি পরিসংখ্যানগত দিক থেকে রিজ এবং লাসোর চেয়ে ভাল, কারণ তারা স্পষ্টতই অ-শূন্য সহগকে সঙ্কুচিত করে না। তবে দুর্ভাগ্যক্রমে, তারা সর্বদা একটি অবিরত জরিমানার দিকে পরিচালিত করে, সুতরাং তারা একটি গণনামূলক দৃষ্টিকোণ থেকে খারাপ। আমি মনে করি কচী বিতরণের উপর ভিত্তি করে একটি জরিমানা ভাল । log(λ2+β2)
সম্ভাব্যতাবিরোধী

2
@probabilityislogic তোমার মত একটি ভাষায় ডবল Pareto দণ্ড কোন ভাল বাস্তবায়নের জানি না, rবা python? আমি এটি চেষ্টা করতে চাই।
জাচ

1
আমি যা বুঝতে পেরেছি তা থেকে, এআইসির মাধ্যমে মডেল নির্বাচন এবং লেভ-ওয়ান-আউট-ক্রস-বৈধকরণ মূলত একই জিনিস (অ্যাসিপটোটিক সমতুল্যতা, স্টোন দেখুন, 1977) , সুতরাং এআইসি এবং কিছু ধরণের ক্রস-বৈধকরণ খুব মিলের দিকে নিয়ে যাওয়ার সম্ভাবনা রয়েছে ফলাফল নেই। যাইহোক, আমি ক্যারেট প্যাকেজটি ব্যবহার করি নি, এবং পদ্ধতি কল থেকে এটি দেখে মনে হচ্ছে কিছুটা ক্ষেত্রে এআইসি সত্যই ব্যবহৃত হয়েছিল।
ফাইলউন্ডার ওয়াটার

38

@ গুং দ্বারা বর্ণিত সমস্যাগুলির সাথে আমি সম্পূর্ণ সম্মত। এটি বলেছিল, বাস্তবিকভাবে বলতে গেলে, মডেল নির্বাচন একটি বাস্তব সমাধানের প্রয়োজনের মধ্যে একটি আসল সমস্যা। অনুশীলনে আমি ব্যবহার করব এমন কিছু এখানে।

  1. আপনার ডেটা প্রশিক্ষণ, বৈধতা এবং পরীক্ষা সেটগুলিতে বিভক্ত করুন।
  2. আপনার প্রশিক্ষণ সেট ট্রেন মডেল।
  3. প্রেডিকশন আরএমএসই-এর মতো একটি মেট্রিক ব্যবহার করে বৈধতা সেটটিতে মডেল কর্মক্ষমতা পরিমাপ করুন এবং সর্বনিম্ন পূর্বাভাস ত্রুটির সাথে মডেলটি চয়ন করুন।
  4. প্রয়োজনীয় হিসাবে নতুন মডেল তৈরি করুন, পদক্ষেপগুলি 2-3 বার করুন।
  5. মডেল পরীক্ষার সেটটিতে কতটা ভাল পারফর্ম করে তা জানান।

বাস্তব বিশ্বে এই পদ্ধতিটি ব্যবহারের উদাহরণের জন্য, আমি বিশ্বাস করি যে এটি নেটফ্লিক্স পুরষ্কার প্রতিযোগিতায় ব্যবহৃত হয়েছিল।


15
না থাকলে ডেটা বিভাজন নির্ভরযোগ্য নয় । n>20000
ফ্র্যাঙ্ক হ্যারেল

5
@ ফ্র্যাঙ্ক: আপনি কী ভাবেন এন এর এত বেশি হওয়া দরকার?
রোল্যান্ডো 2

14
সঠিক নির্ভুলতার কারণে। আপনি যদি আবার বিভক্ত হন তবে আপনি আরও বিভিন্ন ফলাফল পেতে পারেন। এজন্য লোকেরা 10-ভাঁজ ক্রস-বৈধকরণ বা বুটস্ট্র্যাপিংয়ের 100 পুনরাবৃত্তি করে।
ফ্র্যাঙ্ক হেরেল

10
@ ফ্র্যাঙ্কহারেল কী এটি এন> 20000 চিত্রের উপর নির্ভর করে? এটি " বেশ কয়েকটি শত কারণের " সম্পর্কে মূল পোস্টারের মন্তব্যের ভিত্তিতে ? বা এটি কোনও তথ্যের দিক থেকে স্বাধীন?
ড্যারেন কুক

33
আমি যে ধরণের সেটিংয়ের ডেটা বিভক্তকরণের পরীক্ষা করছি সেটিতে এন = 17000 ছিল 0.3 এর একটি ভগ্নাংশের একটি ইভেন্ট এবং প্রায় 50 টি পরামিতি পরীক্ষা করা বা বাইনারি লজিস্টিক মডেলটিতে লাগানো। আমি এলোমেলো 1: 1 বিভক্ত ব্যবহার করেছি। আমি যখন ডেটা পুনরায় বিভক্ত করেছি এবং আবার শুরু করেছি তখন পরীক্ষার নমুনায় বৈধতাযুক্ত আরওসি অঞ্চল যথেষ্ট পরিবর্তন হয়েছিল। সিমুলেশন অধ্যয়ন এবং সম্পর্কিত তথ্যাদি আরও তথ্য দেওয়ার জন্য biostat.mc.vanderbilt.edu/rms এর পাঠ্যে ব্যবহৃত পদ্ধতিগুলির স্টাডিজ দেখুন Look
ফ্র্যাঙ্ক হ্যারেল

15

প্রশ্নের উত্তর দেওয়ার জন্য, এখানে বেশ কয়েকটি বিকল্প রয়েছে: ১) এআইসি / বিআইসি দ্বারা অল-সাবসেট ২) পি-মান দিয়ে ধাপে ধাপে) A) এআইসি / বিআইসির পদক্ষেপে) লাসো নিয়মিতকরণ (এআইসি / বিআইসি বা সিভি উভয়ের ভিত্তিতেই হতে পারে) 5) জেনেটিক অ্যালগরিদম (জিএ) 6) অন্যরা? )) অ-স্বয়ংক্রিয়, তত্ত্বের ("বিষয় সম্পর্কিত জ্ঞান") ভিত্তিক নির্বাচন

পরবর্তী প্রশ্নটি কোন পদ্ধতিটি ভাল। এই কাগজ (doi: 10.1016 / j.amc.2013.05.016) ইঙ্গিত করে যে "সমস্ত সম্ভাব্য পীড়ন" তাদের প্রস্তাবিত নতুন পদ্ধতিতে একই ফলাফল দিয়েছে এবং পদক্ষেপের চেয়েও খারাপ। তাদের মধ্যে একটি সাধারণ জি.এ. এই কাগজটি (ডিওআই: 10.1080 / 10618600.1998.10474784) দণ্ডিত রিগ্রেশন (ব্রিজ, লাসো ইত্যাদি) "লাফস-অ্যান্ড-বাউন্ডস" (একটি সম্পূর্ণ অনুসন্ধান অ্যালগরিদম তবে দ্রুত বলে মনে হয়) এর সাথে তুলনা করে এবং পাওয়া গেছে "ব্রিজ মডেলটি সেরা মডেলের সাথে একমত লাফ এবং সীমানা পদ্ধতি দ্বারা সাবসেট নির্বাচন "। এই কাগজটি (doi: 10.1186 / 1471-2105-15-88) দেখায় জিএ লাসোর চেয়ে ভাল। এই কাগজটি (ডিওআই: 10.1198 / জিসিএজি .2009.06164) একটি পদ্ধতির প্রস্তাব দিয়েছে - মূলত একটি অল-সাবসেট (বিআইসির উপর ভিত্তি করে) পদ্ধতির কিন্তু চতুরতার সাথে গণনার সময়কে হ্রাস করে। তারা দেখায় যে এই পদ্ধতিটি লাসোর চেয়ে ভাল। মজার বিষয় হল, এই কাগজটি (ডিওআই: 10.1111 / j.1461-0248.2009.01361।

সুতরাং সামগ্রিকভাবে ফলাফলগুলি মিশ্রিত হয়েছে তবে আমি একটি ধারণা পেয়েছি যে জিএ খুব ভাল বলে মনে হচ্ছে যদিও ধাপে ধাপে ধাপে খুব খারাপ নাও হয় এবং এটি দ্রুত is

হিসাবে 7), অ-স্বয়ংক্রিয়, তত্ত্বের ব্যবহার ("বিষয় জ্ঞান") ওরিয়েন্টেড নির্বাচন। এটি সময় সাপেক্ষ এবং এটি অটোমেটিক পদ্ধতির চেয়ে অগত্যা ভাল নয়। প্রকৃতপক্ষে সময়-সিরিজের সাহিত্যে, এটি সুপ্রতিষ্ঠিত যে স্বয়ংক্রিয় পদ্ধতি (বিশেষত বাণিজ্যিক সফ্টওয়্যার) মানব বিশেষজ্ঞদের "যথেষ্ট পরিমাণে" (ডও: 10.1016 / এস0169-2070 (01) 00119-4, পৃষ্ঠা 561 উদাহরণস্বরূপ বিভিন্ন ক্ষতিকারক মসৃণতা নির্বাচন করে) এবং আরিমা মডেল)।


6
সচেতন থাকুন যে আপনি কোনও নির্দিষ্ট রুটিনের পক্ষে (এমনকি ইচ্ছাকৃতভাবে নয়) উপকরণের জন্য ডেটা তৈরির প্রক্রিয়া পরিবর্তন করে বিভিন্ন নির্বাচন অ্যালগরিদমের সিমুলেশন স্টাডিতে বিভিন্ন পারফরম্যান্স পেতে পারেন। কী পদ্ধতির দ্রুত বা ধীর হবে তার বিষয়টি স্বতন্ত্র, তবে সম্ভবত এটি এখনও গুরুত্বপূর্ণ।
গাং

2
বাস্তবে লাসসোতে তিবশিরানীর মূল কাগজে যে উদাহরণগুলি দেওয়া হয়েছে তা @ গুংয়ের বক্তব্যকে ভালভাবে ফুটিয়ে তুলেছে । একই তথ্য বাস্তব উপাত্তে বিভিন্ন পদ্ধতির তুলনামূলক অধ্যয়নের জন্য যায়। বিটিডাব্লু, আপনার শেষ রেফারেন্স ঠিক আছে? আপনি যে ডিওআই-র সাথে ক্লিমেটস অ্যান্ড হেন্ড্রির কাগজ দিয়েছেন তা দাবী করে না যে স্বয়ংক্রিয় পদ্ধতিগুলি মানব বিশেষজ্ঞদের বাইরে নিয়ে আসে, বা "যথেষ্ট পরিমাণে মার্জিন" শব্দটি ব্যবহার করে না। (আপনি পুরো রেফারেন্স দিলে ভালো লাগবে))
স্কর্চচি

এটি পেয়েছে: গুডরিচ (2001), "এম 3-প্রতিযোগিতায় বাণিজ্যিক সফটওয়্যার", ইনট। জে পূর্বাভাস।, 17, পিপি 560–565। এটি ক্লিমেটস অ্যান্ড হেন্ড্রি পেপার হিসাবে একই "এম 3-প্রতিযোগিতা" সংগ্রহের অধীনে, এই কারণেই ডিওআই আমাকে গুগলিং পাঠিয়েছিল।
স্কোর্টচি

যাইহোক, এটি মোটেও পরিষ্কার নয় যে গুডরিচের মন্তব্যে বিষয়-বিষয় দক্ষতার সাথে কিছু যুক্ত রয়েছে ।
স্কোর্টচি

1
@ স্কোর্টচি জার্নালের সেই ইস্যুতে 581 পৃষ্ঠা থেকে শুরু হওয়া নিবন্ধে এটি আরও পরিষ্কার হতে পারে। এটি "এম 2-প্রতিযোগিতা" এর সাথে আরও সম্পর্কিত যার মধ্যে স্বয়ংক্রিয় পূর্বাভাসের পদ্ধতিগুলি আমন্ত্রিত মানব বিশেষজ্ঞের সাথে তুলনা করা হয়েছিল (সময়-সিরিজের সাহিত্যের কিছু বড় নাম সহ) যারা অর্থনৈতিক / শিল্পের প্রেক্ষাপট জানেন এবং এমনকি যে সংস্থাগুলি সরবরাহ করেছিলেন তাদের কাছ থেকে অতিরিক্ত তথ্য চাইতে পারে তথ্যটি.
হেরান_ এক্সপ্রেস

6

এখানে বাম ক্ষেত্রের বাইরে একটি উত্তর দেওয়া হয়েছে- লিনিয়ার রিগ্রেশন ব্যবহারের পরিবর্তে, রিগ্রেশন ট্রি (rpart প্যাকেজ) ব্যবহার করুন। এটি স্বয়ংক্রিয় মডেল নির্বাচনের জন্য উপযুক্ত কারণ অল্প পরিশ্রমে আপনি সিপি নির্বাচন স্বয়ংক্রিয় করতে পারেন, অতিরিক্ত-ফিটনেস এড়াতে ব্যবহৃত প্যারামিটার।


3

লিনিয়ার মডেল সর্বাধিক মূল্যবান স্বতন্ত্র ভেরিয়েবলগুলি নির্বাচনের ক্ষেত্রে জেনেটিক অ্যালগরিদম প্রয়োগ করে অনুকূলিত করা যেতে পারে। ভেরিয়েবলগুলি অ্যালগরিদমে জিন হিসাবে প্রতিনিধিত্ব করা হয় এবং সর্বোত্তম ক্রোমোজোম (জিনের সেট) তখন ক্রসওভার, মিউটেশন ইত্যাদি অপারেটরগুলির পরে নির্বাচিত হয় being এটি প্রাকৃতিক নির্বাচনের উপর ভিত্তি করে - তবে সেরা 'প্রজন্ম' বেঁচে থাকতে পারে, অন্য কথায়, অ্যালগরিদম অনুমানের কার্যটি অনুকূল করে যা নির্দিষ্ট মডেলের উপর নির্ভর করে।


2
এটি ডেটাতে "সেরা" ভেরিয়েবলগুলি নির্বাচন করবে , প্রয়োজনীয় তথ্য-উপাত্ত প্রক্রিয়া / জনসংখ্যার সেরা ভেরিয়েবলগুলি নয়, কারণ এতে কেবলমাত্র ডেটাতে অ্যাক্সেস রয়েছে। ওপি যে পদক্ষেপের পদ্ধতিটি চেয়েছিল তা থেকে এটি আসলেই আলাদা নয়।
গাং

0

আমাদের আর বেস স্ট্যাটাস প্যাকেজে একটি ফাংশন রয়েছে, যাকে বলা হয় স্টেপ (), যা সর্বনিম্ন এআইসির ভিত্তিতে মডেলগুলির অগ্রবর্তী, পিছিয়ে বা ধাপে ধাপে নির্বাচন করে selection এটি ফ্যাক্টর ভেরিয়েবলের জন্যও কাজ করে। এটি কি এখানে উদ্দেশ্যটি সার্ভার করে না ?.


-51

আমি দেখতে পাই আমার প্রশ্নটি প্রচুর আগ্রহ এবং স্বয়ংক্রিয় মডেল নির্বাচন পদ্ধতির বৈধতা সম্পর্কে একটি আকর্ষণীয় বিতর্ক generated আমি স্বীকার করি যে একটি স্বয়ংক্রিয় নির্বাচনের ফলাফলকে মঞ্জুর করা গ্রহণ করা ঝুঁকিপূর্ণ, তবে এটি একটি পয়েন্টিং হিসাবে ব্যবহার করা যেতে পারে। সুতরাং আমি এখানে আমার বিশেষ সমস্যার জন্য এটি কীভাবে প্রয়োগ করেছি, যা প্রদত্ত ভেরিয়েবলটি ব্যাখ্যা করার জন্য সেরা n কারণগুলি খুঁজে পাওয়া যায়

  1. সমস্ত পদক্ষেপের পরিবর্তনশীল বনাম পৃথক কারণগুলি করুন
  2. প্রদত্ত মানদণ্ডকে একটি নির্দিষ্ট মানদণ্ড অনুসারে বাছাই করুন (এআইসি বলুন)
  3. নিম্ন টি-স্ট্যাটাসযুক্ত কারণগুলি সরিয়ে ফেলুন: তারা আমাদের ভেরিয়েবলটি ব্যাখ্যা করার ক্ষেত্রে অকেজো
  4. ২-এ দেওয়া অর্ডার সহ মডেলগুলিতে একের পর এক উপাদান যুক্ত করার চেষ্টা করুন এবং যখন তারা আমাদের মানদণ্ডটি উন্নতি করে তখন সেগুলি রাখুন। সমস্ত কারণের জন্য পুনরাবৃত্তি।

আবার এটি খুব রুক্ষ, পদ্ধতিটি উন্নত করার বিভিন্ন উপায় থাকতে পারে তবে এটি আমার সূচনা পয়েন্ট। আমি এই উত্তরটি পোস্ট করছি এই আশায় যে এটি অন্য কারও পক্ষে কার্যকর হতে পারে। মন্তব্য স্বাগত!


47
(1) আমি এই থ্রেডে কোনও "বিতর্ক" প্রত্যক্ষ করি নি: সমস্ত উত্তর এবং মন্তব্য একই মূল বার্তা উপস্থাপন করে। (২) আপনার বাস্তবায়নটি ধাপে ধাপে রিগ্রেশনের একটি অ্যাডহক সংস্করণ বলে মনে হচ্ছে । আমি একমত যে এটি একটি প্রাথমিক পয়েন্ট হিসাবে কার্যকর হতে পারে তবে শর্ত থাকে যে এটি স্বয়ংক্রিয়ভাবে নিজেই শেষ হিসাবে স্বীকৃত হয় না।
হোবার

28
আপনি প্রকৃতপক্ষে আপনার নিজের উত্তরটি গ্রহণ করেছেন যা সম্প্রদায়ের দ্বারা আনা প্রতিটি যুক্তির বিরুদ্ধে চলে against এখানে নেতিবাচকগুলি দেখে অবাক হওয়ার কিছু নেই ...
জাঙ্ক ank

23
আমি বিশ্বাস করি যে আমি প্রথমবারের মতো এতগুলি ডাউনটি দেখছি see @ স্যাম কেন আপনি কেবলমাত্র কিছু দুর্দান্ত উত্তর গ্রহণ করেন না এবং আপনার "উত্তর" মুছবেন না?
মার্বেল

এটি কি এসইর সবচেয়ে নিচু উত্তর?
এমকেটি

2
আপনি "প্রদত্ত ভেরিয়েবলটি ব্যাখ্যা করার জন্য সর্বোত্তম এন ফ্যাক্টরগুলি সন্ধান করার জন্য" আপনার লক্ষ্যটি বলে @ সম্ভাব্যতা সম্পর্কিত গুরুত্বপূর্ণ প্রশ্নের উত্তর দিয়েছেন বলে মনে হচ্ছে। মডেল-বিল্ডিংকে ব্যাখ্যা করার জন্য (কার্যকারিতা বোঝার জন্য) পূর্বাভাস দেওয়ার জন্য মডেল-বিল্ডিংয়ের চেয়ে আরও বেশি নিবিড়ভাবে করা প্রয়োজন more
Rolando2
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.