সেনে পদে পদে রিগ্রেশন?


14

মনে করুন আমি একটি বাইনারি শ্রেণিবদ্ধ করতে চাই। আমার কয়েক হাজার বৈশিষ্ট্য রয়েছে এবং মাত্র কয়েক দশক নমুনা। ডোমেইন জ্ঞান থেকে, আমি বিশ্বাস করি যে বর্গ ট্যাগ সঠিকভাবে মাত্র কয়েক বৈশিষ্ট্যগুলি ব্যবহার পূর্বাভাস করা যায় একটি ভাল কারণ আছে, কিন্তু আমি কোন ধারণা আছে যা বেশী। আমি আরও চাই যে চূড়ান্ত সিদ্ধান্তের নিয়মটি ব্যাখ্যা করা / ব্যাখ্যা করা সহজতর হয়, আরও অল্প সংখ্যক বৈশিষ্ট্য প্রয়োজন। আমার বৈশিষ্ট্যগুলির কয়েকটি নির্দিষ্ট উপসর্গ অত্যন্ত সংযুক্ত, সুতরাং স্বতন্ত্রভাবে সবচেয়ে ভবিষ্যদ্বাণীমূলক কয়েকটি নির্বাচন করা কার্যকর হবে না। আমি আমার বৈশিষ্ট্যগুলিতে অর্থপূর্ণভাবে হাইপোথিসিস টেস্টিং করতে সক্ষম হতে চাই।

এই পদক্ষেপে নিম্নলিখিত ধাপে ধাপে নিয়ন্ত্রণের পদ্ধতি যুক্তিসঙ্গত:

  1. মডেলটিতে ইতিমধ্যে বৈশিষ্ট্যগুলি দেওয়া (বা প্রথম পুনরাবৃত্তির কেবলমাত্র বিরতি), এমন বৈশিষ্ট্যটি নির্বাচন করুন যা মডেলটিতে যুক্ত হওয়ার পরে বৃহত্তম লগ সম্ভাবনা অনুপাত উত্পাদন করে। এই নির্বাচনের প্রতিটি অনুমানের পরীক্ষার জন্য নামমাত্র পি-মান গণনা করার জন্য সম্ভাবনা অনুপাত চি-বর্গ পরীক্ষা ব্যবহার করুন। এখানে শূন্যতাটি হল মডেলটিতে অতিরিক্ত পরিবর্তনশীল যুক্ত করা কোনও অতিরিক্ত ভবিষ্যদ্বাণীমূলক ক্ষমতা সরবরাহ করে না। বিকল্পটি হ'ল এটি ভবিষ্যদ্বাণীপূর্ণ দক্ষতা বৃদ্ধি করে

  2. প্রতিটি পুনরাবৃত্তির প্রথম ধাপে পরীক্ষিত অনুমানকে পরিবার হিসাবে আচরণ করুন এবং বেঞ্জামিন-হচবার্গের মতো কিছু ব্যবহার করে ক্ষুদ্রতম পি-মান (নির্বাচিত বৈশিষ্ট্যের জন্য) এর জন্য ভুয়া আবিষ্কারের হার গণনা করুন।

  3. কিছু থামানোর মানদণ্ড পূরণ না হলে গোটো 1।

  4. পৃথক বৈশিষ্ট্যগুলির জন্য ভ্রান্ত আবিষ্কারের হারের প্রতিবেদন করুন, তবে সামগ্রিকভাবে মডেলটির পি-মান নয় (যেহেতু এটি ব্যাপকভাবে ফুলে উঠবে)। এই একাধিক পরীক্ষার সংশোধন করা পি-মানগুলির প্রতিটি মডেলটিতে পূর্বে যুক্ত সমস্ত বৈশিষ্ট্য দেওয়া সেই বৈশিষ্ট্যের পরিসংখ্যানিক তাত্পর্য উপস্থাপন করে ।

এই পরিস্থিতিতে এই জাতীয় কিছু করা সাফল্যের সাথে পদক্ষেপের প্রতিরোধের সমস্ত সাধারণ সমালোচনা সফলভাবে এড়াতে পারে? মিথ্যা আবিষ্কারের হারগুলি কি এভাবে গণনা করা যায়?


3
দণ্ডিত রিগ্রেশন পদ্ধতির (লসো, ইলাস্টিকনেট ইত্যাদি) না যাওয়ার কোনও কারণ আছে কি?
বেন বলকার

উত্তর:


11

আমি আপনাকে সেই পদ্ধতিটি ব্যবহার করার পরামর্শ দিচ্ছি না। আমার সুপারিশটি হ'ল: এই প্রকল্পটি ত্যাগ করুন। শুধু হাল ছেড়ে দিয়ে চলে যাও। আপনার এই কাজের কোনও আশা নেই।

দান্তের ইনফার্নো "বিসর্জন আশা" এর দোর উদাহরণ ইমেজ জন্য উত্স

স্টেপওয়াইজ সিলেকশন (সিএফ।, এখানে ) দিয়ে স্ট্যান্ডার্ড সমস্যাগুলি আলাদা করে দেওয়া , আপনার ক্ষেত্রে এমন উচ্চ মাত্রিক জায়গায় পৃথক হওয়ার কারণে আপনার নির্ভুল ভবিষ্যদ্বাণী হওয়ার সম্ভাবনা খুব বেশি।

আপনার পরিস্থিতি সম্পর্কে আমার কাছে বিশদ নেই, তবে আপনি উল্লেখ করেছেন যে আপনার কাছে "মাত্র কয়েক দশকের নমুনা" রয়েছে। আসুন দাতব্য হয়ে উঠুন এবং বলুন যে আপনার 90 আছে You আপনি আরও বলেন আপনার "কয়েক হাজার বৈশিষ্ট্য" রয়েছে। আসুন কল্পনা করুন যে আপনার 'কেবল' 2,000 আছে। সরলতার স্বার্থে, আসুন আমরা বলি যে আপনার সমস্ত বৈশিষ্ট্য বাইনারি। আপনি "বিশ্বাস করেন যে ক্লাস লেবেলটি কেবলমাত্র কয়েকটি বৈশিষ্ট্য ব্যবহার করে সঠিকভাবে পূর্বাভাস দেওয়া যেতে পারে", আসুন আমরা ধরে নিই যে আপনি সর্বোচ্চ 9 টি বৈশিষ্ট্য সন্ধান করতে পারবেন। শেষ অবধি, কল্পনা করুন যে সম্পর্কটি নির্বিচারবাদী, যাতে প্রকৃত সম্পর্কটি সর্বদা আপনার ডেটাতে পুরোপুরি উপস্থিত থাকে। (আমরা এই সংখ্যাগুলি এবং অনুমানগুলি পরিবর্তন করতে পারি, তবে এটির ফলে সমস্যাটি আরও খারাপ হওয়া উচিত)) এখন, এই (উদার) শর্তে আপনি কীভাবে সেই সম্পর্কটি পুনরুদ্ধার করতে পারবেন? এটি হ'ল কতক্ষণ সঠিক সেটটি একমাত্র সেট হতে পারে যা নিখুঁত নির্ভুলতা দেয়? অথবা, অন্য কোনও উপায়ে বলা যায়, নয়টি বৈশিষ্ট্যের কয়টি সেটও একা সুযোগের সাথে খাপ খায়?

কিছু (অতিমাত্রায়) সাধারণ গণিত এবং সিমুলেশনগুলির এই প্রশ্নের কিছু সংকেত সরবরাহ করা উচিত। প্রথমত, 9 টি ভেরিয়েবলের সাথে, যার প্রতিটি 0 বা 1 হতে পারে, পর্যবেক্ষণগুলি যে নিদর্শনগুলি দেখাতে পারে তার সংখ্যা , তবে আপনার কাছে কেবল 90 টি পর্যবেক্ষণ থাকবে। সুতরাং এটি সম্পূর্ণভাবে সম্ভব যে, 9 বাইনারি ভেরিয়েবলের প্রদত্ত সেটগুলির জন্য, প্রতিটি পর্যবেক্ষণের পূর্বাভাসক মানগুলির একটি আলাদা সেট রয়েছে — সেখানে কোনও প্রতিলিপি নেই। কারও কাছে y = 0 এবং কিছু y = 1 রয়েছে এমন একই পূর্বাভাসক মানগুলির সাথে প্রতিলিপি না থাকলে আপনার সম্পূর্ণ বিচ্ছেদ হবে এবং প্রতিটি পর্যবেক্ষণের নিখুঁত ভবিষ্যদ্বাণী করা সম্ভব হবে। 29=512

নীচে, আমার কাছে একটি সিমুলেশন রয়েছে (আর কোডে কোড করা হয়েছে) আপনি কতটা 0 এবং 1 গুলি উভয়ই x- মানগুলির কোনও ধরণ নাও পেতে পারেন তা দেখতে। এটি যেভাবে কাজ করে তা হ'ল আমি 1 থেকে 512 পর্যন্ত সংখ্যার একটি সেট পেয়েছি, যা সম্ভাব্য নিদর্শনগুলিকে উপস্থাপন করে এবং প্রথম ৪৫ (যেটি 0s হতে পারে) এর কোনও নিদর্শন দ্বিতীয় 45-তে যে কোনও প্যাটার্নের সাথে মেলে কিনা তা দেখুন (এটি 1s হতে পারে)। এটি ধরে নিয়েছে যে আপনার কাছে পুরোপুরি সুষম প্রতিক্রিয়া ডেটা রয়েছে, যা আপনাকে এই সমস্যার বিরুদ্ধে সেরা সম্ভাব্য সুরক্ষা দেয়। নোট করুন যে কয়েকটি নকল এক্স-ভেক্টর পৃথক পৃথক ওয়াই-মান সহ আপনাকে বুনো সত্য থেকে বের করে দেয় না, এর অর্থ হ'ল আপনি আপনার ডেটাসেটের প্রতিটি পর্যবেক্ষণের পুরোপুরি পূর্বাভাস দিতে সক্ষম হবেন না, এটি অত্যন্ত কঠোর মান I আমি এখানে ব্যবহার করছি।

set.seed(7938)  # this makes the simulation exactly reproducible
my.fun = function(){
  x = sample.int(512, size=90, replace=TRUE)
  return(sum(x[1:45]%in%x[46:90])==0)
}
n.unique = replicate(10000, my.fun())
mean(n.unique)  # [1] 0.0181

সিমুলেশনটি প্রস্তাব দেয় যে আপনি 9 এক্স-ভেরিয়েবলের সেটগুলির প্রায় 1.8% সেট সহ এই সমস্যাটি পাবেন। এখন, 9 টি কত সেট আছে? স্ট্রিক্টলি, যে হবে (যেহেতু আমরা কট করেছি যে সত্য 9 নির্ণায়ক কার্যকারণ ভেরিয়েবল আপনার সেট আছে)। তবে, সেগুলির অনেকগুলি ওভারল্যাপিং হবে; সেখানে থাকবে 1991 / 9 221 আপনার ভেরিয়েবল একটি নির্দিষ্ট পার্টিশন (অনেক ধরনের সম্ভাব্য পার্টিশন সহ) মধ্যে অ ওভারল্যাপিং 9 সেট। সুতরাং, প্রদত্ত কিছু বিভাজনের মধ্যে আমরা আশা করতে পারি যে সেখানে 221 × 0.018 4 থাকবে1991 choose 9=1.3×10241991/9221221×0.0184 9 টি এক্স-ভেরিয়েবলের সেট যা আপনার ডেটাসেটের প্রতিটি পর্যবেক্ষণের পুরোপুরি পূর্বাভাস দেবে।

মনে রাখবেন যে এই ফলাফলগুলি কেবলমাত্র সেই ক্ষেত্রে যেখানে আপনার তুলনামূলকভাবে বড় ডেটাসেট রয়েছে ("দশকের" মধ্যে), অপেক্ষাকৃত ছোট সংখ্যক ভেরিয়েবল ("হাজার" এর মধ্যে) কেবলমাত্র এমন ক্ষেত্রে সন্ধান করে যেখানে প্রতিটি পর্যবেক্ষণকে যথাযথভাবে পূর্বাভাস দেওয়া যায় ( সেখানে থাকবে অনেক বেশি সেট প্রায় নিখুঁত), ইত্যাদি আপনার প্রকৃত ক্ষেত্রে কাজ করার 'এই ভাল' সম্ভাবনা কম। তদুপরি, আমরা স্থির করেছিলাম যে সম্পর্কটি নিখুঁতভাবে নির্বিচারক is সম্পর্কের মধ্যে কিছু এলোমেলো আওয়াজ পেলে কি হবে? সেক্ষেত্রে আপনার কাছে এখনও 4 ডলার (নাল) সেট থাকবে যা আপনার ডেটা সম্পর্কে নিখুঁতভাবে পূর্বাভাস দেয় তবে ডান সেটটি তাদের মধ্যে নাও থাকতে পারে

টিএল, ডা , এখানে মূল কথাটি হ'ল আপনার ভেরিয়েবলগুলির সেটটি অনেক বড় / উচ্চ মাত্রিক এবং আপনার কিছু পরিমাণে সম্ভব হওয়ার জন্য ডেটা পরিমাণের পরিমাণও খুব ছোট। যদি সত্যিই সত্য হয় যে আপনার কাছে "দশক" নমুনা রয়েছে, "কয়েক হাজার" ভেরিয়েবল রয়েছে, এবং ভেরিয়েবলগুলি সঠিক হতে পারে এমন কোনও পার্থিব ধারণা নেই তবে আপনার কোনও প্রক্রিয়া নিয়ে কোথাও যাওয়ার আশা নেই। আপনার সময় সঙ্গে অন্য কিছু করতে যান।


1
এখন এটি একটি উত্তরের মূল পরিচয়, এটি আমি পছন্দ করি।
asukasz গ্রেড

1
একটি প্রকল্প পরিত্যাগ প্রায়ই একটি যুক্তিসঙ্গত বিকল্প। যদিও অবশ্যই মামলার একটি ছোট অনুপাত, আমি ক্লায়েন্টদের একাধিকবার পরামর্শ দিয়েছি যে তারা যে প্রকল্পগুলি মনে রাখবে তা কার্যকর হবে না।
গুং - মনিকা পুনরায়

1

আমার উত্তরের উদ্দেশ্যে, আমি আগ্রহের বাইনারি পরিবর্তনশীল হিসাবে চিহ্নিত করব  ; ( i = 1 , , n ) এবং ভবিষ্যদ্বাণীকারীরা এক্স আই জে  ; ( j = 1 , , পি ) এবং ধরে নিন যে Y এর মান Y = 0 এবং Y = 1 । মডেল মি নির্দেশ করতে γ মি সংজ্ঞা দেওয়াও সুবিধাজনক হবে  ; ( মি = 1)Yi ;(i=1,,n)Xij ;(j=1,,p)YY=0Y=1γm , যেমন γ টি এম এক্স আই জে সমান হয় এক্স আই জে যদিজেথভেরিয়েবলটিএমটিমডেলে থাকে এবংঅন্যথায় 0 হয়।m ;(m=1,..,M)γmTXijXij0

আমি আপনার পদ্ধতিতে একটি পরিবর্তন করব এবং একটি যুক্তি দেব। আপনি একটি শ্রেণিবদ্ধ মডেল ব্যবহার করছেন, যার অর্থ আপনি ভবিষ্যতে একটি শ্রেণিবদ্ধ ভেরিয়েবলের মান ভবিষ্যদ্বাণী করতে চান - সুতরাং আপনার সত্যিকার অর্থে একটি ভবিষ্যদ্বাণী নিয়মটি সংজ্ঞায়িত করা উচিত ( প্রেডিক্টরের একটি নতুন সেট দেওয়া , আপনি কীভাবে ভবিষ্যদ্বাণী করবেন Y = 1 বা Y = 0 )।XjY=1Y=0

সুতরাং আমি সম্ভাবনা অনুপাতের চেয়ে সরাসরি ভবিষ্যদ্বাণীটি মূল্যায়নের পরামর্শ দেব। তবে পূর্বাভাস দেওয়া পর্যবেক্ষণটি মডেলটির অনুমানের সাথে অন্তর্ভুক্ত করা উচিত নয় (কারণ এটি আসলে এমন পরিস্থিতিতে যা আপনি যখন আপনার মডেলটি ব্যবহার করবেন তখন অবশ্যই আপনি মুখোমুখি হবেন)। সুতরাং একটি নতুন পদক্ষেপ 1) (সাহসী আমার প্রস্তাবিত পরিবর্তন)। 1) মডেলটিতে ইতিমধ্যে বৈশিষ্ট্যগুলি দেওয়া (বা প্রথম পুনরাবৃত্তির কেবলমাত্র বিরতি), এমন বৈশিষ্ট্যটি নির্বাচন করুন যা মডেলটিতে যুক্ত হওয়ার পরে সেরা পূর্বাভাস দেয়।

এখন আপনি সিদ্ধান্ত নিতে হবে

  1. আপনি গাণিতিকভাবে বোঝাতে "সেরা" বলতে চান
  2. কীভাবে আপনার ডেটা "ফিটিং" এবং "পূর্বাভাস" অংশগুলিতে বিভক্ত করবেন

আমি প্রত্যেকের জন্য একটি পরামর্শ করব:

  1. Y=1Y=0F=CC+IFCI
  2. আপনার কাছে প্রচুর ডেটা নেই বলে, আপনার মডেলটি ফিট করার জন্য যথাসম্ভব প্রয়োজন, সুতরাং একটি সাধারণ ড্রপ ওয়ান জ্যাকনিফ পদ্ধতি ব্যবহার করা যেতে পারে। আপনি পর্যবেক্ষণ ছেড়ে দিন12,,n121,3,,n2nF=CnFm

Fm(m=1,,M)m=argmaxmMFm

sthMs=p+1XjXj

পদক্ষেপ অনুসারে ঝুঁকিপূর্ণ হতে পারে কারণ আপনি "গ্লোবাল সর্বাধিক" এর পরিবর্তে "স্থানীয় সর্বাধিক" সন্ধান করতে পারেন, বিশেষত কারণ আপনার কাছে এত বেশি সংখ্যক ভবিষ্যদ্বাণী রয়েছে (এটি সর্বোত্তম করার জন্য এটি একটি বড় "স্থান", এবং সম্ভবত মাল্টি-মডেল - অর্থ অনেকগুলি "সেরা" মডেল রয়েছে)

100F

আমি আপনাকে এই একটি পাবেন মনে অনেক কেন পি মান নির্দেশ করে মডেল ভালো সহজ বরং ব্যাখ্যা করার চেষ্টা করার পরিবর্তে, একটি অ-পরিসংখ্যানবিদ চূড়ান্ত মডেল আপনার পছন্দ ন্যায্যতা।

Y

দুটি চূড়ান্ত মন্তব্য:

  1. আপনি এই যন্ত্রপাতিটি এই পদক্ষেপের ভিত্তিতে ফরওয়ার্ড সিলেকশন (কেবল ভেরিয়েবল যুক্ত করুন) বা পশ্চাদপদ নির্বাচন (সম্পূর্ণ মডেল থেকে শুরু করুন এবং কেবলমাত্র ভেরিয়েবল অপসারণ করুন) ভাল কিনা তা সিদ্ধান্ত নিতে এটি ব্যবহার করতে পারেন।
  2. আপনি "মডেলটি" মুছে ফেলার মাধ্যমে পুরো মডেল (বা সহ কোনও মডেল ) ফিট করতে পারেন , যা এক্স টি এক্স ম্যাট্রিক্সের তির্যক উপাদানগুলিতে একটি সংখ্যক সংখ্যার যোগ করার মতো , বা ইনভার্ট করার আগে জিএলএমগুলির জন্য এক্স টি ডব্লু এক্স আপনার বিটা গণনা করা, দেওয়ার জন্য ( এক্স টি এক্স + λ আইpnXTXXTWX(XTX+λI)1XTY(XTWX+λI)1XTWYλλ

পরামর্শের জন্য ধন্যবাদ. যদিও এর সাথে তিনটি সমস্যা রয়েছে: ১. আমি আমার ভবিষ্যদ্বাণীগুলিতে অনিশ্চয়তা এবং কেবলমাত্র বাইনারি পূর্বাভাসের নির্ভুলতা নয়, প্রতিটি পরিবর্তনশীলের অবদানের পরিমাপ করার বিষয়ে যত্নশীল। ২. আমার ডেটাসেটের প্রকৃতি দেওয়া, এটি বেশ গণনামূলকভাবে নিবিড়। ৩. ডোমেন জ্ঞান থেকে, আমি বিশ্বাস করি যে স্থানীয় অপটিমা সমস্যাটি গুরুত্বপূর্ণ নয়।
dsimcha

100nF

আসলে আপনি ঠিক বলেছেন। এই পদ্ধতিটি বৃহত্তর কোডবেসের অংশ হতে পারে এবং আমি ভুলে গিয়েছিলাম যে বাকী কিছু কোডকে প্রতিটি জ্যাকনিফ পুনরাবৃত্তির জন্য পুনরায় চালানোর দরকার পড়েনি। অন্য দুটি পয়েন্ট এখনও প্রয়োগ হয়।
dsimcha

FFFchosenF(j)প্রতিটি ভেরিয়েবলের কারণে ভবিষ্যদ্বাণীমূলক নির্ভুলতার উপর পরিবর্তনশীল)
সম্ভাব্যতা

F
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.