শক্ত পদ্ধতি কি আসলেই আরও ভাল?


17

আমার দুটি গ্রুপ, এ, এবং বি রয়েছে, যার প্রতিটি প্রায় 400 এর আকার এবং প্রায় 300 ভবিষ্যদ্বাণীকারী। আমার লক্ষ্য বাইনারি প্রতিক্রিয়া ভেরিয়েবলের জন্য পূর্বাভাস মডেল তৈরি করা। আমার গ্রাহক এ অন বি থেকে তৈরি মডেলটি প্রয়োগের ফলাফল দেখতে চান (তাঁর বই "রিগ্রেশন মডেলিং কৌশলগুলি", @ ফ্র্যাঙ্কহারেল উল্লেখ করেছেন যে দুটি ডাটা্যাসেট একত্রিত করা এবং তার উপর একটি মডেল তৈরি করা আরও ভাল, যেহেতু এটি যুক্ত করা হয়েছে শক্তি এবং নির্ভুলতা --- পৃষ্ঠাটি 90 দেখুন, বাহ্যিক বৈধতা I আমার কাছে যে ধরণের ডেটা রয়েছে তা সংগ্রহ করা খুব ব্যয়বহুল এবং সময়সাপেক্ষ considering বিবেচনা করে আমি তার সাথে একমত হতে চাই But তবে গ্রাহক কী চান সে সম্পর্কে আমার কোনও পছন্দ নেই ।) আমার অনেক ভবিষ্যদ্বাণীকারী অত্যন্ত সংযুক্ত এবং খুব স্কিউড। আমি আমার ভবিষ্যদ্বাণীমূলক মডেলটি তৈরি করতে লজিস্টিক রিগ্রেশন ব্যবহার করছি।

আমার ভবিষ্যদ্বাণীকারীরা মূলত যান্ত্রিক থেকে আসে। উদাহরণস্বরূপ, মোট সময় বিষয় একটি স্ট্রেস থ্রেশহোল্ড বেশী অধীন ছিল সময়ের জন্য [ T 1 , T 2 ] , বিভিন্ন মানের জন্য α > 0 এবং 0 টি 1 < T 2 । এটি স্পষ্ট যে কেবল তাদের সংজ্ঞা থেকেই এই মোট বেশিরভাগ সময় বীজগণিতভাবে একে অপরের সাথে সম্পর্কিত। বয়গণিতভাবে সম্পর্কিত না এমন অনেক পূর্বাভাসকারী তাদের প্রকৃতির কারণে সম্পর্কিত: যে বিষয়গুলি সময়কালে উচ্চ চাপের মধ্যে থাকে [ টি 1 , টি 2 ]α[টি1,টি2]α>00টি1<টি2[টি1,টি2]সময় সময়কালে উচ্চ চাপের হতে থাকে , এমনকি যদি [ T 1 , T 2 ] [ T 3 , টি 4 ] = । তথ্যের মাত্রা হ্রাস করতে, আমি সম্পর্কিত ভবিষ্যদ্বাণীকারীদের একসাথে ক্লাস্টার করেছি (উদাহরণস্বরূপ, সমস্ত স্ট্রেসের সময় একসাথে) এবং প্রতিটি ক্লাস্টারের প্রতিনিধিত্ব করার জন্য মূল উপাদান বিশ্লেষণ ব্যবহার করেছি। ভেরিয়েবলগুলি স্কিউড হওয়ার কারণে আমি দুটি বিকল্প পথ চেষ্টা করেছিলাম:[টি3,টি4][টি1,টি2][টি3,টি4]=

  • পিসিএ করার আগে, আমি ভেরিয়েবলগুলির স্কিউ হ্রাস করতে লোগারিদমিক ট্রান্সফর্মেশন ব্যবহার করি।
  • আমি মিয়া হুবার্টের আরওবিপিসিএ অ্যালগরিদম ব্যবহার করেছি, যেমন দৃ ,় প্রধান উপাদানগুলি খুঁজে পেতে আর, (প্যাকএহবার্ট) প্যাকেজ আরসিআরভ দ্বারা প্রয়োগ করা হয়েছিল।

আমি আরওসি বক্ররেখার সামগ্রিক আকার, নির্ভুলতা-পুনর্বিবেচনা বক্ররের আকৃতি এবং আরওসি বক্ররেখার (এউসি) এর আওতাধীন অঞ্চলটিকে আমার পারফরম্যান্সের ব্যবস্থা হিসাবে ব্যবহার করছি এবং আমি এ এবং বি উভয় ডেটাসেটের জন্য একই রকম ফলাফল পেতে চাই like আমি দৃust় প্রধান উপাদানগুলি ব্যবহার করে আরও ভাল ফলাফল পাওয়ার প্রত্যাশা ছিলাম, তবে আমার অবাক করে দিয়েছি যে প্রথম পদ্ধতিটি আরও ভাল করেছে: ডেটাসেট এ এবং বি উভয়ের জন্য আরও ভাল এউসি মান, আরওসি বক্ররেখার মধ্যে আরও মিল এবং আরও অনুরূপ নির্ভুলতা-প্রত্যাহার রেখাচিত্র।

এর ব্যাখ্যা কী? এবং আমার ডেটাটিকে সাধারণ দেখানোর পরিবর্তে আমি কীভাবে শক্তিশালী প্রধান উপাদানগুলি ব্যবহার করতে পারি? আরওপিপিসিএর পরিবর্তে এমন কোনও শক্তিশালী পিসিএ পদ্ধতি রয়েছে যা আপনি সুপারিশ করবেন?


"আমি সম্পর্কিত পূর্বাভাসীদের একসাথে ক্লাস্টার করেছি" আপনি কী কী পদক্ষেপের সাথে জড়িত তা আরও ভালভাবে ব্যাখ্যা করতে পারেন? "আমি মজবুত মূল উপাদানগুলি ব্যবহার করে আরও ভাল ফলাফল পাওয়ার প্রত্যাশা করছিলাম" আপনি কীভাবে ফলাফলগুলি পরিমাপ করবেন তা আপনি ব্যাখ্যা করতে পারেন?
ব্যবহারকারী 60

আপনি কেন ডেটাসেটগুলি একত্রিত করা ভাল বলে মনে করেন? আমি মোটেও রাজি হই না। এই ধরণের সমস্যাটি হ'ল একটি অসুবিধা নির্দিষ্ট ডেটার উপর অত্যধিক নির্ভর করে। অন্য ডেটা সেটটিতে মডেলটি পরীক্ষা করা ভাল ধারণা।
পিটার ফ্লুম - মনিকা পুনরায়

লগ ভেরিয়েবলগুলির নিয়মিত পিসিএ কোন অর্থে "আরও ভাল" ছিল? এটি কি আরও স্বজ্ঞাত জ্ঞান তৈরি করেছে? এটি দ্বিতীয় ডেটা সেটে আরও ভাল ফলাফল দিয়েছে?
পিটার ফ্লুম - মনিকা পুনরায়

আপনার মন্তব্যের জন্য আপনাকে @ পিটারফ্লমকে ধন্যবাদ! আমি আপনার মন্তব্য অনুযায়ী প্রশ্ন আপডেট করেছি।
ব্যবহারকারী765195

আপনার মন্তব্যের জন্য আপনাকে @ user603 ধন্যবাদ! আমি আপনার মন্তব্য প্রতিফলিত করতে প্রশ্ন আপডেট করেছি।
ব্যবহারকারী765195

উত্তর:


17

সংক্ষেপে, এবং আপনার বর্ণনা থেকে, আপনি কমলা থেকে আপেলকে তুলনা করছেন .... দুটি উপায়ে।

লগ

এই উদাহরণ বিবেচনা করুন:

library("MASS")
library("copula")
library("rrcov")
p<-2;n<-100;

eps<-0.2
l1<-list()
l3<-list(rate=1)
#generate assymetric data
model<-mvdc(claytonCopula(1,dim=p),c("unif","exp"),list(l1,l3));
x1<-rMvdc(ceiling(n*(1-eps)),model);
#adding 20% of outliers at the end:
x1<-rbind(x1,mvrnorm(n-ceiling(n*(1-eps)),c(7,3),1/2*diag(2))) 

উপাত্ত

এখন, দুটি মডেলের ফিট করুন (আরওবিপিসিএ এবং ক্লাসিক পিসিএ উভয় ডেটার লগতে):

x2<-log(x1)
v0<-PcaClassic(x2)
v1<-PcaHubert(x2,mcd=FALSE,k=2)

এখন, প্রতিটি পদ্ধতির দ্বারা প্রাপ্ত ক্ষুদ্রতম প্রকরণের অক্ষটি বিবেচনা করুন (এখানে সুবিধার জন্য, আমি এটি লগ-ট্রান্সফর্মড স্পেসে প্লট করেছি তবে আপনি মূল জায়গাতে একই সিদ্ধান্তে পাবেন)।

মডেল

দৃশ্যমানভাবে, আরওবিপিসিএ তথ্যের অনিয়ন্ত্রিত অংশ (সবুজ বিন্দু) পরিচালনা করার জন্য আরও ভাল কাজ করে:

তবে এখন, আমি আমার দ্বিতীয় পয়েন্টে পৌঁছেছি।

এইচতোমার দর্শন লগ করাz- রআমিWআমি) দৃust় (ধ্রুপদী) পিসিএ স্কোর কমপক্ষে পরিবর্তনের অক্ষকে আঁকা -

আপনার কাছে এটি আছে (এটি উপরের চক্রান্তে শান্তভাবে দৃশ্যমান):

Σআমিএইচতোমার দর্শন লগ করা(z- রআমি)2<Σআমিএইচতোমার দর্শন লগ করা(Wআমি)2(1)

তবে আপনি অবাক হয়ে যাবেন বলে মনে হচ্ছে:

Σআমি=1এন(z- রআমি)2>Σআমি=1এন(Wআমি)2(2)

- আপনি নিজের পরীক্ষার পদ্ধতিটি যেভাবে বর্ণনা করেছেন, আপনি পুরো ডেটাসেটের উপরে ফিটনেস নির্ধারণের মানদণ্ডটি গণনা করেন, সুতরাং আপনার মূল্যায়ন মাপদণ্ডটি (2) এর একঘেয়ে ফাংশন যেখানে আপনার (1) একঘেয়ে ফাংশন ব্যবহার করা উচিত -

অন্য কথায়, আপনার সম্পূর্ণ ডেটাসেটে শক্তিশালী অরথোগোনাল অবশিষ্টাংশের তুলনায় অল্প শক্তিশালী পদ্ধতির চেয়ে শক্তিশালী ফিটের প্রত্যাশা করবেন না: নন-দুরন্ত অনুমানকারী ইতিমধ্যে সম্পূর্ণ ডেটাসেটে এসএসওআরের অনন্য মিনিমাইজার।


1
আপনার প্রতিক্রিয়ার জন্য আপনাকে ধন্যবাদ. অন্যান্য ডেটা নিয়ে পরীক্ষা করতে এবং সত্যিই তা বুঝতে আপনার প্রতিক্রিয়া সম্পর্কে ভাবতে আমার কিছুটা সময় লেগেছে।
ব্যবহারকারী 765195
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.