অনুপস্থিত পূরবাচক পরিবর্তনশীল সহ একাধিক রিগ্রেশন


9

ধরুন আমাদের ফর্মের একটি সেট দেওয়া হয়েছে (y,x1,x2,,xn)এবং । মানের উপর ভিত্তি করে এর পূর্বাভাস দেওয়ার কাজটি আমাদের দেওয়া হয় । আমরা দুটি রিগ্রেশন অনুমান করি যেখানে: (y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

আমরা এমন একটি রিগ্রেশনও অনুমান করি যা মানগুলির উপর ভিত্তি করে of এর মানগুলির পূর্বাভাস দেয় , এটি: xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

ধরুন এখন আমরাও তা প্রদত্ত হই মান , তাহলে আমরা দুটি ভিন্ন পদ্ধতি ভবিষ্যদ্বাণী করা হবে :(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

কোনটি সাধারণভাবে ভাল হবে?

আমি অনুমান করছি যে প্রথম সমীকরণটি আরও ভাল হবে কারণ এটি দুটি পয়েন্টের ডেটা পয়েন্টের তথ্য ব্যবহার করে যেখানে দ্বিতীয় সমীকরণটি কেবলমাত্র ডেটা পয়েন্ট থেকে তথ্য ব্যবহার করে n1ভবিষ্যদ্বাণীকারী মান। পরিসংখ্যান সম্পর্কে আমার প্রশিক্ষণ সীমাবদ্ধ এবং এইভাবে আমি কিছু পেশাদার পরামর্শ নিতে চাই।

এছাড়াও, সাধারণভাবে, অসম্পূর্ণ তথ্য রয়েছে এমন ডেটার দিকে সেরা দৃষ্টিভঙ্গি কী? অন্য কথায়, আমরা কীভাবে ডেটা থেকে সর্বাধিক তথ্য বের করতে পারি যাগুলির মধ্যে মান নেইn মাত্রা?


অনুমানের সাথে বনাম অনুমানের সাথে অনুমান করা - আপনি সিদ্ধান্ত নেবেন :)
পিএইচডি

সত্যিই কি এটা সহজ?
জিয়াউন লি

উত্তর হতে পারে, এটি নির্ভর করে। কত তথ্য অনুপস্থিত? আপনার সামগ্রিকভাবে কতটা ডেটা আছে? আপনার কাছে কত ভবিষ্যদ্বাণী রয়েছে?
জোয়েল ডব্লিউ।

উত্তর:


6

+1, আমি মনে করি এটি একটি সত্যিই আকর্ষণীয় এবং স্পষ্টভাবে বিবৃত প্রশ্ন। তবে আরও তথ্য আমাদের এই পরিস্থিতির মধ্য দিয়ে ভাবতে সহায়তা করবে।

উদাহরণস্বরূপ, এর মধ্যে সম্পর্ক কী xn এবং y? এটি যথেষ্ট সম্ভব যে কোনওটি নেই, এক্ষেত্রে রিগ্রেশন(1) রিগ্রেশন সম্পর্কিত কোনও সুবিধা দেয় না (2)। (আসলে, এটি একটি এ খুব অর্থে সামান্য অসুবিধা, যে মান ত্রুটি সামান্য বড় হবে, এবং এইভাবে বিটাগুলির আরও সামান্য গড়ে হতে পারে, তাদের আসল মান থেকে।) যদি আছে একটি ফাংশন ম্যাপিংxn প্রতি yতারপরে, সংজ্ঞা অনুসারে, সেখানে আসল তথ্য রয়েছে এবং রিগ্রেশন (1) প্রাথমিক পরিস্থিতিতে আরও ভাল হবে।

এরপরে সম্পর্কের প্রকৃতি কী (x1,,xn1) এবং xn? একটি আছে? উদাহরণস্বরূপ, যখন আমরা পরীক্ষা-নিরীক্ষা করি, (সাধারণত) আমরা ব্যাখ্যামূলক ভেরিয়েবলের মানগুলির সংমিশ্রণে সমান সংখ্যক অধ্যয়ন ইউনিট নির্ধারণের চেষ্টা করি। (এই পদ্ধতির মধ্যে চতুর্থ স্তরের কার্টেসিয়ান পণ্যগুলির একাধিক ব্যবহার করা হয় এবং একে 'সম্পূর্ণ ফ্যাক্টরিয়াল' ডিজাইন বলা হয়; এমন কিছু ঘটনাও রয়েছে যেখানে স্তরগুলি ইচ্ছাকৃতভাবে ডেটা সংরক্ষণে বিভ্রান্ত করা হয়, তাকে ' ফ্র্যাকশনাল ফ্যাক্টরিয়াল ' ডিজাইন বলে)) ব্যাখ্যামূলক ভেরিয়েবলগুলি অরথোগোনাল, আপনার তৃতীয় প্রতিরোধটি একেবারে ঠিক ঠিক ফলবে the অন্যদিকে, একটি পর্যবেক্ষণ গবেষণায় কোভেরিয়েটগুলি প্রায় সবসময়ই সংযুক্ত থাকে । পারস্পরিক সম্পর্ক যত শক্তিশালী তত কম তথ্য বিদ্যমানxn। এই তথ্যগুলি রিগ্রেশন সম্পর্কিত আপেক্ষিক গুণাগুণকে সংশোধন করবে(1) এবং প্রতিরোধ (2)

তবে, (দুর্ভাগ্যক্রমে সম্ভবত) এটি এর চেয়ে জটিল। একাধিক রিগ্রেশন গুরুত্বপূর্ণ, কিন্তু কঠিন, ধারণার এক multicollinearity । আপনার কি রিগ্রেশন অনুমান করার চেষ্টা করা উচিত?(4), আপনি দেখতে পাবেন যে আপনার নিখুঁত মাল্টিক্লোলাইনারিটি রয়েছে এবং আপনার সফ্টওয়্যার আপনাকে জানাবে যে ডিজাইনের ম্যাট্রিক্সটি অবিচ্ছিন্ন নয়। সুতরাং, যখন রিগ্রেশন(1) রিগ্রেশন সম্পর্কিত কোনও সুবিধা দিতে পারে (2), রিগ্রেশন (4) হবে না.

আরও আকর্ষণীয় প্রশ্ন (এবং আপনি যা জিজ্ঞাসা করছেন) তা হ'ল আপনি যদি রিগ্রেশন ব্যবহার করেন (1) সম্পর্কে ভবিষ্যদ্বাণী করা y আনুমানিক ব্যবহার xn রিগ্রেশনের পূর্বাভাসগুলি থেকে আউটপুটকে মান দেয় (3)? (এটি, আপনি রিগ্রেশন অনুমান করছেন না(4)আপনি রিগ্রেশন অনুসারে পূর্বাভাস সমীকরণ থেকে আউটপুট প্লাগ করছেন (3) পূর্বাভাস মডেল মধ্যে (4)।) জিনিসটি হ'ল আপনি এখানে কোনও নতুন তথ্য অর্জন করছেন না। প্রথমটিতে যা কিছু তথ্য বিদ্যমানn1 প্রতিটি পর্যবেক্ষণের জন্য ভবিষ্যদ্বাণীকারী মানগুলি ইতিমধ্যে রিগ্রেশন দ্বারা সর্বোত্তমভাবে ব্যবহৃত হচ্ছে (2), সুতরাং কোন লাভ হয় না।

সুতরাং, আপনার প্রথম প্রশ্নের উত্তর হ'ল আপনিও পীড়নের সাথে যেতে পারেন (2)আপনার পূর্বাভাস অপ্রয়োজনীয় কাজ সংরক্ষণ করার জন্য। নোট করুন যে আমি আপনাকে মোটামুটি বিমূর্ত পদ্ধতিতে সম্বোধন করছি, আপনি যে কংক্রিটের পরিস্থিতিতে বর্ণনা করেছেন যার মধ্যে কেউ আপনাকে দুটি ডেটা সেট দেয় (আমি কেবল এটি ঘটতে পারে তা কল্পনা করতে পারি না) addressing পরিবর্তে, আমি এই প্রশ্নটি রিগ্রেশন প্রকৃতি সম্পর্কে মোটামুটি গভীর কিছু বোঝার চেষ্টা হিসাবে ভাবছি। যদিও উপলক্ষে ঘটে যায় তা হ'ল কিছু পর্যবেক্ষণে সমস্ত ভবিষ্যদ্বাণীকের মান রয়েছে এবং কিছু অন্যান্য পর্যবেক্ষণে (একই ডেটাসেটের মধ্যে) কিছু ভবিষ্যদ্বাণীকের উপর কিছু মূল্য অনুপস্থিত। দ্রাঘিমাংশীয় ডেটা নিয়ে কাজ করার সময় এটি বিশেষভাবে সাধারণ। এমন পরিস্থিতিতে আপনি একাধিক অনুশাসন তদন্ত করতে চান ।


আপনার বিস্তারিত উত্তরের জন্য গুংকে ধন্যবাদ জানাই এবং আপনি আমার প্রশ্নের শব্দটির পরিবর্তন করতে সহায়তা করেন। আপনার উত্তরটি পুরোপুরি ব্যাখ্যা করার পরে আমি প্রতিক্রিয়া জানাব। আপনার তথ্যের জন্য, এটি হালকা বাল্বের দাম সম্পর্কে একটি পর্যবেক্ষণমূলক গবেষণা।xnজীবন ঘন্টা, আলোকসজ্জা এবং বাল্বের রঙ তাপমাত্রা অন্তর্ভুক্ত করুন। খুচরা বিক্রেতাদের কাছ থেকে তথ্য সংগ্রহ করা হয় যারা সাধারণত সবকিছু দেয় না, ফলস্বরূপ অনুমানকারীদের ফলস্বরূপ। তবুও আমরা যে তথ্য সংগ্রহ করেছি তার থেকে সর্বাধিক চেষ্টা করার চেষ্টা করছি।
জিয়াউন লি

1
ঠিক আছে, আমি ভেবেছিলাম এটি কেবল রিগ্রেশন বোঝার জন্য। আমি একাধিক অনুমান পরীক্ষা করা হবে।
গুং - মনিকা পুনরায়

আপনার অন্তর্দৃষ্টি জন্য ধন্যবাদ গুং। আপনি ঠিক বলেছেন যে সমীকরণ 4 ব্যবহার করে কোনও নতুন তথ্য অর্জিত হয় না Imp অভিবাসনটি আমার যা প্রয়োজন ঠিক তা প্রমাণিত হয়। এবং আপনি ঠিক বলেছেন, আমি একাধিক কোলাইনারিটিতে চলেছি, সহগের জন্য আমাকে একটি খুব বড় পি মান দিয়েছি। তারপরে আমি ভেরিয়েবলের সংখ্যা হ্রাস করার সহিত সহকারীর জন্য একটি ছোট পি মান পেতে, বা একটি বৃহত্তর পেতে পছন্দ ছিলr2এবং বৃহত্তর পি। আমার ধারণা জীবনটা ট্রেড অফে ভরে গেছে।
জিয়াউন লি

রিগ্রেশনগুলিতে আপনার বিমূর্ত আলোচনার জন্য আবার ধন্যবাদ। পরিসংখ্যানগুলি সুন্দরভাবে আগ্রহী হতে পারে যদি আমরা সত্যটিকে খুঁজে পাওয়ার কোনও পদ্ধতি হিসাবে এটি দেখি। আমার ডেটা সেটটি শেষ হয়ে গেলে আমি আরও একবার এটি খতিয়ে দেখব :)
জিয়াওন লি

আপনার প্যারামেট্রিক বিভাজনমূলক অভিব্যক্তি পরীক্ষা করা উচিত। এটি আইওয়া রাজ্যে জে কাওয়ং কিমের কাজ করেছেন যা এই পরিস্থিতির জন্য উপযুক্ত হতে পারে। দেখুন biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.