অনুপস্থিত পূরবাচক পরিবর্তনশীল সহ একাধিক রিগ্রেশন

ধরুন আমাদের ফর্মের একটি সেট দেওয়া হয়েছে $(y,x_{1},x_{2},\cdots, x_{n})$ এবং । মানের উপর ভিত্তি করে এর পূর্বাভাস দেওয়ার কাজটি আমাদের দেওয়া হয় । আমরা দুটি রিগ্রেশন অনুমান করি যেখানে: $(y,x_{1},x_{2},\cdots, x_{n-1})$ $y$ $x$

\begin{aligned} (1) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, x_{n}) \\ (2) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align}$

আমরা এমন একটি রিগ্রেশনও অনুমান করি যা মানগুলির উপর ভিত্তি করে of এর মানগুলির পূর্বাভাস দেয় , এটি: $x_{n}$ $(x_{1},\cdots, x_{n-1})$

\begin{matrix} (3) & x_{n} = f_{3} (x_{1}, \dots, x_{n - 1}) \end{matrix}

$x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3}$

ধরুন এখন আমরাও তা প্রদত্ত হই মান , তাহলে আমরা দুটি ভিন্ন পদ্ধতি ভবিষ্যদ্বাণী করা হবে : $(x_{1},\cdots, x_{n-1})$ $y$

\begin{aligned} (4) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, f_{3} (x_{1}, \dots, x_{n - 1})) \\ (5) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align}$

কোনটি সাধারণভাবে ভাল হবে?

আমি অনুমান করছি যে প্রথম সমীকরণটি আরও ভাল হবে কারণ এটি দুটি পয়েন্টের ডেটা পয়েন্টের তথ্য ব্যবহার করে যেখানে দ্বিতীয় সমীকরণটি কেবলমাত্র ডেটা পয়েন্ট থেকে তথ্য ব্যবহার করে $n-1$ ভবিষ্যদ্বাণীকারী মান। পরিসংখ্যান সম্পর্কে আমার প্রশিক্ষণ সীমাবদ্ধ এবং এইভাবে আমি কিছু পেশাদার পরামর্শ নিতে চাই।

এছাড়াও, সাধারণভাবে, অসম্পূর্ণ তথ্য রয়েছে এমন ডেটার দিকে সেরা দৃষ্টিভঙ্গি কী? অন্য কথায়, আমরা কীভাবে ডেটা থেকে সর্বাধিক তথ্য বের করতে পারি যাগুলির মধ্যে মান নেই $n$ মাত্রা?

— জিয়াউন লি
সূত্র

অনুমানের সাথে বনাম অনুমানের সাথে অনুমান করা - আপনি সিদ্ধান্ত নেবেন :)

— পিএইচডি

সত্যিই কি এটা সহজ?

— জিয়াউন লি

উত্তর হতে পারে, এটি নির্ভর করে। কত তথ্য অনুপস্থিত? আপনার সামগ্রিকভাবে কতটা ডেটা আছে? আপনার কাছে কত ভবিষ্যদ্বাণী রয়েছে?

— জোয়েল ডব্লিউ।

+1, আমি মনে করি এটি একটি সত্যিই আকর্ষণীয় এবং স্পষ্টভাবে বিবৃত প্রশ্ন। তবে আরও তথ্য আমাদের এই পরিস্থিতির মধ্য দিয়ে ভাবতে সহায়তা করবে।

উদাহরণস্বরূপ, এর মধ্যে সম্পর্ক কী $x_n$ এবং $y$ ? এটি যথেষ্ট সম্ভব যে কোনওটি নেই, এক্ষেত্রে রিগ্রেশন $(1)$ রিগ্রেশন সম্পর্কিত কোনও সুবিধা দেয় না $(2)$ । (আসলে, এটি একটি এ খুব অর্থে সামান্য অসুবিধা, যে মান ত্রুটি সামান্য বড় হবে, এবং এইভাবে বিটাগুলির আরও সামান্য গড়ে হতে পারে, তাদের আসল মান থেকে।) যদি আছে একটি ফাংশন ম্যাপিং $x_n$ প্রতি $y$ তারপরে, সংজ্ঞা অনুসারে, সেখানে আসল তথ্য রয়েছে এবং রিগ্রেশন $(1)$ প্রাথমিক পরিস্থিতিতে আরও ভাল হবে।

এরপরে সম্পর্কের প্রকৃতি কী $(x_1, \cdots, x_{n-1})$ এবং $x_n$ ? একটি আছে? উদাহরণস্বরূপ, যখন আমরা পরীক্ষা-নিরীক্ষা করি, (সাধারণত) আমরা ব্যাখ্যামূলক ভেরিয়েবলের মানগুলির সংমিশ্রণে সমান সংখ্যক অধ্যয়ন ইউনিট নির্ধারণের চেষ্টা করি। (এই পদ্ধতির মধ্যে চতুর্থ স্তরের কার্টেসিয়ান পণ্যগুলির একাধিক ব্যবহার করা হয় এবং একে 'সম্পূর্ণ ফ্যাক্টরিয়াল' ডিজাইন বলা হয়; এমন কিছু ঘটনাও রয়েছে যেখানে স্তরগুলি ইচ্ছাকৃতভাবে ডেটা সংরক্ষণে বিভ্রান্ত করা হয়, তাকে ' ফ্র্যাকশনাল ফ্যাক্টরিয়াল ' ডিজাইন বলে)) ব্যাখ্যামূলক ভেরিয়েবলগুলি অরথোগোনাল, আপনার তৃতীয় প্রতিরোধটি একেবারে ঠিক ঠিক ফলবে the অন্যদিকে, একটি পর্যবেক্ষণ গবেষণায় কোভেরিয়েটগুলি প্রায় সবসময়ই সংযুক্ত থাকে । পারস্পরিক সম্পর্ক যত শক্তিশালী তত কম তথ্য বিদ্যমান $x_n$ । এই তথ্যগুলি রিগ্রেশন সম্পর্কিত আপেক্ষিক গুণাগুণকে সংশোধন করবে $(1)$ এবং প্রতিরোধ $(2)$ ।

তবে, (দুর্ভাগ্যক্রমে সম্ভবত) এটি এর চেয়ে জটিল। একাধিক রিগ্রেশন গুরুত্বপূর্ণ, কিন্তু কঠিন, ধারণার এক multicollinearity । আপনার কি রিগ্রেশন অনুমান করার চেষ্টা করা উচিত? $(4)$ , আপনি দেখতে পাবেন যে আপনার নিখুঁত মাল্টিক্লোলাইনারিটি রয়েছে এবং আপনার সফ্টওয়্যার আপনাকে জানাবে যে ডিজাইনের ম্যাট্রিক্সটি অবিচ্ছিন্ন নয়। সুতরাং, যখন রিগ্রেশন $(1)$ রিগ্রেশন সম্পর্কিত কোনও সুবিধা দিতে পারে $(2)$ , রিগ্রেশন $(4)$ হবে না.

আরও আকর্ষণীয় প্রশ্ন (এবং আপনি যা জিজ্ঞাসা করছেন) তা হ'ল আপনি যদি রিগ্রেশন ব্যবহার করেন $(1)$ সম্পর্কে ভবিষ্যদ্বাণী করা $y$ আনুমানিক ব্যবহার $x_n$ রিগ্রেশনের পূর্বাভাসগুলি থেকে আউটপুটকে মান দেয় $(3)$ ? (এটি, আপনি রিগ্রেশন অনুমান করছেন না $(4)$ আপনি রিগ্রেশন অনুসারে পূর্বাভাস সমীকরণ থেকে আউটপুট প্লাগ করছেন $(3)$ পূর্বাভাস মডেল মধ্যে $(4)$ ।) জিনিসটি হ'ল আপনি এখানে কোনও নতুন তথ্য অর্জন করছেন না। প্রথমটিতে যা কিছু তথ্য বিদ্যমান $n-1$ প্রতিটি পর্যবেক্ষণের জন্য ভবিষ্যদ্বাণীকারী মানগুলি ইতিমধ্যে রিগ্রেশন দ্বারা সর্বোত্তমভাবে ব্যবহৃত হচ্ছে $(2)$ , সুতরাং কোন লাভ হয় না।

সুতরাং, আপনার প্রথম প্রশ্নের উত্তর হ'ল আপনিও পীড়নের সাথে যেতে পারেন $(2)$ আপনার পূর্বাভাস অপ্রয়োজনীয় কাজ সংরক্ষণ করার জন্য। নোট করুন যে আমি আপনাকে মোটামুটি বিমূর্ত পদ্ধতিতে সম্বোধন করছি, আপনি যে কংক্রিটের পরিস্থিতিতে বর্ণনা করেছেন যার মধ্যে কেউ আপনাকে দুটি ডেটা সেট দেয় (আমি কেবল এটি ঘটতে পারে তা কল্পনা করতে পারি না) addressing পরিবর্তে, আমি এই প্রশ্নটি রিগ্রেশন প্রকৃতি সম্পর্কে মোটামুটি গভীর কিছু বোঝার চেষ্টা হিসাবে ভাবছি। যদিও উপলক্ষে ঘটে যায় তা হ'ল কিছু পর্যবেক্ষণে সমস্ত ভবিষ্যদ্বাণীকের মান রয়েছে এবং কিছু অন্যান্য পর্যবেক্ষণে (একই ডেটাসেটের মধ্যে) কিছু ভবিষ্যদ্বাণীকের উপর কিছু মূল্য অনুপস্থিত। দ্রাঘিমাংশীয় ডেটা নিয়ে কাজ করার সময় এটি বিশেষভাবে সাধারণ। এমন পরিস্থিতিতে আপনি একাধিক অনুশাসন তদন্ত করতে চান ।

— gung - মনিকা পুনরায় স্থাপন করুন
সূত্র

আপনার বিস্তারিত উত্তরের জন্য গুংকে ধন্যবাদ জানাই এবং আপনি আমার প্রশ্নের শব্দটির পরিবর্তন করতে সহায়তা করেন। আপনার উত্তরটি পুরোপুরি ব্যাখ্যা করার পরে আমি প্রতিক্রিয়া জানাব। আপনার তথ্যের জন্য, এটি হালকা বাল্বের দাম সম্পর্কে একটি পর্যবেক্ষণমূলক গবেষণা।

x_{n}

$x_n$ জীবন ঘন্টা, আলোকসজ্জা এবং বাল্বের রঙ তাপমাত্রা অন্তর্ভুক্ত করুন। খুচরা বিক্রেতাদের কাছ থেকে তথ্য সংগ্রহ করা হয় যারা সাধারণত সবকিছু দেয় না, ফলস্বরূপ অনুমানকারীদের ফলস্বরূপ। তবুও আমরা যে তথ্য সংগ্রহ করেছি তার থেকে সর্বাধিক চেষ্টা করার চেষ্টা করছি।

— জিয়াউন লি

ঠিক আছে, আমি ভেবেছিলাম এটি কেবল রিগ্রেশন বোঝার জন্য। আমি একাধিক অনুমান পরীক্ষা করা হবে।

— গুং - মনিকা পুনরায়

আপনার অন্তর্দৃষ্টি জন্য ধন্যবাদ গুং। আপনি ঠিক বলেছেন যে সমীকরণ 4 ব্যবহার করে কোনও নতুন তথ্য অর্জিত হয় না Imp অভিবাসনটি আমার যা প্রয়োজন ঠিক তা প্রমাণিত হয়। এবং আপনি ঠিক বলেছেন, আমি একাধিক কোলাইনারিটিতে চলেছি, সহগের জন্য আমাকে একটি খুব বড় পি মান দিয়েছি। তারপরে আমি ভেরিয়েবলের সংখ্যা হ্রাস করার সহিত সহকারীর জন্য একটি ছোট পি মান পেতে, বা একটি বৃহত্তর পেতে পছন্দ ছিল

r^{2}

$r^2$ এবং বৃহত্তর পি। আমার ধারণা জীবনটা ট্রেড অফে ভরে গেছে।

— জিয়াউন লি

রিগ্রেশনগুলিতে আপনার বিমূর্ত আলোচনার জন্য আবার ধন্যবাদ। পরিসংখ্যানগুলি সুন্দরভাবে আগ্রহী হতে পারে যদি আমরা সত্যটিকে খুঁজে পাওয়ার কোনও পদ্ধতি হিসাবে এটি দেখি। আমার ডেটা সেটটি শেষ হয়ে গেলে আমি আরও একবার এটি খতিয়ে দেখব :)

— জিয়াওন লি

আপনার প্যারামেট্রিক বিভাজনমূলক অভিব্যক্তি পরীক্ষা করা উচিত। এটি আইওয়া রাজ্যে জে কাওয়ং কিমের কাজ করেছেন যা এই পরিস্থিতির জন্য উপযুক্ত হতে পারে। দেখুন biomet.oxfordjournals.org/content/98/1/119.abstract

— StatsStudent