অধ্যাপকের কাছ থেকে একটি রিগ্রেশন মডেল লুকানো (রিগ্রেশন যুদ্ধ) [বন্ধ]

11

বন্ধ । এই প্রশ্নের বিশদ বা স্পষ্টতা দরকার । এটি বর্তমানে উত্তর গ্রহণ করছে না।

এই প্রশ্নটি উন্নত করতে চান? বিশদ যুক্ত করুন এবং এই পোস্টটি সম্পাদনা করে সমস্যাটি পরিষ্কার করুন ।

2 বছর আগে বন্ধ ।

আমি একটি হোমওয়ার্ক অ্যাসাইনমেন্টে কাজ করছি যেখানে আমার প্রফেসর আমাদের সত্যিকারের রিগ্রেশন মডেল তৈরি করতে চান, উপাত্তের একটি নমুনা অনুকরণ করতে চান এবং তিনি ক্লাসে শিখেছি এমন কয়েকটি কৌশল ব্যবহার করে আমাদের সত্যিকারের রিগ্রেশন মডেলটি সন্ধান করার চেষ্টা করছেন। আমাদের একইভাবে তিনি আমাদের যে কোনও ডেটাসেট দিয়েছিলেন তা করতে হবে।

তিনি বলেছেন যে তাঁকে চেষ্টা ও প্ররোচিত করার জন্য অতীতের সমস্ত প্রয়াসের জন্য তিনি একটি দুর্দান্ত নির্ভুল মডেল তৈরি করতে সক্ষম হয়েছেন। এমন কিছু শিক্ষার্থী রয়েছে যা কিছু উন্মাদ মডেল তৈরি করে তবে তিনি তর্কসাপেক্ষে একটি সহজ মডেল তৈরি করতে সক্ষম হন যা যথেষ্ট ছিল।

তার সন্ধানের জন্য আমি কীভাবে একটি কৌশলপূর্ণ মডেল বিকাশ করতে পারি? আমি 4 টি চতুষ্কোণ পদ, 3 টি পর্যবেক্ষণ এবং বিশাল বৈকল্পিকতা দিয়ে সুপার সস্তা হতে চাই না? আমি কীভাবে একটি আপাতদৃষ্টিতে নিরীহ ডেটাসেট তৈরি করতে পারি যার নীচে একটি শক্ত ছোট মডেল রয়েছে?

তার অনুসরণ করার জন্য কেবলমাত্র 3 টি বিধি রয়েছে:

আপনার ডেটাসেটে অবশ্যই "Y", "X1", ..., "X20" হিসাবে লেবেলযুক্ত একটি "Y" ভেরিয়েবল এবং 20 "এক্স" ভেরিয়েবল থাকতে হবে।
আপনার প্রতিক্রিয়া পরিবর্তনশীল রৈখিক রিগ্রেশনের মডেল থেকে আসতে হবে মাফিক: যেখানে এবং । $Y$

$Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + \dots + β_{p - 1} X_{i, p - 1}^{'} + ϵ_{i}$ $Y_i^\prime = \beta_0 + \beta_1 X_{i1}^\prime + \ldots + \beta_{p-1}X_{i,p-1}^\prime + \epsilon_i$ $\epsilon_i \sim N(0,\sigma^2)$ $p \leq 21$
তৈরি করতে ব্যবহৃত সমস্ত ভার্ভেবলগুলি আপনার ডেটাসেটে রয়েছে। $X$ $Y$

এটি লক্ষ করা উচিত, সমস্ত 20 এক্স ভেরিয়েবলগুলি আপনার আসল মডেলটিতে থাকা উচিত নয়

আমি ফামা-ফরাসি 3 ফ্যাক্টর মডেলের মতো কিছু ব্যবহার করার কথা ভাবছিলাম এবং তাকে স্টক ডেটা (এসপিএক্স এবং এএপিএল) দিয়ে শুরু করিয়েছিলাম এবং আরও কিছুটা অস্পষ্ট করার জন্য সেই পরিবর্তনশীলগুলি ক্রমাগত সংশ্লেষিত রিটার্নে রূপান্তর করতে হয়েছিল। তবে এটি আমাকে প্রথম পর্যবেক্ষণে হারিয়ে যাওয়া মূল্যবোধের সাথে ছেড়ে দেয় এবং এটি সময়ের সিরিজ (যা আমরা এখনও ক্লাসে আলোচনা করিনি)।

এই জাতীয় পোস্ট দেওয়ার উপযুক্ত জায়গা কিনা তা নিশ্চিত করুন। আমার মনে হয়েছিল এটি কিছু ভাল আলোচনা তৈরি করতে পারে।

সম্পাদনা: আমি বিশেষত "প্রাক বিল্ট" মডেলগুলিও চাইছি না। আমি পরিসংখ্যানের বিষয়গুলি / সরঞ্জামগুলি সম্পর্কে আরও কৌতূহলী যা কারও সম্পর্কে এটি সক্ষম হতে পারে।

— dylanjm
সূত্র

4

তিনি আপনাকে লিনিয়ার মডেলটিতে সীমাবদ্ধ রাখলে কঠোর হতে

— ফ্র্যাঙ্ক এইচ।

4

যদি আপনার প্রকৃত সহগ w 95% আত্মবিশ্বাসের ব্যবধানের মধ্যে থাকে তবে আপনার অধ্যাপক যদি জিতেন, তবে বহুবিধ লাইনটি কোনও সাহায্য করবে না, কারণ বহুবিধ লাইনটি সিআইগুলিকে প্রচুর পরিমাণে স্ফীত করে। অন্যদিকে, যদি ভবিষ্যদ্বাণীকারী এবং নতুন ভবিষ্যদ্বাণীকারীদের প্রকৃত ডেটা ("সত্যিকারের" ডেটা আপনার সত্যিকারের ডিজিপি ব্যবহার করে তৈরি করা হয়েছে) এর মধ্যে পার্থক্যের উপর মূল্যায়ন করা হয়, তবে বহুবিধ লাইনারিটি আরও ভাল পদ্ধতির হতে পারে। নীচের লাইন: লক্ষ্য ফাংশনটি কী তা সন্ধান করুন এবং এতে আপনার দৃষ্টিভঙ্গিটি তৈরি করুন। (এটি জীবনে আরও সাধারণভাবে প্রযোজ্য ...)

— স্টিফান কোলাসা

4

@dylanjm আপনি কি নিজের বিজয় শর্তটিকে নির্ভুলভাবে সংজ্ঞা দিতে পারবেন?

— ম্যাথু গুন

11

এই জাতীয় অনুশীলনের মূল বিষয়টি আপনার নিজের সম্পর্কে কিছু ভাবার চেষ্টা করে শিখতে হবে । যদি আপনি তার বিরুদ্ধে বিশেষজ্ঞদের এখানে দাঁড়ান তবে আপনার প্রতিরোধের ক্ষেত্রে আপনাকে দেওয়া বিভিন্ন ধরণের তথ্য একত্রিত করে আপনার মস্তিষ্ককে প্রসারিত করার সুযোগটি নাটকীয়ভাবে হ্রাস পেয়েছে (পাশাপাশি অধ্যাপকের সাথে অন্যায় হওয়াও)। তদ্ব্যতীত, কোনও নামী প্রতিষ্ঠানে যখন তাকে আংশিকভাবে অন্য কারও দ্বারা সম্পাদন করা হয়েছিল তখন তাকে কাজ হিসাবে উপস্থাপন করা একাডেমিক অনাচার এবং জালিয়াতির মধ্যে থাকতে পারে (উদাহরণস্বরূপ, এটি যদি আপনার চিহ্নের কোনও অংশের জন্য মূল্য হয় তবে)। আপনি কীভাবে এটি জিজ্ঞাসা করছেন সে সম্পর্কে খুব সতর্কতা অবলম্বন করুন।

— গ্লেন_বি -রিনস্টেট মনিকা

4

এই প্রশ্নের জনপ্রিয়তা সত্ত্বেও, আমি এই মুহুর্তে এটি বন্ধ করতে বাধ্য বোধ করি কারণ গেমের নিয়মগুলি সম্পর্কে স্পষ্টতার জন্য বারবার অনুরোধ করার পরেও (সাফল্যের মূল্যায়নের জন্য কোন মানদণ্ড ব্যবহার করা হবে, আপনাকে কতগুলি নমুনা সরবরাহ করতে হবে ইত্যাদি) এই গুরুত্বপূর্ণ তথ্য এখনও প্রশ্ন হাজির হয়নি। আমাদের লক্ষ্যগুলি "আলোচনা উত্পন্ন করার" চেয়ে সংকীর্ণ এবং আরও বেশি কেন্দ্রীভূত: দয়া করে এই সাইটে আমরা যে ধরণের প্রশ্ন করতে পারি তার জন্য আমাদের সহায়তা কেন্দ্রের সাথে পরামর্শ করুন।

— শুক্র

6

কেবল বর্ণিত অংশের তুলনায় ত্রুটি শব্দটি অনেক বড় করুন। উদাহরণস্বরূপ: , যেখানে , এবং । অবশ্যই, আপনার বীজ কী ছিল তা আপনার মনে রাখতে হবে, যাতে আপনি আপনার অধ্যাপককে প্রমাণ করতে পারেন যে আপনি সঠিক ছিলেন এবং তিনি ভুল ছিলেন। $y_i=X_{i1}+\epsilon_i$ $X_{ij}=\sin(i+j)$ $i=1..1000$ $\sigma=1000000$

ভাগ্য এই শব্দ / সংকেত অনুপাতের সাথে পর্বটি সনাক্ত করে luck

— Aksakal
সূত্র

এটি সিআই জয়ের মাপদণ্ডের জন্য কাজ করছে বলে মনে হয় না, তাই না? আমরা কেবলমাত্র বিশাল সিআই পেয়ে যা অবশ্যই অবশ্যই 1 টি কভার করবে এবং অবশ্যই কিছু সংখ্যক অস্থিরতা।

— স্টিফান কোলাসা

অস্থিরতা কোনও সমস্যা হবে না, আমি যা করছি তা শব্দে সিগন্যালটি সমাহিত করা। খাঁটি সাদা আওয়াজ হিসাবে এটি প্রকাশিত হবে।

— আকসকল

4

এটি ওপি কর্তৃক অনাকাঙ্ক্ষিত সস্তা মডেল হিসাবে বিবেচনা করা হয়েছিল

— Sextus Empiricus

5

তার লক্ষ্যে পৌঁছাতে হয় তাহলে সত্য তথ্য উৎপাদিত প্রক্রিয়া পুনরুদ্ধার যে সৃষ্টি , আপনার অধ্যাপক বোকা বানাচ্ছে মোটামুটি তুচ্ছ হয়। আপনাকে উদাহরণ দেওয়ার জন্য, ব্যাঘাতগুলি এবং নিম্নলিখিত কাঠামোগত সমীকরণগুলি বিবেচনা করুন: $Y$ $\epsilon_i\sim N(0,1)$

X_{1} = ϵ_{1} + ϵ_{0} X_{2} = ϵ_{1} + ϵ_{2} y = X_{1} + ϵ_{2}

$X_1 = \epsilon_1 + \epsilon_0\\ X_2 =\epsilon_1 + \epsilon_2\\ y = X_1 + \epsilon_2$

এর সত্যিকারের ডিজিপি নোট করুন , যা শুধুমাত্র অন্তর্ভুক্ত , জাভাস্ক্রিপ্টে গার্বেজ সন্তুষ্ট শর্ত 2. অবস্থা 3 এছাড়া সন্তুষ্ট হয় যেহেতু শুধুমাত্র পরিবর্তনশীল তৈরি করা এবং আপনি প্রদান এবং । $Y$ $X_1$ $X_1$ $Y$ $X_1$ $X_2$

তবুও, কোনও উপায় নেই যে আপনার অধ্যাপক বলতে পারবেন যে কেবলমাত্র তাকে অন্তর্ভুক্ত করা উচিত কেবল বা এবং করে সত্য ডিজিপি পুনরুদ্ধার করতে পারেন(যদি আপনি এই উদাহরণটি ব্যবহার করে শেষ করেন তবে ভেরিয়েবলের সংখ্যাটি পরিবর্তন করুন)। সম্ভবত, তিনি আপনাকে সমস্ত পরিবর্তনশীলগুলির সাথে রিগ্রেশনটির উত্তর হিসাবে দেবেন, যেহেতু তারা সকলেই উল্লেখযোগ্য ভবিষ্যদ্বাণী হিসাবে প্রদর্শিত হবে। আপনি যদি এটি চান তবে 20 টি ভেরিয়েবলে প্রসারিত করতে পারেন, আপনিএই উত্তরটি এখানেএবং একটিসিম্পসনের প্যারাডক্স মেশিনটিএখানেদেখতে চাইতে পারেন। $X_1$ $X_2$ $X_1$ $X_2$ $Y$

সমস্ত শর্তাধীন প্রত্যাশা নোট করুন , বা $E[Y|X_1]$ $E[Y|X_2]$ শর্তসাপেক্ষ প্রত্যাশাগুলি সঠিকভাবে নির্দিষ্ট করা হয়েছে, তবে কেবল সত্যিকারের ডিজিপি প্রতিফলিত করে । সুতরাং, আপনার অধ্যাপক অনিবার্যভাবে কাজটি ব্যর্থ হওয়ার পরে, তিনি তর্ক করতে পারেন যে তার লক্ষ্যটি ছিল কোনও শর্তসাপেক্ষ প্রত্যাশা পুনরুদ্ধার করা, বা সেরা ভবিষ্যদ্বাণী পাওয়া $E[Y|X_1, X_2]$ $E[Y|X_1]$ $Y$ $Y$ ইত্যাদি আপনি ফিরে যুক্তি দিতে পারেন যে তিনি যা বলেছিলেন তা ছিল না, যেহেতু তিনি বলেছেন:

পরিবর্তনশীল ওয়াই অবশ্যই একটি লিনিয়ার রিগ্রেশন মডেল থেকে আসতে হবে যা (...) ভেরিয়েবলগুলিকে সন্তুষ্ট করে যা আপনার বাস্তব মডেল (...) তৈরি করতে ব্যবহৃত হয়েছিল

এবং আপনি কার্যকারিতা, সত্য ডিজিপির অর্থ এবং সাধারণভাবে সনাক্তকরণযোগ্যতা সম্পর্কে ক্লাসে একটি ভাল আলোচনার সূচনা করতে পারে ।

— কার্লোস সিনেলি
সূত্র

আপনি এমন একটি মডেল প্রস্তাব করছেন যা পোস্টে # 2 এর সাথে সামঞ্জস্যপূর্ণ

— আকসাকাল

3

বহুবর্ণবিহীনতা এবং ভিন্নতার তুলনায় আয় হিসাবে বনাম: বয়সের তুলনায় আয়কর: এমন কিছু বেদনাদায়ক বৈশিষ্ট্য ইঞ্জিনিয়ারিং করুন যা স্কেলিংয়ের সমস্যা সরবরাহ করে: কিছুটা অল্প পরিমাণে ছিটিয়ে দেওয়া জন্য এনএ প্রদান করুন। লিনিয়ারিটি টুকরা সত্যিই এটি আরও চ্যালেঞ্জিং করে তবে এটি বেদনাদায়ক হতে পারে। এছাড়াও, আউটলিয়াররা তাঁর সামনে সমস্যা বাড়িয়ে তুলবে।

— ডেভিড
সূত্র

আমি মনে করি যে হিটরোসসিডাস্টিটিটি সমস্যার আওতার বাইরে, তবে স্পষ্টভাবে সম্মত হন যে বহুবিধ লাইনারিটি সত্য স্পেসিফিকেশনটি সন্ধান করা শক্ত করার অন্যতম সেরা উপায়।

— জেডিএল

2

মিথস্ক্রিয়া শর্ত অনুমোদিত? যদি তা হয় তবে সমস্ত নিম্নতর অর্ডার সহগকে 0 তে সেট করুন এবং N-th অর্ডার ইন্টারঅ্যাকশনগুলির বাইরে পুরো মডেলটি তৈরি করুন (উদাহরণস্বরূপ মতো পদগুলি) $X_5X_8X_{12}X_{13}$

— রুবেন ভ্যান বার্গেন
সূত্র

0

যে কোনও লিনিয়ার মডেল চয়ন করুন। তাকে এমন একটি ডেটা সেট দিন যেখানে বেশিরভাগ নমুনা x = 0 এর আশেপাশে থাকে। X = 1,000,000 এর কাছাকাছি তাকে কয়েকটি নমুনা দিন।

এখানে দুর্দান্ত জিনিস যে এক্স = 1,000,000 এর কাছাকাছি নমুনাগুলি বিদেশী নয়। তারা একই উত্স থেকে উত্পন্ন হয়। তবে, স্কেলগুলি যেহেতু খুব আলাদা তাই 1 এম এর কাছাকাছি ত্রুটি 0 এর ত্রুটিগুলির সাথে ফিট করে না।

Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + ϵ_{i}

$Y_i^\prime = \beta_0 +\beta_1 X_{i1}^\prime + \epsilon_i$

আমাদের কাছে x = 0 এর নিকটবর্তী এন নমুনার একটি ডেটা সেট রয়েছে। "" যথেষ্ট "মানগুলিতে আমরা আরও 2 পয়েন্ট বেছে নেব। আমরা ধরে নিই যে এই দুটি পয়েন্টটিতে কিছু ত্রুটি রয়েছে।

একটি "যথেষ্ট পরিমাণে" মানটি এমন একটি মান যে কোনও অনুমানের জন্য ত্রুটিটি এই দুটি পয়েন্টে সরাসরি পাস না করে বাকী ডেটাসেটের ত্রুটির চেয়ে অনেক বড়।

সুতরাং, লিনিয়ার রিগ্রেশন এই দুটি পয়েন্টে উত্তীর্ণ সহগগুলি বেছে নেবে এবং বাকী ডেটাসেট মিস করবে এবং আন্ডারলাইনিং মডেল থেকে আলাদা হবে।

নিম্নলিখিত উদাহরণ দেখুন। {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, 00 1000000, 1002169}, 000 1000001, 999688}

এটি ওল্ফর্মআল্ফা সিরিজের ফর্ম্যাটে। প্রতিটি জোড়ায় প্রথম আইটেমটি এক্স এবং দ্বিতীয়টি এক্সেলটিতে সূত্র = A2 + NORMINV (RAND (), 0,2000) ব্যবহার করে তৈরি করা হয়েছিল।

$\beta_0=1, \beta_1=1$ এবং আমরা সাধারনত 0 এবং 2000 এর মানক বিচ্যুতি সহ সাধারণভাবে বিতরণ করা এলোমেলো গোলমাল যুক্ত করি This

$y= 178433. x - 426805$ $y=x$

— ডাল
সূত্র

এই কাজটি ঠিক কীভাবে করা উচিত এবং এটি কী প্রভাব তৈরি করার কথা?

— রিচার্ড হার্ডি

গোলমাল এবং নির্ভুলতা বিভিন্ন স্কেলে আলাদাভাবে কাজ করবে বলে এটি কাজ করে। উচ্চ সংখ্যায়, চূড়ান্ত দিকে নিয়ে যাওয়া এবং একটি বিন্দু বিবেচনা করে, লাইনটি সরাসরি তার মধ্য দিয়ে যাওয়া উচিত বা প্রচুর ব্যয় হয়। কিছু গোলমাল সঠিক মানগুলি মিস করার জন্য যথেষ্ট। শূন্যের কাছাকাছি, আবার চরম - কোন ধারণা নেই, আপনি গোলমাল ছেড়ে চলে যাবেন।

— ডএল

ভুল সহগের সাথে ভেরিয়েবলের জন্য একটি ছোট মানটি ব্যবহার করুন এবং আপনি মূল্য পরিশোধ করছেন।

— ডএল

হ্যাঁ, তবে অধ্যাপকের পক্ষে কেন এমন মডেল আবিষ্কার করা শক্ত হবে? প্রদত্ত রেজিস্ট্রারটিতে যখন এত বেশি বৈচিত্র থাকে তখন এটি একটি বিশেষত সহজ কাজ বলে মনে হয়।

— রিচার্ড হার্ডি

কারণ কোনও মডেলই উভয় গ্রুপের পক্ষে উপযুক্ত নয়।

— দাও