অধ্যাপকের কাছ থেকে একটি রিগ্রেশন মডেল লুকানো (রিগ্রেশন যুদ্ধ) [বন্ধ]


11

আমি একটি হোমওয়ার্ক অ্যাসাইনমেন্টে কাজ করছি যেখানে আমার প্রফেসর আমাদের সত্যিকারের রিগ্রেশন মডেল তৈরি করতে চান, উপাত্তের একটি নমুনা অনুকরণ করতে চান এবং তিনি ক্লাসে শিখেছি এমন কয়েকটি কৌশল ব্যবহার করে আমাদের সত্যিকারের রিগ্রেশন মডেলটি সন্ধান করার চেষ্টা করছেন। আমাদের একইভাবে তিনি আমাদের যে কোনও ডেটাসেট দিয়েছিলেন তা করতে হবে।

তিনি বলেছেন যে তাঁকে চেষ্টা ও প্ররোচিত করার জন্য অতীতের সমস্ত প্রয়াসের জন্য তিনি একটি দুর্দান্ত নির্ভুল মডেল তৈরি করতে সক্ষম হয়েছেন। এমন কিছু শিক্ষার্থী রয়েছে যা কিছু উন্মাদ মডেল তৈরি করে তবে তিনি তর্কসাপেক্ষে একটি সহজ মডেল তৈরি করতে সক্ষম হন যা যথেষ্ট ছিল।

তার সন্ধানের জন্য আমি কীভাবে একটি কৌশলপূর্ণ মডেল বিকাশ করতে পারি? আমি 4 টি চতুষ্কোণ পদ, 3 টি পর্যবেক্ষণ এবং বিশাল বৈকল্পিকতা দিয়ে সুপার সস্তা হতে চাই না? আমি কীভাবে একটি আপাতদৃষ্টিতে নিরীহ ডেটাসেট তৈরি করতে পারি যার নীচে একটি শক্ত ছোট মডেল রয়েছে?

তার অনুসরণ করার জন্য কেবলমাত্র 3 টি বিধি রয়েছে:

  1. আপনার ডেটাসেটে অবশ্যই "Y", "X1", ..., "X20" হিসাবে লেবেলযুক্ত একটি "Y" ভেরিয়েবল এবং 20 "এক্স" ভেরিয়েবল থাকতে হবে।

  2. আপনার প্রতিক্রিয়া পরিবর্তনশীল রৈখিক রিগ্রেশনের মডেল থেকে আসতে হবে মাফিক: যেখানে এবং ।ওয়াই

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. তৈরি করতে ব্যবহৃত সমস্ত ভার্ভেবলগুলি আপনার ডেটাসেটে রয়েছে।ওয়াইXY

এটি লক্ষ করা উচিত, সমস্ত 20 এক্স ভেরিয়েবলগুলি আপনার আসল মডেলটিতে থাকা উচিত নয়

আমি ফামা-ফরাসি 3 ফ্যাক্টর মডেলের মতো কিছু ব্যবহার করার কথা ভাবছিলাম এবং তাকে স্টক ডেটা (এসপিএক্স এবং এএপিএল) দিয়ে শুরু করিয়েছিলাম এবং আরও কিছুটা অস্পষ্ট করার জন্য সেই পরিবর্তনশীলগুলি ক্রমাগত সংশ্লেষিত রিটার্নে রূপান্তর করতে হয়েছিল। তবে এটি আমাকে প্রথম পর্যবেক্ষণে হারিয়ে যাওয়া মূল্যবোধের সাথে ছেড়ে দেয় এবং এটি সময়ের সিরিজ (যা আমরা এখনও ক্লাসে আলোচনা করিনি)।

এই জাতীয় পোস্ট দেওয়ার উপযুক্ত জায়গা কিনা তা নিশ্চিত করুন। আমার মনে হয়েছিল এটি কিছু ভাল আলোচনা তৈরি করতে পারে।

সম্পাদনা: আমি বিশেষত "প্রাক বিল্ট" মডেলগুলিও চাইছি না। আমি পরিসংখ্যানের বিষয়গুলি / সরঞ্জামগুলি সম্পর্কে আরও কৌতূহলী যা কারও সম্পর্কে এটি সক্ষম হতে পারে।


4
তিনি আপনাকে লিনিয়ার মডেলটিতে সীমাবদ্ধ রাখলে কঠোর হতে
ফ্র্যাঙ্ক এইচ।

4
যদি আপনার প্রকৃত সহগ w 95% আত্মবিশ্বাসের ব্যবধানের মধ্যে থাকে তবে আপনার অধ্যাপক যদি জিতেন, তবে বহুবিধ লাইনটি কোনও সাহায্য করবে না, কারণ বহুবিধ লাইনটি সিআইগুলিকে প্রচুর পরিমাণে স্ফীত করে। অন্যদিকে, যদি ভবিষ্যদ্বাণীকারী এবং নতুন ভবিষ্যদ্বাণীকারীদের প্রকৃত ডেটা ("সত্যিকারের" ডেটা আপনার সত্যিকারের ডিজিপি ব্যবহার করে তৈরি করা হয়েছে) এর মধ্যে পার্থক্যের উপর মূল্যায়ন করা হয়, তবে বহুবিধ লাইনারিটি আরও ভাল পদ্ধতির হতে পারে। নীচের লাইন: লক্ষ্য ফাংশনটি কী তা সন্ধান করুন এবং এতে আপনার দৃষ্টিভঙ্গিটি তৈরি করুন। (এটি জীবনে আরও সাধারণভাবে প্রযোজ্য ...)
স্টিফান কোলাসা

4
@dylanjm আপনি কি নিজের বিজয় শর্তটিকে নির্ভুলভাবে সংজ্ঞা দিতে পারবেন?
ম্যাথু গুন

11
এই জাতীয় অনুশীলনের মূল বিষয়টি আপনার নিজের সম্পর্কে কিছু ভাবার চেষ্টা করে শিখতে হবে । যদি আপনি তার বিরুদ্ধে বিশেষজ্ঞদের এখানে দাঁড়ান তবে আপনার প্রতিরোধের ক্ষেত্রে আপনাকে দেওয়া বিভিন্ন ধরণের তথ্য একত্রিত করে আপনার মস্তিষ্ককে প্রসারিত করার সুযোগটি নাটকীয়ভাবে হ্রাস পেয়েছে (পাশাপাশি অধ্যাপকের সাথে অন্যায় হওয়াও)। তদ্ব্যতীত, কোনও নামী প্রতিষ্ঠানে যখন তাকে আংশিকভাবে অন্য কারও দ্বারা সম্পাদন করা হয়েছিল তখন তাকে কাজ হিসাবে উপস্থাপন করা একাডেমিক অনাচার এবং জালিয়াতির মধ্যে থাকতে পারে (উদাহরণস্বরূপ, এটি যদি আপনার চিহ্নের কোনও অংশের জন্য মূল্য হয় তবে)। আপনি কীভাবে এটি জিজ্ঞাসা করছেন সে সম্পর্কে খুব সতর্কতা অবলম্বন করুন।
গ্লেন_বি -রিনস্টেট মনিকা

4
এই প্রশ্নের জনপ্রিয়তা সত্ত্বেও, আমি এই মুহুর্তে এটি বন্ধ করতে বাধ্য বোধ করি কারণ গেমের নিয়মগুলি সম্পর্কে স্পষ্টতার জন্য বারবার অনুরোধ করার পরেও (সাফল্যের মূল্যায়নের জন্য কোন মানদণ্ড ব্যবহার করা হবে, আপনাকে কতগুলি নমুনা সরবরাহ করতে হবে ইত্যাদি) এই গুরুত্বপূর্ণ তথ্য এখনও প্রশ্ন হাজির হয়নি। আমাদের লক্ষ্যগুলি "আলোচনা উত্পন্ন করার" চেয়ে সংকীর্ণ এবং আরও বেশি কেন্দ্রীভূত: দয়া করে এই সাইটে আমরা যে ধরণের প্রশ্ন করতে পারি তার জন্য আমাদের সহায়তা কেন্দ্রের সাথে পরামর্শ করুন।
শুক্র

উত্তর:


6

কেবল বর্ণিত অংশের তুলনায় ত্রুটি শব্দটি অনেক বড় করুন। উদাহরণস্বরূপ: , যেখানে X i j = sin ( i + j ) , i = 1..1000 এবং σ = 1000000 । অবশ্যই, আপনার বীজ কী ছিল তা আপনার মনে রাখতে হবে, যাতে আপনি আপনার অধ্যাপককে প্রমাণ করতে পারেন যে আপনি সঠিক ছিলেন এবং তিনি ভুল ছিলেন।yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

ভাগ্য এই শব্দ / সংকেত অনুপাতের সাথে পর্বটি সনাক্ত করে luck


এটি সিআই জয়ের মাপদণ্ডের জন্য কাজ করছে বলে মনে হয় না, তাই না? আমরা কেবলমাত্র বিশাল সিআই পেয়ে যা অবশ্যই অবশ্যই 1 টি কভার করবে এবং অবশ্যই কিছু সংখ্যক অস্থিরতা।
স্টিফান কোলাসা

অস্থিরতা কোনও সমস্যা হবে না, আমি যা করছি তা শব্দে সিগন্যালটি সমাহিত করা। খাঁটি সাদা আওয়াজ হিসাবে এটি প্রকাশিত হবে।
আকসকল

4
এটি ওপি কর্তৃক অনাকাঙ্ক্ষিত সস্তা মডেল হিসাবে বিবেচনা করা হয়েছিল
Sextus Empiricus

5

তার লক্ষ্যে পৌঁছাতে হয় তাহলে সত্য তথ্য উৎপাদিত প্রক্রিয়া পুনরুদ্ধার যে সৃষ্টি , আপনার অধ্যাপক বোকা বানাচ্ছে মোটামুটি তুচ্ছ হয়। আপনাকে উদাহরণ দেওয়ার জন্য, ব্যাঘাতগুলি ϵ iN ( 0 , 1 ) এবং নিম্নলিখিত কাঠামোগত সমীকরণগুলি বিবেচনা করুন:YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

এর সত্যিকারের ডিজিপি নোট করুন , যা শুধুমাত্র অন্তর্ভুক্ত এক্স 1 , জাভাস্ক্রিপ্টে গার্বেজ সন্তুষ্ট শর্ত 2. অবস্থা 3 এছাড়া সন্তুষ্ট হয় যেহেতু এক্স 1 শুধুমাত্র পরিবর্তনশীল তৈরি করা ওয়াই এবং আপনি প্রদান এক্স 1 এবং এক্স 2YX1X1YX1X2

তবুও, কোনও উপায় নেই যে আপনার অধ্যাপক বলতে পারবেন যে কেবলমাত্র তাকে অন্তর্ভুক্ত করা উচিত কেবল এক্স 2 বা এক্স 1 এবং এক্স 2 অন্তর্ভুক্ত করে ওয়াইয়ের সত্য ডিজিপি পুনরুদ্ধার করতে পারেন(যদি আপনি এই উদাহরণটি ব্যবহার করে শেষ করেন তবে ভেরিয়েবলের সংখ্যাটি পরিবর্তন করুন)। সম্ভবত, তিনি আপনাকে সমস্ত পরিবর্তনশীলগুলির সাথে রিগ্রেশনটির উত্তর হিসাবে দেবেন, যেহেতু তারা সকলেই উল্লেখযোগ্য ভবিষ্যদ্বাণী হিসাবে প্রদর্শিত হবে। আপনি যদি এটি চান তবে 20 টি ভেরিয়েবলে প্রসারিত করতে পারেন, আপনিএই উত্তরটি এখানেএবং একটিসিম্পসনের প্যারাডক্স মেশিনটিএখানেদেখতে চাইতে পারেন।X1X2X1X2 Y

সমস্ত শর্তাধীন প্রত্যাশা নোট করুন , [ ওয়াই | এক্স 2 ] বা [ ওয়াই |E[Y|X1]E[Y|X2] শর্তসাপেক্ষ প্রত্যাশাগুলি সঠিকভাবে নির্দিষ্ট করা হয়েছে, তবে কেবল[ ওয়াই | এক্স 1 ] ওয়াইয়ের সত্যিকারের ডিজিপি প্রতিফলিত করেসুতরাং, আপনার অধ্যাপক অনিবার্যভাবে কাজটি ব্যর্থ হওয়ার পরে, তিনি তর্ক করতে পারেন যে তার লক্ষ্যটি ছিল কোনও শর্তসাপেক্ষ প্রত্যাশা পুনরুদ্ধার করা, বা ওয়াইয়ের সেরা ভবিষ্যদ্বাণী পাওয়াE[Y|X1,X2] E[Y|X1]YY ইত্যাদি আপনি ফিরে যুক্তি দিতে পারেন যে তিনি যা বলেছিলেন তা ছিল না, যেহেতু তিনি বলেছেন:

পরিবর্তনশীল ওয়াই অবশ্যই একটি লিনিয়ার রিগ্রেশন মডেল থেকে আসতে হবে যা (...) ভেরিয়েবলগুলিকে সন্তুষ্ট করে যা আপনার বাস্তব মডেল (...) তৈরি করতে ব্যবহৃত হয়েছিল

এবং আপনি কার্যকারিতা, সত্য ডিজিপির অর্থ এবং সাধারণভাবে সনাক্তকরণযোগ্যতা সম্পর্কে ক্লাসে একটি ভাল আলোচনার সূচনা করতে পারে ।


আপনি এমন একটি মডেল প্রস্তাব করছেন যা পোস্টে # 2 এর সাথে সামঞ্জস্যপূর্ণ
আকসাকাল

3

বহুবর্ণবিহীনতা এবং ভিন্নতার তুলনায় আয় হিসাবে বনাম: বয়সের তুলনায় আয়কর: এমন কিছু বেদনাদায়ক বৈশিষ্ট্য ইঞ্জিনিয়ারিং করুন যা স্কেলিংয়ের সমস্যা সরবরাহ করে: কিছুটা অল্প পরিমাণে ছিটিয়ে দেওয়া জন্য এনএ প্রদান করুন। লিনিয়ারিটি টুকরা সত্যিই এটি আরও চ্যালেঞ্জিং করে তবে এটি বেদনাদায়ক হতে পারে। এছাড়াও, আউটলিয়াররা তাঁর সামনে সমস্যা বাড়িয়ে তুলবে।


আমি মনে করি যে হিটরোসসিডাস্টিটিটি সমস্যার আওতার বাইরে, তবে স্পষ্টভাবে সম্মত হন যে বহুবিধ লাইনারিটি সত্য স্পেসিফিকেশনটি সন্ধান করা শক্ত করার অন্যতম সেরা উপায়।
জেডিএল

2

মিথস্ক্রিয়া শর্ত অনুমোদিত? যদি তা হয় তবে সমস্ত নিম্নতর অর্ডার সহগকে 0 তে সেট করুন এবং N-th অর্ডার ইন্টারঅ্যাকশনগুলির বাইরে পুরো মডেলটি তৈরি করুন (উদাহরণস্বরূপ মতো পদগুলি)X5X8X12X13


0

যে কোনও লিনিয়ার মডেল চয়ন করুন। তাকে এমন একটি ডেটা সেট দিন যেখানে বেশিরভাগ নমুনা x = 0 এর আশেপাশে থাকে। X = 1,000,000 এর কাছাকাছি তাকে কয়েকটি নমুনা দিন।

এখানে দুর্দান্ত জিনিস যে এক্স = 1,000,000 এর কাছাকাছি নমুনাগুলি বিদেশী নয়। তারা একই উত্স থেকে উত্পন্ন হয়। তবে, স্কেলগুলি যেহেতু খুব আলাদা তাই 1 এম এর কাছাকাছি ত্রুটি 0 এর ত্রুটিগুলির সাথে ফিট করে না।

Yi=β0+β1Xi1+ϵi

আমাদের কাছে x = 0 এর নিকটবর্তী এন নমুনার একটি ডেটা সেট রয়েছে। "" যথেষ্ট "মানগুলিতে আমরা আরও 2 পয়েন্ট বেছে নেব। আমরা ধরে নিই যে এই দুটি পয়েন্টটিতে কিছু ত্রুটি রয়েছে।

একটি "যথেষ্ট পরিমাণে" মানটি এমন একটি মান যে কোনও অনুমানের জন্য ত্রুটিটি এই দুটি পয়েন্টে সরাসরি পাস না করে বাকী ডেটাসেটের ত্রুটির চেয়ে অনেক বড়।

সুতরাং, লিনিয়ার রিগ্রেশন এই দুটি পয়েন্টে উত্তীর্ণ সহগগুলি বেছে নেবে এবং বাকী ডেটাসেট মিস করবে এবং আন্ডারলাইনিং মডেল থেকে আলাদা হবে।

নিম্নলিখিত উদাহরণ দেখুন। {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, 00 1000000, 1002169}, 000 1000001, 999688}

এটি ওল্ফর্মআল্ফা সিরিজের ফর্ম্যাটে। প্রতিটি জোড়ায় প্রথম আইটেমটি এক্স এবং দ্বিতীয়টি এক্সেলটিতে সূত্র = A2 + NORMINV (RAND (), 0,2000) ব্যবহার করে তৈরি করা হয়েছিল।

β0=1,β1=1 এবং আমরা সাধারনত 0 এবং 2000 এর মানক বিচ্যুতি সহ সাধারণভাবে বিতরণ করা এলোমেলো গোলমাল যুক্ত করি This

y=178433.x426805y=x


এই কাজটি ঠিক কীভাবে করা উচিত এবং এটি কী প্রভাব তৈরি করার কথা?
রিচার্ড হার্ডি

গোলমাল এবং নির্ভুলতা বিভিন্ন স্কেলে আলাদাভাবে কাজ করবে বলে এটি কাজ করে। উচ্চ সংখ্যায়, চূড়ান্ত দিকে নিয়ে যাওয়া এবং একটি বিন্দু বিবেচনা করে, লাইনটি সরাসরি তার মধ্য দিয়ে যাওয়া উচিত বা প্রচুর ব্যয় হয়। কিছু গোলমাল সঠিক মানগুলি মিস করার জন্য যথেষ্ট। শূন্যের কাছাকাছি, আবার চরম - কোন ধারণা নেই, আপনি গোলমাল ছেড়ে চলে যাবেন।
ডএল

ভুল সহগের সাথে ভেরিয়েবলের জন্য একটি ছোট মানটি ব্যবহার করুন এবং আপনি মূল্য পরিশোধ করছেন।
ডএল

হ্যাঁ, তবে অধ্যাপকের পক্ষে কেন এমন মডেল আবিষ্কার করা শক্ত হবে? প্রদত্ত রেজিস্ট্রারটিতে যখন এত বেশি বৈচিত্র থাকে তখন এটি একটি বিশেষত সহজ কাজ বলে মনে হয়।
রিচার্ড হার্ডি

কারণ কোনও মডেলই উভয় গ্রুপের পক্ষে উপযুক্ত নয়।
দাও
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.