আমাকে এই অ-লিনিয়ার একাধিক রিগ্রেশন ফিট করতে সহায়তা করুন যা পূর্ববর্তী সমস্ত প্রচেষ্টাকে অস্বীকার করেছে


9

সম্পাদনা: এই পোস্টটি তৈরি করার পর থেকে আমি এখানে একটি অতিরিক্ত পোস্ট দিয়েছি ।

নীচের পাঠ্যের সংক্ষিপ্তসার: আমি একটি মডেলটিতে কাজ করছি এবং লিনিয়ার রিগ্রেশন, বক্স কক্স ট্রান্সফর্মেশন এবং জিএএম চেষ্টা করেছি তবে খুব বেশি অগ্রগতি হয়নি

ব্যবহার করে R, বর্তমানে আমি লিগের বড় লিগ (এমএলবি) পর্যায়ে নাবালিকা লীগ বেসবল খেলোয়াড়দের সাফল্যের পূর্বাভাস দেওয়ার জন্য একটি মডেল নিয়ে কাজ করছি। নির্ভরশীল পরিবর্তনশীল, আপত্তিকর কেরিয়ারটি প্রতিস্থাপনের উপরে (ওওআর) জয় করে, এটি এমএলবি পর্যায়ে সাফল্যের একটি প্রক্সি এবং পরিমাপ করা হয় যে খেলোয়াড় তার ক্যারিয়ারের সময়কালে জড়িত প্রতিটি নাটকের জন্য আক্রমণাত্মক অবদানের যোগফল (বিশদ এখানে - http) : //www.fangraphs.com/library/misc/war/)। স্বতন্ত্র ভেরিয়েবলগুলি পরিসংখ্যানগুলির জন্য জেড-স্কোর মাইনাল লিগের আক্রমণাত্মক ভেরিয়েবলগুলি যা বয়স সহ প্রধান লিগ পর্যায়ে সাফল্যের গুরুত্বপূর্ণ ভবিষ্যদ্বাণী বলে মনে করা হয় (কম বয়সে বেশি সাফল্যের সাথে খেলোয়াড়রা ভাল সম্ভাবনা থাকে), স্ট্রাইক আউট রেট [এসওপেক্ট) ], ওয়াক রেট [বিবিরেট] এবং সমন্বিত উত্পাদন (আক্রমণাত্মক উত্পাদনের একটি বিশ্বব্যাপী পরিমাপ) অতিরিক্ত হিসাবে, যেহেতু ছোটখাটো লিগের একাধিক স্তর রয়েছে, তাই আমি খেলায় নাবাল লিগ স্তরের জন্য ডামি ভেরিয়েবলগুলি অন্তর্ভুক্ত করেছি (ট্রিপল এ সহ ডাবল এ, হাই এ, লো এ, রুকি এবং শর্ট সিজন [প্রধান লিগগুলির আগে সর্বোচ্চ স্তর] হিসাবে রেফারেন্স ভেরিয়েবল])। দ্রষ্টব্য: আমি 0 থেকে 1 পর্যন্ত চলে আসা একটি ভেরিয়েবল হতে WAR কে আবার স্কেল করেছি।

পরিবর্তনশীল স্ক্রেটারপ্লট নিম্নরূপ:

scatterplot

রেফারেন্সের জন্য, নির্ভরশীল ভেরিয়েবল, ওওয়ারের নিম্নলিখিত প্লট রয়েছে:

dependentvariableplot

আমি একটি লিনিয়ার রিগ্রেশন দিয়ে শুরু করেছি oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeasonএবং নিম্নলিখিত ডায়াগোনস্টিক প্লটগুলি পেয়েছি :

linearRegressionDiagnostics

অবশিষ্টাংশের পক্ষপাতহীনতার অভাব এবং এলোমেলো পরিবর্তনের অভাবের সাথে স্পষ্ট সমস্যা রয়েছে। অতিরিক্তভাবে, অবশিষ্টাংশগুলি স্বাভাবিক নয়। নিগ্রহের ফলাফলগুলি নীচে দেখানো হয়েছে:

linearRegressionResults

আগের থ্রেডে পরামর্শ অনুসরণ করে , আমি কোনও সাফল্য ছাড়াই একটি বক্স-কক্স রূপান্তর চেষ্টা করেছি। এর পরে, আমি লগ লিঙ্ক সহ একটি জিএএম চেষ্টা করেছি এবং এই প্লটগুলি পেয়েছি:

splines

মূল diagnosticChecksGAM

নতুন ডায়াগনস্টিক প্লট GAMDiag

দেখে মনে হচ্ছে স্প্লাইজগুলি ডেটা ফিট করতে সহায়তা করেছে তবে ডায়াগনস্টিক প্লটগুলি এখনও খুব কম ফিট দেখাচ্ছে। সম্পাদনা: আমি ভেবেছিলাম যে আমি মূলত লাগানো মানগুলির বেনিফিটগুলি খুঁজছি কিন্তু আমি ভুল ছিলাম। যে প্লটটি মূলত প্রদর্শিত হয়েছিল তা মূল (উপরে) হিসাবে চিহ্নিত হয়েছে এবং পরে যে প্লটটি আপলোড করেছি তা নতুন ডায়াগনস্টিক প্লট হিসাবে চিহ্নিত হয়েছে (উপরেও)

GAMResults

মডেলের বৃদ্ধি পেয়েছেR2

কমান্ড দ্বারা উত্পাদিত ফলাফল gam.check(myregression, k.rep = 1000)আশাব্যঞ্জক নয়।

GAMResults2

কেউ কি এই মডেলটির জন্য পরবর্তী পদক্ষেপের পরামর্শ দিতে পারেন? আমি অন্য যে কোনও তথ্য সরবরাহ করতে পেরে খুশি হলাম যা আপনি মনে করেন যে আমি এতদূর এগিয়ে যাওয়া অগ্রগতি বোঝার জন্য দরকারী হতে পারে। যেকোন ধরনের সাহায্যের জন্য তোমাকে ধন্যবাদ।


2
আমি আর এ জিএএম-তে এই দুর্দান্ত প্রাইমারে কোডটি পেয়েছি - www3.nd.edu/~mclark19/learn/GAMS.pdf কোড: লাইব্রেরি (গাড়ি) স্কেটারপ্লটম্যাট্রিক্স (মাইডাটা [, সি (1,1: 8)], pch = 19, cex = .5, reg.line = F, lwd.smooth = 1.25, স্প্রেড = এফ, উপবৃত্তাকার = টি, কর্ন = সি ('ধূসর 60', '# 2957FF', '# FF8000'), কল.এক্সিস = 'ধূসর 50')
zgall1

1
আপনি আপনার ডেটাসেট ভাগ করতে পারেন? এছাড়াও, স্ক্যাটারপ্ল্লট ম্যাট্রিক্সের জন্য +1। এটা দুর্দান্ত।
জাচ

1
এটি খুব খারাপ, এটি একটি আকর্ষণীয় ডেটাসেটের মতো দেখাচ্ছে। আমার পরামর্শটি হ'ল অন্য কিছু মেশিন লার্নিং অ্যালগরিদম, যেমন একটি এলোমেলো বন try
জাচ

2
এলোমেলো বন সিদ্ধান্তের গাছের উপর ভিত্তি করে। আর এ র্যান্ডমফোরস্ট প্যাকেজটি এবং এলোমেলো বন উইকিপিডিয়া পৃষ্ঠা দেখুন: en.wikedia.org/wiki/Random_forest
জাচ

2
"নির্ভরশীল পরিবর্তনশীল ... প্লেয়ার তার ক্যারিয়ারের সাথে জড়িত প্রতিটি খেলার জন্য আক্রমণাত্মক অবদানের যোগ হিসাবে পরিমাপ করা হয়।" এটি আমার কাছে ঝাঁপিয়ে পড়ে। এখানে একটি মারাত্মক বিভ্রান্তি রয়েছে যে কোনও খেলোয়াড় কতক্ষণ খেলছেন, উভয়ই [এ] দীর্ঘ প্লেটাইমের অর্থ ওভার "সংগ্রহ" করার জন্য আরও বেশি সময় দেওয়া [খ] আরও ভাল খেলোয়াড় সম্ভবত দীর্ঘ সময়ের জন্য খেলবেন।
এফাইন

উত্তর:


6

খুব সুন্দর কাজ। আমি মনে করি যে এই পরিস্থিতিটি আনুপাতিক বৈষম্যগুলি সেমিপারমেট্রিক অর্ডিনাল লজিস্টিক মডেলের প্রার্থী। lrmআর ফাংশন rmsপ্যাকেজ মডেল মাপসই করা হবে। আপাতত আপনি মাত্র 100-200 স্তর থাকতে পারেন । শীঘ্রই এর একটি নতুন সংস্করণ একটি নতুন ফাংশন সহ প্রকাশ করা হবে যা মডেলটিতে হাজার হাজার বাধা রক্ষার জন্য দক্ষতার সাথে অনুমতি দেয়, অর্থাত্, পুরোপুরি অবিচ্ছিন্ন হতে দেয় [আপডেট: এটি 2014 সালে প্রকাশিত হয়েছিল]। আনুপাতিক বৈষম্য মডেল গুলি কীভাবে রূপান্তরিত হয় তার অদম্য। তার মানে কোয়ান্টাইলগুলিও আক্রমণাত্মক। আপনি যখন কোনও পূর্বাভাসিত গড় চান, যথাযথ বিরতি স্কেল হিসাবে ধরে নেওয়া হয়।YrmsormYβYY


1
স্তর অনুসারে, আপনি কি ওয়াই ভেরিয়েবলকে 100-200 বালতিতে বিন্যস্ত করতে চান? যদি তা হয় তবে বিনের আকারটি বেছে নেওয়ার জন্য কি কোনও পছন্দসই পদ্ধতি রয়েছে? সেগুলি কি সমান আকারের হওয়া উচিত?
zgall1

1
আমাদের অবিচ্ছিন্ন সমাধান না হলে কেবল অস্থায়ীভাবে বিনিন করুন। আপনি 100 শতাংশ শতাংশে বিন্যাস করতে পারেন, যেমনrequire(Hmisc); cut2(y, g=100, levels.mean=TRUE)
ফ্রাঙ্ক হ্যারেল

আপনি যখন বলছেন একটি নতুন সংস্করণ rmsশীঘ্রই প্রকাশিত হবে, কখন হতে পারে আপনার কোনও ধারণা আছে?
zgall1

আপনি যদি লিনাক্স ব্যবহার করেন তবে আমি এখনই এটি আপনাকে দিতে পারি, অন্যথায় 2 সপ্তাহ আশা করি।
ফ্র্যাঙ্ক হ্যারেল

আমি লিনাক্স ব্যবহার করি না তাই আমার ধারণা আমার অপেক্ষা করতে হবে। এটি কখন পাওয়া যায় তা দয়া করে আমাকে জানান।
zgall1

1

আমি মনে করি নির্ভরশীল পরিবর্তনশীল এবং মডেলটিকে পুনরায় কাজ করা এখানে কার্যকর হতে পারে। আপনার অবশিষ্টাংশগুলি থেকে দেখে lm()মনে হচ্ছে যে প্রধান সমস্যাটি উচ্চ ক্যারিয়ার ওয়ার (যা আপনি সমস্ত ওয়ারের যোগফল হিসাবে সংজ্ঞায়িত করেছেন) প্লেয়ারদের সাথে রয়েছে with লক্ষ্য করুন যে আপনার সর্বাধিক পূর্বাভাস (স্কেলড) ওয়ার সর্বোচ্চ 1 এর মধ্যে 0.15! আমি মনে করি এই নির্ভরশীল ভেরিয়েবলের সাথে দুটি জিনিস রয়েছে যা এই সমস্যাটিকে আরও বাড়িয়ে তুলছে:

  • খালি খেলোয়াড়রা কেবল আরও বেশি সময় ধরে যুদ্ধ চালানোর জন্য আরও সময় পান
  • ভাল খেলোয়াড়দের আরও বেশি সময় ধরে রাখার ঝোঁক থাকে, এবং এভাবে যুদ্ধের সংগ্রহের জন্য আরও বেশি সময় পাওয়ার সুযোগ থাকবে

তবে পূর্বাভাসের প্রসঙ্গে, সময় হিসাবে একটি নিয়ন্ত্রণ হিসাবে স্পষ্টভাবে খেলা (যে কোনও উপায়ে ওজন হিসাবে, বা গড় ক্যারিয়ারের ওয়ার গণনাতে ডিনোমিনেটর হিসাবে) বিপরীত হয় (এছাড়াও আমার সন্দেহ হয় যে এর প্রভাবটিও অ-রৈখিক হবে)। সুতরাং আমি ব্যবহার একটি মিশ্র মডেল সময় মডেলিং করার পরামর্শ দিই কিছুটা কম স্পষ্টভাবে lme4বা nlme

আপনার নির্ভরশীল পরিবর্তনশীলটি মৌসুমী ওয়ার হতে পারে এবং প্রতি খেলোয়াড় প্রতি আলাদা সংখ্যা থাকবে । মডেলটির এলোমেলো প্রভাব হিসাবে প্লেয়ার থাকবে এবং এর লাইনে থাকবে:j=mii

sWARij=α+σi2+<other stuff>+εij

সাথে lme4, এটি দেখতে কিছুটা এমন লাগবে
lmer(sWAR ~ <other stuff> + (1|Player), data=mydata)

আপনার এখনও রুপান্তর করার প্রয়োজন হতে পারে তবে আমি মনে করি এটি প্রতিক্রিয়া সহায়তা করবে।sWAR


আমি নিশ্চিত না যে আমি পুরোপুরি বুঝতে পেরেছি। যদি নির্ভরশীল চলকটি মৌসুমী ওয়ার হয় তবে স্বতন্ত্র ভেরিয়েবলগুলি কী কী? প্রতিটি খেলোয়াড়ের জন্য অভিন্ন লিগ স্ট্যাট লাইন? আমরা কি মূলত বলছি যে মাইনর লিগ স্ট্যাট লাইন এ বড় লিগ ওয়ার ওয়ার, সি, ডি এবং ই নিয়ে যেতে পারে?
zgall1

এছাড়াও, এই মডেলটি পোস্ট করার পরে, আমি এখানে একটি অতিরিক্ত পোস্ট অনুসরণ করতে চাইলে আপনি এখানে যাচাই করতে চাইতে পারেন: stats.stackexchange.com/questions/61711/…
zgall1
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.