লিনিয়ার রিগ্রেশন এবং ডেটা স্কেলিং


10

নিম্নলিখিত প্লটটি লিনিয়ার রিগ্রেশন সহ প্রাপ্ত সহগগুলি দেখায় ( mpgলক্ষ্য পরিবর্তনশীল হিসাবে এবং অন্যান্য সমস্ত ভবিষ্যদ্বাণীকারী হিসাবে)।

এমটিকার্স ডেটাসেটের জন্য ( এখানে এবং এখানে ) উভয়ই ডেটা স্কেলিং ছাড়াই:

এখানে চিত্র বর্ণনা লিখুন

আমি এই ফলাফলগুলি কীভাবে ব্যাখ্যা করব? ভেরিয়েবলগুলি hpএবং dispকেবলমাত্র ডেটা মাপা হলে তা উল্লেখযোগ্য। হয় amএবং qsecসমানভাবে গুরুত্বপূর্ণ বা amবেশী গুরুত্বপূর্ণ qsec? কোন পরিবর্তনশীল বলা উচিত গুরুত্বপূর্ণ নির্ধারক mpg?

আপনার অন্তর্দৃষ্টি জন্য ধন্যবাদ।


যদি আপনি কিছু মনে করেন না, আপনি কি কয়েকটি আলাদা মডেল চালাতে পারেন এবং কোন বৈশিষ্ট্যগুলি আসলে গুরুত্বপূর্ণ তা ক্রস চেক করতে পারেন? যখন বিভিন্ন কলামের জন্য আমাদের কাছে খুব আলাদা স্কেল থাকে এবং সেগুলি খারাপভাবে পৃথক হয় আপনার প্লট (দুর্দান্ত প্লট) থেকে, ডেটা স্কেলিং করা হয়ে থাকে, এটি বেশ স্পষ্ট যে স্পেলিংটি মডেলটিকে ডেটা সম্পর্কে সত্যিকারের দর্শনীয় স্থান খুঁজে পেতে সাহায্য করেছিল যেমন স্কেলিং ছাড়াই, মডেলের কোনও পরিবর্তনশীলকে আরও বেশি ওজন দেয়ার বিকল্প নেই যার বড় আকারের স্কেল রয়েছে তবে আপনি যে অনুমান করছেন তাও কিছুটা উচ্চতর সংখ্যার ..
আদিত্য

প্লট সম্পর্কে আপনার মন্তব্যের জন্য ধন্যবাদ। আপনি "কয়েকটি আলাদা আলাদা মডেল চালান" বলতে কী বোঝায় তা আমি নিশ্চিত নই। নিউরাল-নেটওয়ার্কের মতো কিছু অন্যান্য কৌশল ব্যবহার করে কোন বৈশিষ্ট্যগুলি সত্যই গুরুত্বপূর্ণ তা আপনি কী খুঁজে পেতে পারেন যাতে কোনও লিনিয়ার রিগ্রেশন আবিষ্কারের সাথে তুলনা করতে পারে।
rnso

অস্পষ্ট হওয়ার জন্য দুঃখিত, আমি যা বোঝাতে চেয়েছি তা হল গাছ ভিত্তিক ইত্যাদি বিভিন্ন মিলি অ্যালগরিদমগুলি চেষ্টা করে দেখতে এবং তাদের সমস্ত বৈশিষ্ট্যের গুরুত্বের তুলনা করুন ..
আদিত্য

উত্তর:


4

এইচপি এবং ডিস্পের সহগগুলি কম থাকে যখন ডেটা অপ্রকাশিত থাকে এবং উচ্চতর হয় যখন ডেটা স্কেল করা হয় তার অর্থ এই ভেরিয়েবলগুলি নির্ভরশীল ভেরিয়েবলটি ব্যাখ্যা করতে সহায়তা করে তবে তাদের পরিমাণটি বড়, সুতরাং অনাবৃত ক্ষেত্রে সহগগুলি কম থাকতে হবে।

"গুরুত্ব" এর শর্তে, আমি বলব যে মাপকাঠির ক্ষেত্রে সহগের সম্পূর্ণ মূল্য হ'ল অনাবৃত মামলার তুলনায় গুরুত্বের একটি ভাল পরিমাপ, যেহেতু সেখানে ভেরিয়েবলের প্রস্থতাও প্রাসঙ্গিক এবং এটি হওয়া উচিত না.

অবশ্যই আরও গুরুত্বপূর্ণ ভেরিয়েবলটি ডব্লিউটি


4

আপনি স্ট্যান্ডার্ড ত্রুটি ছাড়া এই ক্ষেত্রে তাত্পর্য সম্পর্কে সত্যই কথা বলতে পারবেন না; তারা ভেরিয়েবল এবং সহগের সাথে স্কেল করে। তদ্ব্যতীত, প্রতিটি সহগ মডেলটির অন্যান্য ভেরিয়েবলগুলির উপর শর্তাধীন এবং প্রান্তিকতা প্রকৃতপক্ষে এইচপি এবং ডিসপ্লেকে গুরুত্ব দেয়।

ভেরিয়েবলগুলি পুনরায় চালনার ফলে ফলাফলের তাৎপর্য একেবারেই পরিবর্তন করা উচিত নয়। প্রকৃতপক্ষে, যখন আমি রিগ্রেশনটি পুনরায় পুনরায় (যখন পরিবর্তনগুলি ঠিক তেমনটিই বাদ দিয়ে এবং সাধারণ ত্রুটিগুলি দ্বারা বিভাজনকে ভাগ করে স্বাভাবিক করে তোলা হয়) তখন প্রতিটি সহগের অনুমানের (ধ্রুবক ব্যতীত) স্কেলিংয়ের আগের মতো একই টি-স্ট্যাট থাকে এবং সামগ্রিক তাত্পর্যটির এফ-টেস্ট ঠিক একই রকম ছিল।

এটি হ'ল এমনকি যখন সমস্ত ভেরিয়েবলের শূন্যের গড় এবং 1 এর বৈকল্পিককে মাপানো হয়েছে, তখন প্রতিটি প্রতিরোধের সহগের জন্য কোনও মানের ত্রুটির কোনও আকার নেই, তাই কেবলমাত্র প্রতিটি সংখ্যার দৈর্ঘ্যের দিকে তাকান মানক প্রতিরোধ এখনও তাত্পর্য সম্পর্কে বিভ্রান্ত করছে ading

ডেভিড মাসিপ যেমন ব্যাখ্যা করেছেন, সহগের আপাত আকারের ডেটা পয়েন্টগুলির বিশালতার সাথে একটি বিপরীত সম্পর্ক রয়েছে। এমনকি যখন ডিসিপ এবং এইচপিতে সহগগুলি বিশাল হয়, তারা এখনও শূন্য থেকে উল্লেখযোগ্যভাবে আলাদা হয় না।

প্রকৃতপক্ষে, এইচপি এবং ডিস্প একে অপরের সাথে খুব বেশি সম্পর্কযুক্ত, r = .79, সুতরাং এই গুণাগুণগুলিতে স্ট্যান্ডার্ড ত্রুটিগুলি বিশেষত উচ্চগুণ সহকারে উচ্চতর হয় কারণ তারা এতটা প্রান্তিক। এই নিপীড়নের মধ্যে, তারা একটি অদ্ভুত কাউন্টারবালান্সিং করছে, যার কারণে একজনের ইতিবাচক সহগ আছে এবং একজনের নেতিবাচক সহগ রয়েছে; এটি অত্যধিক মানানসই মামলার মতো মনে হয় এবং তা অর্থবহ বলে মনে হয় না।

কোন ভেরিয়েবলগুলি এমপিজিতে সর্বাধিক প্রকারের ব্যাখ্যা দেয় তা দেখার একটি ভাল উপায় হ'ল (সমন্বিত) আর-স্কোয়ার। এটি আক্ষরিক অর্থে y এর পরিবর্তনের শতাংশ যা x ভেরিয়েবলের প্রকারের দ্বারা ব্যাখ্যা করা হয়। (সমন্বিত আর-স্কোয়ার সমীকরণে প্রতিটি অতিরিক্ত এক্স ভেরিয়েবলের জন্য সামান্য পরিমাণে জরিমানা অন্তর্ভুক্ত করে অতিরিক্ত চাপের জন্য))

কী গুরুত্বপূর্ণ তা দেখার একটি ভাল উপায় - অন্যান্য ভেরিয়েবলের আলোকে - আপনি যখন রিগ্রেশন থেকে এই পরিবর্তনশীলটি ছেড়ে যান তখন অ্যাডজাস্টেড আর-স্কোয়ারের পরিবর্তনটি লক্ষ্য করা উচিত। এই পরিবর্তনটি নির্ভরশীল পরিবর্তনশীলের পরিবর্তনের শতাংশ যা সেই ফ্যাক্টরটি ব্যাখ্যা করে, অন্যান্য ভেরিয়েবলগুলি স্থির রাখার পরে। (আনুষ্ঠানিকভাবে, আপনি পরীক্ষা করতে পারেন যে বাম-আউট ভেরিয়েবলগুলি কোনও এফ-টেস্টের সাথে গুরুত্বপূর্ণ কিনা ; ভেরিয়েবল নির্বাচন কাজের জন্য ধাপে ধাপে এইভাবে পদক্ষেপ নেওয়া যায়))

এটি চিত্রিত করার জন্য, আমি পৃথক পৃথক ভেরিয়েবলের জন্য একক রৈখিক প্রতিক্রিয়াগুলি চালিয়েছিলাম, এমপিজি পূর্বাভাস দিয়ে। ভেরিয়েবল ডাব্লুটি একা এমপিজিতে 75.3% পরিবর্তনের ব্যাখ্যা করে এবং কোনও একক ভেরিয়েবল এর বেশি ব্যাখ্যা করে না। তবে অন্যান্য অনেকগুলি ভেরিয়েবল ডাব্লুটিউইটির সাথে সম্পর্কিত এবং সেই একই প্রকরণের কয়েকটি ব্যাখ্যা করে। (আমি শক্তিশালী স্ট্যান্ডার্ড ত্রুটি ব্যবহার করেছি, যা স্ট্যান্ডার্ড ত্রুটি এবং তাত্পর্য গণনার ক্ষেত্রে সামান্য পার্থক্যের কারণ হতে পারে তবে সহগ বা আর-স্কোয়ারকে প্রভাবিত করবে না))

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

সমস্ত ভেরিয়েবলগুলি সেখানে একসাথে থাকাকালীন আর-স্কোয়ার্ডটি 0.869 এবং অ্যাডজাস্টেড আর-স্কোয়ারটি 0.807 হয়। সুতরাং, ডাব্লুটিটিতে যোগদানের জন্য আরও 9 টি ভেরিয়েবল ছুঁড়ে দেওয়া মাত্র 11% প্রকরণের (বা কেবল মাত্র 5% বেশি, যদি আমরা ওভারফিটিংয়ের জন্য সংশোধন করি) ব্যাখ্যা করে। (অনেকগুলি ভেরিয়েবল এমপিজিতে একই ধরণের কিছু ব্যাখ্যা করেছিল যা ডাব্লুটিউটি করে)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.