ডাটা রেঞ্জের বাইরে প্রকল্পের জন্য রিগ্রেশন ব্যবহার করা ঠিক আছে? ঠিক আছে না? মাঝে মাঝে ঠিক আছে?


10

ডেটার রেঞ্জের বাইরে প্রকল্পে রিগ্রেশন ব্যবহার সম্পর্কে আপনার কী ধারণা? যদি আমরা নিশ্চিত যে এটি একটি রৈখিক বা পাওয়ার মডেল আকারের অনুসরণ করে, তবে মডেলটি ডেটা সীমার বাইরেও কার্যকর হতে পারে না? উদাহরণস্বরূপ আমি দাম দ্বারা চালিত ভলিউম আছে। আমি বিশ্বাস করি যে ডেটা সীমার বাইরে দামের জন্য আমরা প্রকল্প করতে সক্ষম হব। আপনার চিন্তাগুলো?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
আপনার অনুমানগুলি ডেটা সীমার বাইরে কতটা ভাল তা নির্ভর করে। অনাবৃত এর জন্য এর পূর্বাভাস দেওয়া প্রথম কারণেই আপনি রিগ্রেশন করার সম্পূর্ণ কারণ। yx
বেন

3
এমনকি যখন আপনি কি সত্যিই আছেন, সত্যিই, নিশ্চিত করুন রৈখিক সম্পর্ক পরিসীমা পরলোক এর ভবিষ্যতবক্তা চলতে আপনার নমুনা পর্যবেক্ষণ, একটি নতুন পর্যবেক্ষণ জন্য পূর্বাভাস প্রতিক্রিয়া ভ্যারিয়েন্স একটি শব্দ এর - যেমন - এটি আপনাকে চিন্তিত করা উচিত। x1,,xnnx(xx¯)2in(xix¯)2
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

বেন আমি একমত হতে চাইছি, সম্পূর্ণরূপে অনাবৃত এক্স এর জন্য y এর পূর্বাভাস দিচ্ছে না? অন্যথায় কেন এমনকি একটি রিগ্রেশন? হয়তো আমি পর্যবেক্ষণ করা ডেটা পরিসীমা থেকে নিজেকে দূরে সরিয়ে নেওয়ার অনুমতি দেওয়ার ক্ষেত্রে সীমা নির্ধারণ করা দায়বদ্ধ হতে পারে। অবশ্যই 10% নিরাপদ হবে .. না?
জনসন জেসন


@ বেন, @ জনসন - সম্ভবত একটি গিরিযুক্ত। রিগ্রেশন জন্য অন্য ব্যবহার আছে। এটি পূর্বাভাস দেওয়ার চেয়ে ব্যাখ্যা করতে ব্যবহার করা যেতে পারে। আমি মনে করি, বিশেষত সামাজিক বিজ্ঞানের ক্ষেত্রে এটি রিগ্রেশনের একটি বড় ব্যবহার। আমি প্রচুর যুক্তি পড়েছি যেমন আমাদের মনে হয় (পরিবর্তনশীল) এফেক্ট ফল বি, আমরা একটি রিগ্রেশন চালাই, দেখতে পেলাম যে এ এর ​​সহগ (s) এর 95% আত্মবিশ্বাসের ব্যবধান 0 থাকে না এবং আমরা এই সিদ্ধান্তে পৌঁছে যে সেখানে আছে ফর্মের সাথে একটি সম্পর্ক বি সৃষ্টি করে ident ঘটনাচক্রে, এটি আমি কখনও করি না!
মেহ

উত্তর:


13

প্রায় সমস্ত উত্তর এবং মন্তব্য বহির্ভূত হওয়ার বিপদগুলির বিরুদ্ধে সতর্ক করে। ভবিষ্যদ্বাণীটি বুদ্ধিমান কিনা তা দেখার জন্য আমি আরও একটি আনুষ্ঠানিক উপায় অফার করতে চাই। পদ্ধতিটি full of এর কলাম দ্বারা বিস্তৃত স্থানের প্রজেকশন ম্যাট্রিক্সের উপর ভিত্তি করে তৈরি করা হয়েছে যা আমরা পুরো পদক্ষেপ গ্রহণ করি, অর্থাৎ আমরা ধরে নিই যে কলামের স্থানটি পি-মাত্রিক। আপনি যেমন মনে করতে পারেন,X

H=X(XTX)1X

দেখা যেতে পারে যে তির্যক উপাদান সন্তুষ্ট , এই প্রণালী দ্বারা idempotence ফলত, এবং তাদের ভবিষ্যদ্বাণীকারী স্থানের সেন্ট্রয়েড থেকে দূরত্ব হিসাবে ব্যাখ্যা করা যেতে পারে। এটি সত্য কারণ লিভারেজ এবং স্কোয়ারড মহালানোবিস দূরত্বের মধ্যে একের মধ্যে একের মধ্যে যোগাযোগ রয়েছে । লুকানো এক্সট্রাপোলেশনগুলিকে চিহ্নিত করার একটি উপায় তখন দেখতে হবে যে নতুন অব্রেশনটি সেন্ট্রয়েড থেকে কতটা দূরে রয়েছে, তাই না? এটি নতুন তির্যক উপাদানটি গণনা করে করা যেতে পারে। ম্যাট্রিক্সের গুণনের কয়েকটি প্রাথমিক নিয়মগুলি স্মরণ করে আমাদের কাছে রয়েছেH0<Hii<1, i=1,,nHii

Hnew,new=xnewT(XTX)1xnew

যদি the বাকী তির্যক উপাদানের তুলনায় অনেক বড় হয়, তবে এটি আপনাকে বলে যে আপনার নতুন পর্যবেক্ষণটি সেন্ট্রয়েড থেকে বেশ দূরে রয়েছে এবং ভবিষ্যদ্বাণী করা সম্ভবত একটি ঝুঁকিপূর্ণ পদক্ষেপ। এটি কতটুকু বড় সেগুলি স্থির করতে কিছুটা রায় লাগে তবে অবশ্যই কৌশলটি বুদ্ধিমানের নয়। তবুও এর সৌন্দর্যটি হ'ল এটি সমস্ত মাত্রায় কাজ করে, যখন আপনি কোনও সাধারণ বিচ্ছুরিত প্লটের দিকে তাকাতে পারবেন না।Hnew,new

আপনি কোন সফ্টওয়্যারটি ব্যবহার করছেন তা আমি নিশ্চিত নই তবে প্রায় সবগুলিই সঠিক কমান্ড দিয়ে হ্যাট ম্যাট্রিক্সকে ফিরিয়ে দেবে। তাই আমি আপনাকে মন তৈরি করার আগে একবার নজর দেওয়ার পরামর্শ দিচ্ছি।


ভাল কাজ জন, এটি খুব সহায়ক। এফওয়াইআই আমি এক্সেল রিগ্রেশন ব্যবহার করছি।
জনসন জেসন

9

পূর্বাভাস ত্রুটিটি গড় থেকে দূরত্বের সাথে চতুর্ভুজ বৃদ্ধি পায় increases রিগ্রেশন সমীকরণ এবং ফলাফলগুলি আপনাকে তথ্যের পরিলক্ষিত ব্যাপ্তির তুলনায় ত্রুটির আকার নির্ধারণ করতে দেয় এবং মডেলটি কেবল একই ব্যাপ্তির জন্য পর্যাপ্ত।

এই ব্যাপ্তির বাইরে অনেক কিছু ঘটতে পারে। পূর্বে, ভবিষ্যদ্বাণী ত্রুটি বৃদ্ধির কারণে ভবিষ্যদ্বাণীটি আরও খারাপ হয়।

দ্বিতীয়ত, মডেলটি পুরোপুরি ভেঙে যেতে পারে। এটি দেখার সর্বাধিক সহজ উপায় হ'ল সময় সম্পর্কিত দাম সম্পর্কিত কোনও মডেল প্রজেক্ট করার চেষ্টা করা: আপনি নেতিবাচক সময়ের জন্য ভবিষ্যদ্বাণী করতে পারবেন না।

তৃতীয়ত, লিনিয়ার সম্পর্ক অপর্যাপ্ত হতে পারে। আপনার উদাহরণস্বরূপ, প্রায় অবশ্যই স্কেলের অর্থনীতি রয়েছে, যদি আপনি পর্যবেক্ষণকৃত মানগুলির সীমার বাইরে ভবিষ্যদ্বাণী করার চেষ্টা করেন তবে এটি খুব লক্ষণীয় হয়ে উঠবে।

মার্ক টোয়েনের একটি রচনায় এই একই প্রভাবের একটি মজাদার উদাহরণ প্রকাশিত হয়েছে , যেখানে তিনি সময়ের সাথে সাথে মিসিসিপি নদীর দৈর্ঘ্যের মডেল তৈরি করার চেষ্টা করেছেন --- কিছুটা ভাঙ্গনের ফলে এটি প্রতি বছর বেশ বাতাসযুক্ত এবং সংক্ষিপ্ত / সম্পাদিত হয়েছিল। বাঁকগুলির পাশাপাশি মনুষ্যনির্মিত শর্টকাটগুলি --- এবং "ভবিষ্যদ্বাণী" করে যে এত বছরে কায়রো, ইলিনয় এবং নিউ অরলিন্সের মধ্যবর্তী দূরত্ব সঙ্কুচিত হয়ে প্রায় এক মাইল এবং তিন কোয়ার্টারে যাবে)।

পরিশেষে, নোট করুন পর্যবেক্ষণকৃত মানগুলির ব্যাপ্তি যদি আপনার একাধিক পূর্বাভাসক চলক থাকে তবে তা জটিল হতে পারে। (ভবিষ্যদ্বাণীকারীদের মধ্যে পারস্পরিক সম্পর্কের কারণে আপনি প্রায়শই প্রতিটি অনুমানকারীর মধ্যে ম্যাক্সিমা এবং মিনিমা দ্বারা নির্ধারিত বাক্সটি নিতে পারবেন না))


1
(+1 টি) যদিও বলতে মডেল পর্যাপ্ত হয় শুধুমাত্র উপর পর্যবেক্ষিত তথ্য পরিসীমা একটু শক্তিশালী - এটা যে সমস্যার আপনি আরো এবং আরো অনেক কিছুতে পরিণত বর্ণনা আরও দূরে আপনি এটা থেকে পেতে বিষয়ে আছে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

তাহলে পর্যবেক্ষণ করা তথ্য পরিসীমা থেকে দূরে কোনও নিরাপদ দূরত্ব কত দূরে রয়েছে তার কোন কাজ রয়েছে? 1 টিরও কম স্ট্যান্ডার্ড বিচ্যুতি ঠিক আছে?
জনসন জেসন

1
@Scortchi। পয়েন্ট নেওয়া হয়েছে। বেশিরভাগ পরিস্থিতিতে মডেলের অবক্ষয় ধীরে ধীরে। তবে, মাঝে মাঝে সেখানে হয় কঠিন সীমানা, এবং যারা কারণ বিষাদ যাচ্ছে অতিক্রম করার চেষ্টা করছে।
ব্যবহারকারী3697176

1
@ জনসন জেসন: থাম্বের বিধি খোঁজার কোনও বুদ্ধি নেই। আপনি সহজেই অনুমানের ব্যবধানগুলি গণনা করতে পারবেন, ধরে নিবেন আপনার মডেলটি এক্সট্রাপোলটেড হতে পারে; আপনি যে ডিগ্রিতে এক্সট্রাপোলেশনকে বিশ্বাস করতে পারেন তা বিষয়বস্তুর জ্ঞানের উপর নির্ভর করে: যা গ্রহণযোগ্য তা কেস-কেস থেকে পৃথক হয়।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
দুর্দান্ত পয়েন্ট (+1)। তবে নেতিবাচক সময়ের জন্য মূল্যের পূর্বাভাস দেওয়ার ক্ষেত্রে কোনও যৌক্তিক সমস্যা নেই। আসল সমস্যাটি হ'ল যদি আপনি কিছু নির্দিষ্ট সময়ের জন্য (সাধারণত অতীতে, অনুশীলনে) নেতিবাচক দামের পূর্বাভাস দেন। প্রায়শই এর অর্থ মডেলটি গুণগতভাবে ততটাই ভুল যে পরিমাণে বহির্ভূত অংশটি একটি লাইন (বা বক্ররেখা) প্রসারিত করে। উদাহরণস্বরূপ একটি লগারিদমিক লিঙ্ক ফাংশন সর্বদা ইতিবাচক ভবিষ্যদ্বাণীগুলি বোঝায়।
নিক কক্স

4

আপনার যে অঞ্চলে ডেটা নেই সেগুলির জন্য আপনি ডেটা চালিত সিদ্ধান্ত নিতে পারবেন না। গল্পের শেষে. আপনার ডেটা সংগ্রহ করা হয়েছে তার পরিসীমাটির জন্য ডেটা খুব ভালভাবে একটি রৈখিক আকারকে সমর্থন করতে পারে তবে এই আকারটি আপনার সীমার বাইরে লিনিয়ার অব্যাহত থাকবে বলে বিশ্বাস করার জন্য আপনার কাছে ডেটা-চালিত কারণ নেই। এটি সূর্যের নিচে কোনও আকার হতে পারে!

আপনি ধরে নিতে পারেন যে লিনিয়ার আকৃতিটি আপনার ডেটা সীমার বাইরে অব্যাহত রয়েছে তবে এটি এমন একটি বিষয়গত ধারণা যা আপনার সংগৃহীত ডেটা দ্বারা সমর্থিত নয়। এই ধারণাটি কতটা নিরাপদ তা তাদের বিষয় বিষয় দক্ষতার ভিত্তিতে দেখার জন্য আমি কোনও বিষয় বিশেষজ্ঞের সাথে পরামর্শ করার পরামর্শ দেব।


2
তাই যদি আমরা অনাবৃত এক্স এর জন্য ওয়াইয়ের ভবিষ্যদ্বাণী করতে না পারি তবে রিগ্রেশন করার আসলে কী কারণ
জনসন জেসন

2
আমি মনে করি বিন্দুটি হ'ল আপনি এখনও পরিসরের অভ্যন্তরে পূর্বাভাস দিতে পারেন, এটি সীমার বাইরে ভবিষ্যদ্বাণী করা ঠিক হবে না। সম্ভবত বেশিরভাগ নতুন ডেটা পয়েন্টগুলি সীমার মধ্যে থাকবে, সুতরাং মডেলটি বেশিরভাগ সময় কাজে লাগবে
রায়ান জোটি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.