রিগ্রেশন মডেলটিতে ত্রুটি কীভাবে ধারণা করা যায়?


11

আমি ডেটা বিশ্লেষণের ক্লাসে যোগ দিচ্ছি এবং আমার কয়েকটি ভাল-ধারণা ধারণাকে কাঁপানো হচ্ছে। যথা, ত্রুটি (এপসিলন) এবং সেই সাথে অন্য কোনও প্রকারের ধারণাগুলি কেবলমাত্র (তাই আমি ভেবেছিলাম) একটি গোষ্ঠীতে (একটি নমুনা বা পুরো জনসংখ্যা) প্রয়োগ করে। এখন, আমাদের শিখানো হচ্ছে যে রিগ্রেশন অনুমানগুলির মধ্যে একটি হ'ল বৈচিত্রটি "সমস্ত ব্যক্তির জন্য সমান"। এটি আমার কাছে একরকম হতবাক। আমি সবসময়ই ভেবেছিলাম যে এক্স এর সমস্ত মান জুড়েই এটি ওয়াইয়ের বিভিন্নতা যা ধ্রুবক হিসাবে ধরে নেওয়া হয়েছিল।

আমি প্রফেসরের সাথে চ্যাট করেছি, যিনি আমাকে বলেছিলেন যে আমরা যখন রিগ্রেশন করি তখন আমরা আমাদের মডেলটিকে সত্য বলে ধরে নিই। এবং আমি মনে করি এটি জটিল অংশ। আমার কাছে, ত্রুটি শব্দটি (এপসিলন) সবসময় "কিছু উপাদান যা আমরা জানি না এবং এটি আমাদের পরিণতি পরিবর্তনশীল, এবং কিছু পরিমাপের ত্রুটিকে প্রভাবিত করতে পারে" এর মতো কিছু বোঝায়। যেভাবে ক্লাসটি শেখানো হয়, সেখানে "অন্যান্য জিনিস" বলে কিছুই নেই; আমাদের মডেল সত্য এবং সম্পূর্ণ বলে ধরে নেওয়া হয়। এর অর্থ হ'ল সমস্ত অবশিষ্টাংশের প্রকরণকে পরিমাপের ত্রুটির একটি পণ্য হিসাবে বিবেচনা করতে হবে (এইভাবে, কোনও ব্যক্তিকে 20 বার পরিমাপের সময় 20 ব্যক্তিকে এক বার পরিমাপ করার মতো একই বৈচিত্র্য তৈরি করা আশা করা যায়)।

আমি কোথাও কোথাও ভুল অনুভব করছি, আমি এ সম্পর্কে কিছু বিশেষজ্ঞের মতামত রাখতে চাই ... ত্রুটি শব্দটি ধারণাগতভাবে বলতে গেলে কী তা বোঝার জন্য কিছু জায়গা আছে?


3
সম্ভবত তার অর্থ হ'ল, মডেলটি সত্য হলেও, প্রতিক্রিয়াগুলিতে এখনও এলোমেলো প্রকরণ রয়েছে - এটি ত্রুটির বৈকল্পিকতার দ্বারা ধরা পড়ে - এটি উদাহরণস্বরূপ, একটি অপূর্ণ পরিমাপ যন্ত্রকে দায়ী করা যেতে পারে। অন্যরা কখনও কখনও ত্রুটিটির বৈকল্পিক ধারণাটি অনুমান করে যে অনুপস্থিত অনুমানকারীদের কারণে (মডেলের আকারে ত্রুটিগুলি অগত্যা নয়) বোঝায় যে যদি সম্ভাব্য সব ভবিষ্যদ্বাণীকারীকে পরিমাপ করা হয় তবে ত্রুটির প্রকরণটি 0 হবে। এটি প্রথমটির সাথে বেমানান নয় - ত্রুটিগুলি পরিমাপে একটি "অনুপস্থিত ভবিষ্যদ্বাণী" হিসাবে বিবেচনা করা যেতে পারে।
ম্যাক্রো

আমি মনে করি একটি জিনিস যা প্রথমে উপলব্ধি করা শক্ত is "ত্রুটি" অর্থ এই উদাহরণে বিভিন্ন জিনিস বোঝাতে পারে। "ত্রুটি" বলতে আমরা আমাদের মডেল এবং পর্যবেক্ষণকৃত মানগুলি থেকে গৃহীত উপযুক্ত মানগুলির মধ্যে পার্থক্য উল্লেখ করতে পারি (পার্থক্যটি মোটামুটি পার্সিমোনিয়াস মডেলের কারণে হতে পারে, যেমন)। "ত্রুটি" অর্থ পর্যবেক্ষণকৃত মান এবং সত্য মানের মানের মধ্যে পার্থক্যও হতে পারে (পার্থক্যটি এটির কারণে বলা যেতে পারে, আপনি যে ডিভাইসটি নিকটতম পূর্ণসংখ্যা / দশম দশমিক / ইত্যাদি ক্ষেত্রে মানগুলির চক্রগুলি পরিমাপ করতে ব্যবহার করেন)। [প্রথম

@ ম্যাক্রো হ্যাঁ, এটি আমার কাছে ত্রুটির কথা ভাবার প্রাকৃতিক পদ্ধতির মতো বলে মনে হচ্ছে। আমি তবে চেষ্টা করার চেষ্টা করছি কেন অধ্যাপক এটির কঠোর সংজ্ঞাটির প্রতি জোর দিয়েছিলেন (এটি বাস্তবতার সাথে প্রতিটি ব্যক্তির ক্ষেত্রে প্রযোজ্য হিসাবে ভাবা যদিও আমরা বাস্তবে জানি, এটি সত্য নয়)।
ডোমিনিক কম্টোইস

পুনঃটুইট এবং যদি আমি সঠিকভাবে বুঝতে পারি তবে এগুলি সমস্ত "কড়া" দৃষ্টিভঙ্গিতে একসাথে আবদ্ধ। অর্থ যে পর্যবেক্ষণ করা এবং পূর্বাভাসিত মানগুলির মধ্যে সমস্ত পার্থক্য পরিমাপের ত্রুটি থেকে আসে কারণ আমাদের মডেল "সত্য হতে হবে"।
ডমিনিক কম্টোইস

উত্তর:


2

যদি ফলাফলগুলির y মানগুলির উপর প্রভাব ফেলে এমন ব্যক্তিদের দিক থেকে থাকে, তবে হয় সে দিকগুলি পাওয়ার কিছু উপায় রয়েছে (এই ক্ষেত্রে তাদের ভবিষ্যদ্বাণী x এর অংশ হওয়া উচিত), বা এগুলি পাওয়ার কোনও উপায় নেই ever তথ্য।

যদি এই তথ্যটি না পাওয়ার কোনও উপায় না থাকে এবং ব্যক্তিদের জন্য বারবার y মানগুলি মাপার কোনও উপায় না থাকে, তবে এটি সত্যিকার অর্থে গুরুত্বপূর্ণ নয়। যদি আপনি বার বার y মাপতে পারেন এবং যদি আপনার ডেটা সেটে কিছু লোকের জন্য পুনরাবৃত্তি পরিমাপ থাকে তবে আপনার হাতে একটি সম্ভাব্য সমস্যা রয়েছে, যেহেতু পরিসংখ্যানগত তত্ত্ব পরিমাপের ত্রুটিগুলি / অবশিষ্টাংশগুলির স্বাধীনতা গ্রহণ করে।

উদাহরণস্বরূপ, ধরুন আপনি ফর্মের একটি মডেল ফিট করার চেষ্টা করছেন

,Y=β0+ +β1এক্স

এবং এটি প্রতিটি ব্যক্তির জন্য,

,Yআমিএন=100+ +10এক্স+ +z- র

যেখানে z পৃথক ব্যক্তির উপর নির্ভর করে এবং সাধারণত গড় 0 এবং মান বিচ্যুতি 10 দিয়ে বিতরণ করা হয় an

, Yমিএকটিগুলি=100+ +10এক্স+ +z- র+ +

যেখানে সাধারণত 0 এবং গড় বিচ্যুতি 0.1 সঙ্গে বিতরণ করা হয়।

আপনি এটি হিসাবে মডেল চেষ্টা করতে পারেন

,Y=β0+ +β1এক্স+ +ε

যেখানে সাধারণত 0 এবং স্ট্যান্ডার্ড বিচ্যুতি দিয়ে বিতরণ করা হয়ε

σ=102+ +0.12=100,01

যতক্ষণ না প্রতিটি ব্যক্তির জন্য আপনার কেবলমাত্র একটি পরিমাপ থাকে তা ঠিক থাকবে। তবে, যদি একই ব্যক্তির জন্য আপনার একাধিক পরিমাপ থাকে তবে আপনার অবশিষ্টাংশগুলি আর স্বাধীন হতে পারবেন না!

β0=100β1=10χ2


আমি আমার উত্তরে ভীতিজনক শব্দ "মাল্টিলেভেল মডেলিং" ব্যবহার এড়াতে চেষ্টা করেছি, তবে আপনার সচেতন হওয়া উচিত যে কিছু ক্ষেত্রে এটি এই ধরণের পরিস্থিতি মোকাবেলার জন্য একটি উপায় সরবরাহ করে।
ব্রায়ান বোর্চারস

1

আমি মনে করি "ত্রুটি" সর্বোত্তমভাবে "আমাদের বর্তমান তথ্য প্রদত্ত পর্যবেক্ষণের অংশটি হিসাবে অনাকাঙ্ক্ষিত" হিসাবে বর্ণনা করা হয়েছে। নমুনা বনাম নমুনার বিবেচনার চেষ্টা করার ফলে ধারণাগত সমস্যার দিকে পরিচালিত হয় (ভাল এটি আমার পক্ষে যাইহোক) যেমন কিছু বিতরণ থেকে আঁকা "বিশুদ্ধরূপে এলোমেলো" হিসাবে ত্রুটিগুলি চিন্তা করে। ভবিষ্যদ্বাণী এবং "ভবিষ্যদ্বাণী" এর শর্তে চিন্তা করা আমার কাছে আরও বেশি অর্থবোধ করে।

পি(1,...,এন)(1এনΣআমি=1এনআমি2)=σ2σ2σ

এন


σ2

পি(1,...,এন)α1

এবং কাছাকাছি অর্থাত্ কেএল ডাইভার্জেনশন হ্রাস করা হয়েছে
সম্ভাব্যতা

দ্বিধাটি নমুনা এবং জনসংখ্যার মধ্যে নয়। এটি নমুনা / জনসংখ্যার তুলনায় ব্যক্তিদের ক্ষেত্রে প্রযোজ্য ত্রুটি সম্পর্কে ভাবনা সম্পর্কে।
ডমিনিক কম্টোইস

1

সাধারণ লিনিয়ার রিগ্রেশন ব্যাখ্যা করার জন্য এখানে খুব দরকারী লিঙ্ক: http://www.dangoldstein.com/dsn/archives/2006/03/Every_wonder_ho.html সম্ভবত এটি "ত্রুটি" ধারণাটি উপলব্ধি করতে সহায়তা করতে পারে।

এফডি


এটা খুব সুন্দর অ্যাপলেট! এটি উল্লেখ করার জন্য ধন্যবাদ। এটি আমাকে অন্য প্রশ্নের জন্য উত্থাপিত চিত্রগুলির বেশ কিছুটা মনে করিয়ে দেয় , যেখানে আপনার উত্তরটি আরও বেশি প্রাসঙ্গিক হতে পারে।
whuber

1

আমি অধ্যাপক এর গঠনের সাথে একমত নই। আপনি যেমনটি বলেছেন, বৈকল্পিক প্রতিটি ব্যক্তির জন্য একই রকমের ধারণাটি বোঝায় যে ত্রুটি শব্দটি কেবল পরিমাপের ত্রুটি উপস্থাপন করে। বেসিক একাধিক রিগ্রেশন মডেলটি কীভাবে তৈরি করা হয় এটি সাধারণত তা নয়। এছাড়াও আপনি যেমনটি বলেছেন, বৈকল্পিক একটি গোষ্ঠীর জন্য সংজ্ঞায়িত করা হয়েছে (এটি স্বতন্ত্র বিষয়গুলির একটি দল বা পরিমাপের একটি দল)। এটি পৃথক স্তরে প্রযোজ্য না, যদি না আপনি পুনরায় ব্যবস্থা গ্রহণ করেন।

একটি মডেল সম্পূর্ণ হওয়া দরকার যে ত্রুটি শর্তটিতে ভবিষ্যদ্বাণীকের সাথে সম্পর্কিত যে কোনও ভেরিয়েবলের প্রভাব থাকা উচিত নয়। ধারণাটি হ'ল ত্রুটি শব্দটি পূর্বাভাসীদের থেকে পৃথক। যদি কিছু সংযুক্ত ভেরিয়েবল বাদ দেওয়া হয় তবে আপনি পক্ষপাতদুষ্ট সহগগুলি পাবেন (এটিকে বাদ দেওয়া ভেরিয়েবল বায়াস বলা হয় )।


আমি এই উত্তরটি বেশ বুঝতে পারি না। এটি ফিট এবং এলোমেলো ত্রুটির কারণে ত্রুটির মধ্যে পার্থক্যটি স্বীকৃত বলে মনে হয় তবে শেষ অলঙ্কৃত প্রশ্নটি বিভ্রান্তিকর বলে মনে হচ্ছে। খাঁটিভাবে আনুষ্ঠানিক দৃষ্টিকোণ থেকে, মূলত কোনও রিগ্রেশন মডেলটির প্রতি শ্রদ্ধার সাথে করা কোনও অনুমানের শব্দটি কাঠামো সম্পর্কে খুব সুস্পষ্ট অনুমানের উপর নির্ভর করে।
কার্ডিনাল

1
আমার বক্তব্যটি হ'ল অনেক ক্ষেত্রে, রিগ্রেশন মডেলিংয়ের উদ্দেশ্যটি হ'ল যখন আমরা নির্দিষ্ট ফলাফলের সমস্ত কারণগুলি জানি না তখনও কী ঘটছে তা নির্ধারণ করা। তবে এটি অস্পষ্ট বলে মনে হচ্ছে, আমি সেই প্রশ্নটি সরিয়ে দেব।
অ্যান জেড।

ধন্যবাদ। আপনার মন্তব্যে পয়েন্টটি ভাল। আপনি যে আগের প্রশ্নটি বলেছেন সেটিকে রিগ্রেশন তত্ত্বটি পুরো ভিত্তিতে প্রশ্নবিদ্ধ হিসাবে পড়তে পারে। :)
কার্ডিনাল

আমি আপনার সাথে আপনার মতবিরোধে একমত (তাই আমার প্রশ্ন!), এবং বাদ দেওয়া পরিবর্তনশীল পক্ষপাতিত্ব বিষয়টিটির সাথে যথেষ্ট প্রাসঙ্গিক। ধন্যবাদ।
ডমিনিক কম্টোইস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.