প্রভাবশালী অবশিষ্টগুলি বনাম আউটলেটর


10

প্রথমত, আমার বক্তব্য থাকা উচিত যে আমি উত্তরের জন্য এই সাইটে অনুসন্ধান করেছি। আমি হয় এমন কোনও প্রশ্ন পাইনি যা আমার প্রশ্নের উত্তর দিয়েছে বা আমার জ্ঞানের স্তরটি এত কম যে আমি বুঝতে পারিনি যে আমি ইতিমধ্যে উত্তরটি পড়েছি।

আমি এপি পরিসংখ্যান পরীক্ষার জন্য পড়াশোনা করছি। আমাকে লিনিয়ার রিগ্রেশন শিখতে হবে এবং এর একটি বিষয় হল অবশিষ্টাংশ। এটিতে 253 পৃষ্ঠাতে পরিসংখ্যান এবং ডেটা অ্যানালাইসিসের সাথে পরিচিতির একটি অনুলিপি রয়েছে ।

দ্বিখণ্ডিত ডেটা সেটে অস্বাভাবিক পয়েন্টগুলি হ'ল দিক বা দিকের মধ্যে স্ক্যাটারপ্লোটের অন্যান্য পয়েন্টগুলির মধ্যে থেকে দূরে পড়ে arexy

কোনও পর্যবেক্ষণ হ'ল সম্ভাব্য প্রভাবশালী পর্যবেক্ষণ যদি এর কোনও x মান থাকে যা বাকী ডেটা থেকে অনেক দূরে থাকে ( x দিকের বাকী ডেটা থেকে পৃথক )। এই পর্যবেক্ষণটি বাস্তবে প্রভাবশালী কিনা তা নির্ধারণ করার জন্য, আমরা নির্ধারণ করি যে এই পর্যবেক্ষণটি অপসারণের ফলে opeালের মান বা সর্বনিম্ন-বর্গাকার লাইনের বাধাকে বড় প্রভাব রয়েছে কিনা whether

পর্যবেক্ষণটি আউটলেটর হয় যদি এর বড় অংশ থাকে। আউটলারের পর্যবেক্ষণ y দিকের সর্বনিম্ন-বর্গাকার লাইন থেকে অনেক দূরে পড়ে ।

স্ট্যাটরেক ডট কম অবশিষ্টাংশ থেকে একজন আউটলেট নির্ধারণের জন্য চারটি পদ্ধতি জানিয়েছে:

সামগ্রিক প্যাটার্ন থেকে একটি বৃহত্তর পথে ডাইভার্ট হওয়া ডেটা পয়েন্টগুলিকে আউটলিয়ার বলা হয়। চারটি উপায় রয়েছে যে কোনও ডেটা পয়েন্টকে আউটলেট হিসাবে বিবেচনা করা যেতে পারে।

  1. অন্যান্য ডেটার পয়েন্টের তুলনায় এটির চরম এক্স মান থাকতে পারে।
  2. অন্যান্য ডেটার পয়েন্টের তুলনায় এটির চূড়ান্ত ওয়াই মান থাকতে পারে।
  3. এর চরম এক্স এবং ওয়াই মান থাকতে পারে।
  4. চূড়ান্ত এক্স বা ওয়াই মান ছাড়াই এটি বাকী ডেটা থেকে দূরে থাকতে পারে।

এই দুটি উত্স একে অপরের বিরোধ বলে মনে হচ্ছে। কেউ আমার বিভ্রান্তি দূর করতে সাহায্য করতে পারে। এছাড়াও, একটি চরম সংজ্ঞা দেয় কিভাবে। এপি পরিসংখ্যানগুলি নিয়মটি ব্যবহার করে যদি ডেটা পয়েন্ট (Q1-1.5IQR, Q3 + 1.5IQR) এর বাইরে থাকে তবে এটি বাহ্যিক। আমি কীভাবে কীভাবে প্রয়োগ করব তা কেবল অবশিষ্টদের কাছ থেকে কেবল একটি গ্রাফ থেকে প্রয়োগ করতে পারি।

উত্তর:


5

স্ট্যাটট্রিক সাইটের কাছে আপনার পাঠ্যপুস্তকের চেয়ে বহিরাগতদের এবং প্রভাবশালী পয়েন্টগুলির অনেক ভাল বর্ণনা রয়েছে বলে মনে হচ্ছে তবে আপনি কেবল একটি সংক্ষিপ্ত প্যাসেজের উদ্ধৃতি দিয়েছেন যা বিভ্রান্তিকর হতে পারে। আমার কাছে সেই নির্দিষ্ট বই নেই তাই আমি প্রসঙ্গে এটি পরীক্ষা করতে পারি না। যদিও মনে রাখবেন, আপনার উদ্ধৃত পাঠ্যপুস্তক প্যাসেজটি বলে, "সম্ভাব্য"। এটি একচেটিয়াও নয়। এই বিষয়গুলি মাথায় রেখে, স্ট্যাট্রিক এবং আপনার বইটি অগত্যা একমত নয় don't তবে দেখা যাচ্ছে যে আপনার বইটি এই অর্থে বিভ্রান্ত করছে যে এটি বোঝায় (এই সংক্ষিপ্ত অংশটি থেকে) যে বহিরাগতদের এবং প্রভাবশালী পয়েন্টগুলির মধ্যে একমাত্র পার্থক্য হল তারা এক্স বা ওয়াই অক্ষের উপর বিচ্যুত হয়। এটা ভুল।

আউটলিয়ারদের জন্য "বিধি" প্রসঙ্গের ভিত্তিতে পরিবর্তিত হয়। আপনার যে নিয়মটি উদ্ধৃত করা হয়েছে তা হ'ল থাম্বের একটি নিয়ম এবং হ্যাঁ, সত্যিই রিগ্রেশনের জন্য ডিজাইন করা হয়নি। এটি ব্যবহার করার কয়েকটি উপায় রয়েছে। আপনি প্রতিটি এক্সে একাধিক y- মানগুলি কল্পনা করে এবং অবশিষ্টাংশগুলি পরীক্ষা করে দেখলে সহজেই কল্পনা করা সহজ। সাধারণ পাঠ্যপুস্তকের রিগ্রেশন উদাহরণগুলি দেখতে খুব সহজ যে কীভাবে আউটলেটারের নিয়মটি কার্যকর হতে পারে এবং বেশিরভাগ বাস্তব ক্ষেত্রে এটি বেশ নিরর্থক। আশা করি, বাস্তব জীবনে আপনি আরও অনেক তথ্য সংগ্রহ করেন। যদি এটি প্রয়োজনীয় হয় যে আপনি বিদেশী লোকদের কোনও রিগ্রেশন সমস্যায় কোয়ান্টাইল নিয়ম প্রয়োগ করতে পারেন তবে তাদের উপযুক্ত হওয়া উচিত এমন ডেটা সরবরাহ করা উচিত।


উত্তরের জন্য ধন্যবাদ, এটি কেবল বিরক্তিকর হয়ে যায় যে বিভিন্ন বই সত্যই এটি সত্যভাবে ডেটা নির্ভর করে না বলে এই নিয়মগুলি লেখার চেষ্টা করে, যেমন আপনি বলছেন।
মাওইআইইই

1
আসলে, আমি এটিকেও ভুল বলেছি ... এটি তত্ত্ব, পদ্ধতি এবং ডেটা ... সম্পূর্ণ অধ্যয়নের উপর নির্ভর করে।
জন

5

আমি জন সাথে একমত। এখানে আরও কয়েকটি বিষয় রয়েছে। একটি প্রভাবশালী পর্যবেক্ষণ হ'ল (কঠোরভাবে) প্যারামিটারের অনুমানগুলিকে প্রভাবিত করে। ওয়াই মানটিতে একটি ছোট বিচ্যুতি অনুমিত বিটা প্যারামিটারগুলিতে একটি বড় পরিবর্তন দেয়। অন্যটির বিপরীতে 1 ভেরিয়েবলের সহজ সংমিশ্রণে, প্রভাবশালী ভেরিয়েবলগুলি হ'ল তাদের এক্সের মানটি X এর গড় থেকে দূরে। একাধিক রিগ্রেশন (বেশ কয়েকটি স্বতন্ত্র ভেরিয়েবল) এ পরিস্থিতি আরও জটিল। আপনাকে তথাকথিত হ্যাট ম্যাট্রিক্স দেখতে হবে এবং রিগ্রেশন সফ্টওয়্যার আপনাকে এটি দেবে। গুগল "লিভারেজ"।X(XX)1X

আপনার পাঠ্যপুস্তকের বক্তব্য অনুযায়ী প্রভাব হ'ল ডিজাইন পয়েন্টগুলির (এক্স মানগুলি) একটি ফাংশন।

মনে রাখবেন যে প্রভাব শক্তি। নকশা করা পরীক্ষায় আপনি প্রভাবশালী এক্স মানগুলি চান, ধরে নিলে আপনি সংশ্লিষ্ট ওয়াই মানটি নির্ভুলভাবে পরিমাপ করতে পারবেন। আপনি এইভাবে বাক্সের জন্য আরও ধাক্কা পান।

আমার কাছে, একজন আউটলেট মূলত একটি ভুল - যা একটি পর্যবেক্ষণ যা বাকী ডেটাগুলির মতো একই মডেলটি অনুসরণ করে না। এটি ডেটা সংগ্রহের ত্রুটির কারণে বা সেই নির্দিষ্ট বিষয়টি কোনওভাবেই অস্বাভাবিক ছিল বলে ঘটতে পারে।

আমি বেশ কয়েকটি কারণে আউটলারের স্ট্যাট্রিকের সংজ্ঞা পছন্দ করি না। রিগ্রেশনটি ওয়াই এবং এক্স-এর ক্ষেত্রে প্রতিসাম্য নয় Y ওয়াই একটি এলোমেলো পরিবর্তনীয় হিসাবে মডেল করা হয়েছে এবং এক্সগুলি স্থির ও পরিচিত বলে ধরে নেওয়া হয়েছে। Y এর মধ্যে অদ্ভুততা এক্স এর মধ্যে অদ্ভুততার মতো নয়। প্রভাব এবং বহিরাগতের অর্থ ভিন্ন জিনিস। প্রভাব, একাধিক প্রতিরোধে, অবশিষ্ট প্লটগুলি দেখে সনাক্ত করা যায় না। একক ভেরিয়েবল কেসের জন্য আউটলিয়ার এবং প্রভাবের একটি ভাল বর্ণনা আপনাকে একাধিক কেসটিও বুঝতে পারা উচিত set

জন আপনার দেওয়া কারণে আমি আপনার পাঠ্যপুস্তকটিকে আরও বেশি অপছন্দ করি।

নীচে লাইন, প্রভাবশালী outliers বিপজ্জনক। তাদের নিবিড়ভাবে পরীক্ষা করা এবং মোকাবেলা করা দরকার।


আপনার যদি স্ট্যাটট্রিক রিগ্রেশন ব্যাখ্যাটি অপছন্দ করা উপযুক্ত তবে যদি আপনি এমন পটভূমি থেকে আসেন যেখানে সত্য পরীক্ষা-নিরীক্ষা আদর্শ। আপনার কারণগুলি সমস্ত সেখানে প্রযোজ্য। তবে আপনি যদি এমন একটি ব্যাকগ্রাউন্ড থেকে এসেছেন যেখানে অর্ধ-পরীক্ষামূলক ডিজাইনগুলি বেশি সাধারণ হয় তবে স্ট্যাট্রিক সাইটের আরও প্রাসঙ্গিকতা রয়েছে। এই ক্ষেত্রে উভয় x এবং y মান প্রায়শই কেবল এলোমেলো নমুনা।
জন

@ জন এপি পরিসংখ্যান পরীক্ষায় উত্তীর্ণ হওয়ার পটভূমি সম্পর্কে কীভাবে? অর্ধ-পরীক্ষামূলক নকশা কি? এটি কি সিমুলেশনের জন্য এলোমেলো নম্বর সারণী ব্যবহার করছে?
মাওইআইইআই

1
আমি এপি পরিসংখ্যান পরীক্ষা সম্পর্কে কিছুই জানি না। সত্য পরীক্ষা-নিরীক্ষাগুলি হ'ল যেখানে আপনি ভবিষ্যদ্বাণীটির পরিবর্তনশীল পরিচালনা এবং একাধিক অনুমান বা নিয়ন্ত্রণ এবং পরীক্ষামূলক গোষ্ঠী ইত্যাদি পরীক্ষা করার জন্য দল তৈরি করেন Qu ইত্যাদি পরিমাণে পরীক্ষামূলক ডিজাইনগুলি পরীক্ষার মতো দেখতে অন্যরকম কিছু। সুতরাং, এমন একটি রিগ্রেশন কল্পনা করুন যেখানে এক্স মান ওজন এবং y মানটি কিছু ক্রীড়া দক্ষতা। আপনি উভয় পরিবর্তনশীল হেরফের করবেন না, আপনি এলোমেলোভাবে উভয় নমুনা। সুতরাং, স্ট্যাসট্রিকের বিরুদ্ধে প্লাসিডিয়ার সমালোচনাগুলি সত্য পরীক্ষার জন্য যথেষ্ট বৈধ তবে কোয়াশের পক্ষে তেমনটি নয় not
জন

@ জন ... আমি এমন পটভূমি থেকে এসেছি যেখানে নকশা করা পরীক্ষাগুলি সোনার মান হিসাবে দেখা হয়। অনুশীলনে, আমি জানি যে এক্স এবং ওয়াই প্রায়শই উভয় এলোমেলো নমুনা, যা কেন রিগ্রেশন ব্যবহৃত হচ্ছে, এবং সুপ্ত পরিবর্তনশীল বিশ্লেষণের কোনও রূপ নয় এই প্রশ্নটি উত্থাপন করে।
প্লাসিডিয়া

যখন আপনি কেবল দুটি ভেরিয়েবল পেয়েছেন ... :) কখনও কখনও আপনার কাছে একটি জিনিস অন্যটির পূর্বাভাস দেওয়ার জন্য ভাল তত্ত্ব থাকে যেমন উদাহরণস্বরূপ, উচ্চতা এবং এনবিএতে যাওয়ার সম্ভাবনা ... উভয় এলোমেলো নমুনা। একের সাথে বা কয়েকটি (বিশেষত অসম্পৃক্ত) ক্ষেত্রে লিনিয়ার সম্পর্কের প্রতিরোধের পক্ষে ভাল।
জন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.