প্রভাবশালী পয়েন্ট, উচ্চ লিভারেজ পয়েন্ট এবং আউটলেটরের মধ্যে সঠিক অর্থ এবং তুলনা?


15

উইকিপিডিয়া থেকে

প্রভাবশালী পর্যবেক্ষণ হ'ল সেই পর্যবেক্ষণগুলি যা রিগ্রেশন মডেলটির পূর্বাভাসগুলির তুলনামূলকভাবে বড় প্রভাব ফেলে।

উইকিপিডিয়া থেকে

লিভারেজ পয়েন্টগুলি হ'ল সেই পর্যবেক্ষণগুলি, যদি কোনও হয় তবে স্বতন্ত্র ভেরিয়েবলের চূড়ান্ত বা বহির্মুখী মূল্যবোধগুলিতে তৈরি করা হয় যেমন প্রতিবেশী পর্যবেক্ষণের অভাবের অর্থ হ'ল লাগানো রিগ্রেশন মডেল সেই নির্দিষ্ট পর্যবেক্ষণের কাছাকাছি চলে যাবে।

উইকিপিডিয়া থেকে নীচের তুলনাটি কেন

যদিও একটি প্রভাবশালী পয়েন্ট সাধারণত উচ্চতর লাভ হবে , একটি উচ্চ লিভারেজ বিন্দু অগত্যা নয় একজন প্রভাবশালী বিন্দু


2
নীচের উত্তরগুলি ভাল। এটি আমার উত্তর পড়তে এখানে সহায়তা করতে পারে: প্লট.এলএম () এর ব্যাখ্যা করা
গুং - মনিকা পুনরায়

উত্তর:


13

কিছু ডেটা লাগানো যে কোনও রিগ্রেশন রেখা কল্পনা করুন।

এখন একটি অতিরিক্ত ডেটা পয়েন্ট কল্পনা করুন, ডেটাটির মূল অংশ থেকে কিছুটা দূরে একটি আউটলেট, তবে সেই রিগ্রেশন লাইনের সাথে কোথাও রয়েছে one

যদি রিগ্রেশন লাইনটি রিফিট করা হয়, তবে সহগ পরিবর্তন হবে না। বিপরীতে, অতিরিক্ত আউটলেট মুছে ফেলার সহগের উপর শূন্য প্রভাব পড়বে।

সুতরাং, কোনও আউটলার বা লিভারেজ পয়েন্টের শূন্য প্রভাব থাকবে যদি এটি বাকী ডেটা এবং মডেলের সাথে পুরোপুরি সামঞ্জস্য থাকে তবে যে বিষয়টি বোঝায়।

"লাইন" পড়ার জন্য "প্লেন" বা "হাইপারপ্লেন" চাইলে, তবে দুটি ভেরিয়েবল এবং একটি স্ক্যাটার প্লটের সহজ উদাহরণ এখানে যথেষ্ট।

যাইহোক, আপনি সংজ্ঞাগুলি পছন্দ হিসাবে - প্রায়শই, মনে হয় তাদের মধ্যে খুব বেশি পড়ার ঝোঁক - এখানে বিদেশীদের সম্পর্কে আমার পছন্দসই সংজ্ঞা:

"আউটলিয়াররা হ'ল নমুনা মান যা বেশিরভাগ নমুনার সাথে বিস্ময়ের কারণ হয়ে দাঁড়ায়" (ডব্লিউএন ভেনিয়েবলস এবং বিডি রিপ্লে। ২০০২। এস। নিউ ইয়র্ক: স্প্রঞ্জার, পি .১১৯) এর সাথে আধুনিক প্রয়োগের পরিসংখ্যান

গুরুতরভাবে, অবাক করা দর্শকের মনে এবং ডেটার কিছু স্বচ্ছ বা স্পষ্ট মডেলের উপর নির্ভরশীল। আরও একটি মডেল থাকতে পারে যার অধীনে আউটলেট মোটেও অবাক হয় না, বলুন যদি ডেটা সত্যই স্বাভাবিকের চেয়ে লগনরমাল বা গামা হয়।

পিএস আমি মনে করি না যে লিভারেজ পয়েন্টগুলিতে অগত্যা প্রতিবেশী পর্যবেক্ষণের অভাব রয়েছে। উদাহরণস্বরূপ, তারা জোড়া হতে পারে।


ধন্যবাদ! বিদেশী এবং উচ্চ লিভারেজ পয়েন্টগুলি কি একই ধারণা? নোট করুন যে "লিভারেজটি সাধারণত হাট ম্যাট্রিক্সের তির্যক হিসাবে সংজ্ঞায়িত হয়" en.wikedia.org/wiki/Partial_leverage
টিম

1
না; আপনি আমাদের "আউটলেট" এর সংজ্ঞাটি দেখাননি, তবে এটি লিভারেজ পয়েন্টগুলির সংজ্ঞা থেকে অনুসরণ করে যে তারা সেন্সু ভেনেবলস এবং রিপলিকে বিদেশী হতে হবে না । (আমি নিজেকে উইকিপিডিয়া থেকে বিরত রাখতে চেষ্টা করার পরামর্শ দিই।) এছাড়াও @ গেলের উত্তর দেখুন।
নিক কক্স

1
"গুরুতরভাবে, অবাক করা দর্শকের মনে এবং ডেটাগুলির কিছু স্বচ্ছ বা স্পষ্ট মডেলের উপর নির্ভরশীল There এমন আরও একটি মডেল থাকতে পারে যার অধীনে আউটলার মোটেও অবাক হয় না, বলুন যদি ডেটা সত্যই লগমনোরাল বা গামার পরিবর্তে হয়? স্বাভাবিক। " সুতরাং আউটলিয়াররা কিছু মডেলকে রিট হিসাবে সংজ্ঞায়িত করা হয়, যখন উচ্চ লিভারেজ পয়েন্ট এবং প্রভাবশালী পয়েন্টগুলি হয় না?
টিম

1
ভেনেবল এবং রিপলি যেমনটি পড়েছিলাম, ততক্ষণে মজাদার পদ্ধতিতে একটি বুদ্ধিমান বিন্দু তৈরি করছিল এবং নিষ্পাপদের ধারণাটি বিপর্যস্ত করছিল যে সঠিক, আনুষ্ঠানিক বিবৃতি দিয়ে বহিরাগতদের সংজ্ঞায়িত করা যায়। তবে অন্যান্য চিকিত্সা বিভিন্ন স্টাইলে পাওয়া যাবে। বিপরীতে, লিভারেজ এবং প্রভাবগুলি তাদের মাপার পদ্ধতির ক্ষেত্রে আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা যেতে পারে। পরিভাষা ব্যবহারের দুটি স্টাইল সত্যই সামঞ্জস্যপূর্ণ নয়। বিদেশী কী এবং কী না সে সম্পর্কে আরও ভাল ধারণা পেতে প্রকৃত তথ্য বিশ্লেষণের অভিজ্ঞতা এনসাইক্লোপিডিয়া এন্ট্রিগুলি পড়ার চেয়ে আরও বেশি কিছু শেখায়।
নিক কক্স

29 জুলাই 2013-এ মন্তব্য করা হয়েছে গেইল এখন সনাক্তকারী @ গালা ব্যবহার করছে is লেখার সময় অন্য একটি উত্তর রয়েছে তবে তা পরিবর্তন হতে পারে।
নিক কক্স

20

সরল রৈখিক মডেলের ক্ষেত্রে উচ্চ লিভারেজ পয়েন্ট কীভাবে প্রভাবশালী না হতে পারে তা সহজেই বোঝানো যায়:

উচ্চ লিভারেজ কিন্তু খুব প্রভাবশালী পয়েন্ট নয়

নীল রেখাটি সমস্ত ডেটার উপর ভিত্তি করে একটি রিগ্রেশন লাইন, লাল রেখাটি প্লটের উপরের ডানদিকে অবস্থিত বিন্দুটিকে উপেক্ষা করে।

এই পয়েন্টটি আপনার কেবলমাত্র সরবরাহ করা একটি উচ্চ লিভারেজ পয়েন্টের সংজ্ঞা ফিট করে কারণ এটি বাকী ডেটা থেকে অনেক দূরে। যে কারণে, রিগ্রেশন লাইন (নীল এক) এর কাছাকাছি যেতে হবে। তবে যেহেতু এটির অবস্থানটি অন্যান্য ডেটাতে পর্যবেক্ষণ করা প্যাটার্নের সাথে বেশিরভাগ ক্ষেত্রে ফিট করে, তাই অন্য মডেল এটি খুব ভালভাবেই পূর্বাভাস দেয় (যেমন লাল রেখা ইতিমধ্যে এটি কোনও ক্ষেত্রেই এর কাছাকাছি চলে গেছে) এবং এটি বিশেষত প্রভাবশালী নয়।

এটি নীচের স্ক্রেটারপ্লোটের সাথে তুলনা করুন:

উচ্চ লিভারেজ অত্যন্ত প্রভাবশালী পয়েন্ট

এখানে, প্লটের ডানদিকের পয়েন্টটি এখনও একটি উচ্চতর উত্তোলনের পয়েন্ট তবে এই সময়টি বাকী ডেটাতে পর্যবেক্ষণ করা প্যাটার্নটিতে সত্যিই ফিট করে না। নীল রেখা (সমস্ত ডেটার উপর ভিত্তি করে লিনিয়ার ফিট) খুব কাছাকাছি চলে যায় তবে লাল রেখাটি যায় না। এই এক পয়েন্টকে অন্তর্ভুক্ত করা বা বাদ দেওয়া প্যারামিটারের অনুমানগুলিকে নাটকীয়ভাবে পরিবর্তন করে: এর প্রচুর প্রভাব রয়েছে।

নোট করুন যে আপনি যে সংজ্ঞাগুলি উদ্ধৃত করেছেন এবং আমি যে উদাহরণগুলি দিয়েছি সেগুলি বোঝা যেতে পারে যে উচ্চ লিভারেজ / প্রভাবশালী পয়েন্টগুলি কিছুটা অর্থে, অবিচ্ছিন্ন "আউটলিয়ার" এবং ফিটেড রিগ্রেশন লাইন সর্বোচ্চ প্রভাব সহ পয়েন্টগুলির নিকটে চলে যাবে তবে এটির প্রয়োজন ঘটনা না।

অত্যন্ত প্রভাবশালী পয়েন্ট লুকানো

এই শেষ উদাহরণে, নীচের ডানদিকে পর্যবেক্ষণটি মডেলটির ফিটনে (তুলনামূলকভাবে) বড় প্রভাব ফেলেছে (লাল এবং নীল রেখার পার্থক্যের মধ্য দিয়ে আবার দৃশ্যমান) তবে এটি এখনও রিগ্রেশন লাইন থেকে অনেক দূরে রয়েছে বলে মনে হয় অবিচ্ছিন্ন বিতরণগুলিতে অন্বেষণযোগ্য হওয়ার সময় (অক্ষগুলি সহ "রাগগুলি এখানে উপস্থাপিত)


ধন্যবাদ! আমরা এখানে যে উচ্চতর লিভারেজ পয়েন্টটি ব্যবহার করেছি, তা কি "লিভারেজকে সাধারণত টুপি ম্যাট্রিক্সের তির্যক হিসাবে সংজ্ঞায়িত করা হয়" থেকে এন.ইউইকিপিডিয়াআর / উইকি / পার্টিশিয়াললেভারেজ ?
টিম

দুর্দান্ত ব্যাখ্যা। আপনি যদি তিনটি ক্ষেত্রেই ডেটা সরবরাহ করেন তবে অত্যন্ত প্রশংসা করবে। ধন্যবাদ
MYaseen208
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.