কুকের দূরত্বের প্লটগুলি কীভাবে পড়বেন?


40

7, 16 এবং 29 পয়েন্টগুলি প্রভাবশালী পয়েন্ট কিনা তা কী কীভাবে কাজ করতে হয় তা কি কেউ জানেন? আমি কোথাও পড়েছি যে কুকের দূরত্ব 1 এর চেয়ে কম, তারা হয় না। আমি কি সঠিক?

এখানে চিত্র বর্ণনা লিখুন


1
বিভিন্ন মতামত আছে। এর মধ্যে কয়েকটি পর্যবেক্ষণের সংখ্যার সাথে বা পরামিতির সংখ্যার সাথে সম্পর্কিত। এই সময়ে অঙ্কিত হয় en.wikipedia.org/wiki/...
whuber

@ শুভ ধন্যবাদ আমার জন্য ডেটা এক্সপ্লোরেশন করার সময় এটি সর্বদা ধূসর অঞ্চল। উপরের ডেটা পয়েন্ট 16 মডেলের ফলাফলগুলিকে ব্যাপকভাবে প্রভাবিত করে, এভাবে প্রকার 1 ত্রুটি বৃদ্ধি করে।
প্লাটিপিজিড

2
কেউ তর্ক করতে পারে যে এটি "তৃতীয় প্রকারের ত্রুটি" ত্রুটিগুলিও বাড়িয়ে তোলে, যা (সাধারণভাবে এবং অনানুষ্ঠানিকভাবে) অন্তর্নিহিত সম্ভাব্যতা মডেলের অযোগ্যতার সাথে সম্পর্কিত ত্রুটি।
whuber

@ হ্যাঁ, খুব সত্য!
প্লাটিপিজিড

উত্তর:


43

কিছু পাঠ্য আপনাকে বলে যে কুকের দুরত্বের চেয়ে 1 এর চেয়ে বেশি দূরত্বকে প্রভাবশালী হিসাবে বিবেচনা করা হবে। অন্যান্য পাঠ্যগুলি আপনাকে বা 4 / ( এন - কে - 1 ) এর একটি প্রান্তিক দেয় , যেখানে এন পর্যবেক্ষণের সংখ্যা এবং কে ব্যাখ্যাযোগ্য ভেরিয়েবলের সংখ্যা। আপনার ক্ষেত্রে পরবর্তী সূত্রটি 0.1 এর কাছাকাছি একটি প্রান্তিক ফলন করা উচিত।4/এন4/(এন--1)এন

জন ফক্স (১), সংক্ষেপণ ডায়াগনস্টিক্স সম্পর্কিত তাঁর পুস্তিকাতে সংখ্যার থ্রোহোল্ড দেওয়ার ক্ষেত্রে সতর্ক হন। তিনি গ্রাফিক্সের ব্যবহার এবং "অন্যান্য মানের তুলনায় যথেষ্ট পরিমাণে ডি এর মানগুলি" সহ পয়েন্টগুলি আরও ঘনিষ্ঠভাবে পরীক্ষা করার পরামর্শ দেন। ফক্সের মতে গ্রাফিকাল ডিসপ্লেগুলি বাড়ানোর জন্য থ্রেশহোল্ডগুলি কেবল ব্যবহার করা উচিত।

আপনার ক্ষেত্রে 7 এবং 16 পর্যবেক্ষণগুলি প্রভাবশালী হিসাবে বিবেচিত হতে পারে। ঠিক আছে, আমি অন্তত তাদের ঘনিষ্ঠভাবে দেখতে হবে। 29 পর্যবেক্ষণটি বেশ কয়েকটি অন্যান্য পর্যবেক্ষণের থেকে পৃথক নয়।


(1) ফক্স, জন। (1991)। রিগ্রেশন ডায়াগনস্টিক্স: একটি ভূমিকা । সেজ পাবলিকেশনস।


9
+1 সংক্ষিপ্তসার সংক্ষিপ্তসার। আমি যোগ হবে প্রভাবশালী ক্ষেত্রে যখন ডেটা সেটটি থেকে তাদের অপসারণ প্যারামিটার ছেড়ে দিতেন মূলত অপরিবর্তিত অনুমান একটি সমস্যা সাধারণত নয়: বেশী আমরা চিন্তা সম্পর্কে যাদের উপস্থিতি সত্যিই নেই ফলাফল পরিবর্তন করুন।
whuber

1
@ লেজোহান আপনার প্রতিক্রিয়াটির জন্য অত্যন্ত কৃতজ্ঞ। আপনার উত্তরে হঠাৎ চমত্কার চমত্কার স্পষ্টতা। এটি খুব তথ্যপূর্ণ। আমি আপনাকে উইকপিডিয়া পৃষ্ঠায় ফক্স এবং আপনার মতামত হাইলাইট করার পরামর্শ দিচ্ছি!
প্লাটিপিজিড

29

+ +1β0β

এখানে তৈরি করার মতো আরও একটি বিষয় রয়েছে। পর্যবেক্ষণ গবেষণায়, প্রায়শই ভবিষ্যদ্বাণীকারী স্থান জুড়ে সমানভাবে নমুনা তৈরি করা কঠিন এবং আপনার নির্দিষ্ট ক্ষেত্রের কয়েকটি পয়েন্ট থাকতে পারে। এই জাতীয় পয়েন্টগুলি বাকী অংশ থেকে আলাদা হতে পারে। কয়েকটি, স্বতন্ত্র কেসগুলি অস্বস্তিকর হতে পারে তবে নির্বাসিত বিদেশী হওয়ার আগে যথেষ্ট চিন্তাভাবনা করা উচিত। ভবিষ্যদ্বাণীকারীদের মধ্যে বৈধভাবে ইন্টারঅ্যাকশন হতে পারে, বা ভবিষ্যদ্বাণীকারী মানগুলি চরম হয়ে উঠলে সিস্টেমটি অন্যভাবে আচরণ করতে পারে sh তদাতিরিক্ত, তারা আপনাকে কলিনিয়ার পূর্বাভাসকারীদের প্রভাবগুলিকে অবিচ্ছিন্ন করতে সহায়তা করতে সক্ষম হতে পারে। প্রভাবশালী পয়েন্ট ছদ্মবেশ একটি আশীর্বাদ হতে পারে।


6
+1 "আপনি যদি ভবিষ্যদ্বাণীপূর্ণ মডেলিং করছেন তবে কুকের দূরত্ব সম্ভবত আপনার পক্ষে আরও বেশি গুরুত্বপূর্ণ, যদিও ডিফবেটা ব্যাখ্যামূলক মডেলিংয়ে বেশি গুরুত্বপূর্ণ": এটি অত্যন্ত কার্যকর পরামর্শ।
অ্যান জেড।

হাই - আকর্ষণীয় আলোচনা। তবে উদাহরণটি পর্যবেক্ষণ 16 থেকে প্রভাবটি পরিমাপ করার জন্য ডামি-ভেরিয়েবলকে সংহত করা কি যুক্তিযুক্ত হতে পারে না?
পান্টেরা

@ পান্টেআর আমি ১ removed সরিয়ে ফেলেছি এবং পূর্বের ও পোস্টের
বাদ পড়ার

হাই - আপনি যদি পর্যবেক্ষণগুলি সরিয়ে থাকেন তবে আপনার অবশ্যই এটি করা উচিত যে আপনার এটি করার জন্য "ভাল" যুক্তি রয়েছে, উদাহরণস্বরূপ যে পর্যবেক্ষণটি ভুলভাবে পরিমাপ করা হয়েছে। যদি আমরা পর্যবেক্ষণ বাদ দিই কারণ তারা কেবল কিছু পরিসংখ্যানগত সমস্যা তৈরি করে, তবে আমরা ডেটা মাইনিংয়ের কাছাকাছি।
প্যান্টেরা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.