কুকের দূরত্বের কাট-অফ মান

আমি আউটলিয়ারদের সনাক্ত করতে কুকের দূরত্বে পড়ছি যা আমার প্রতিরোধের উপর উচ্চ প্রভাব ফেলে। কুকের মূল গবেষণায় তিনি বলেছেন যে প্রভাবকগুলি সনাক্ত করতে 1 এর কাট-অফ হার তুলনামূলক হওয়া উচিত। তবে অন্যান্য বিভিন্ন গবেষণায় cut বা a কে কাট-অফ হিসাবে ব্যবহার করা হয়। $\frac{4}{n}$ $\frac{4}{n-k-1}$

আমার গবেষণায়, আমার অবশিষ্টাংশগুলির মধ্যে 1 টিরও 1 ডি-এর বেশি নয় তবে, যদি আমি কে একটি কাট হিসাবে ব্যবহার করি , তবে বিভিন্ন তথ্য রয়েছে পয়েন্ট যা প্রভাবক হিসাবে বিবেচিত হয়। আমি এই সিদ্ধান্ত নিতে সিদ্ধান্ত নিয়েছি যে এই ডেটা পয়েন্টগুলি সরিয়ে দেওয়া আমার সাধারণ লিনিয়ার রিগ্রেশনকে তাত্পর্যপূর্ণ করবে কিনা। আমার সমস্ত আইভি তাদের তাত্পর্য ধরে রেখেছিল এবং কোনও সুস্পষ্ট পরিবর্তন স্পষ্ট ছিল না। $\frac{4}{n}$ $(\frac{4}{149}= .026)$

আমার কি আমার সমস্ত ডেটা পয়েন্ট ধরে রাখা উচিত এবং 1 এর কাট-অফ রেট ব্যবহার করা উচিত? নাকি এগুলি সরাবেন?

outliers cooks-distance

— dissertationhelp
সূত্র

বাল্টাগি (২০১১) একনোমেট্রিক্স, 5 ই দেখুন। অধ্যায় 8, বিভাগ 8.1। তিনি কুকের দূরত্ব থেকে প্রাপ্ত অন্য একটি পদক্ষেপের পরামর্শ দিয়েছেন এবং এটিও, ভার-কোভার ম্যাট্রিক্সের প্রভাবশালী obs থেকে বিকৃতি / প্রভাবগুলির জন্য যাচাই করে নিন, আপনার অনুমানকারীদের খুব বেশি পরিবর্তন না করার জন্য ...

— স্যার অ্যালেক্স

এই ডায়াগোনস্টিকের ভিত্তিতে আপনার কোনও ডেটা অপসারণ করা উচিত নয়। এর উদ্দেশ্য হ'ল আপনার বিশ্লেষণে সেগুলি এবং সেগুলির প্রভাব সম্পর্কে আপনাকে ভাবতে সহায়তা করা ।

— whuber

আমি সম্ভবত আপনার সম্পূর্ণ ডেটাসেটের সাথে আপনার মূল মডেলটির সাথে যেতে চাই। সংবেদনশীলতা বিশ্লেষণগুলির সুবিধার্থে আমি এই জিনিসগুলিকে সাধারণত ভাবি। এটি হ'ল তারা আপনাকে বোকামির কারণে কোনও নির্দিষ্ট ফলাফল না দেয় তা নিশ্চিত করার জন্য কী পরীক্ষা করতে হবে তার দিকে আপনাকে নির্দেশ করে point আপনার ক্ষেত্রে, আপনার কিছু সম্ভাব্য প্রভাবশালী পয়েন্ট রয়েছে, তবে আপনি যদি এগুলি ছাড়া মডেলটি পুনরায় চালু করেন তবে আপনি যথেষ্ট উত্তর পাবেন (কমপক্ষে আপনি যে দিকগুলি সম্ভবত বিবেচনা করছেন সেগুলি সম্পর্কে শ্রদ্ধার সাথে)। অন্য কথায়, আপনার পছন্দসই থ্রোহোল্ডটি ব্যবহার করুন — আপনি কেবলমাত্র 'সত্য' সংস্করণ হিসাবে নয়, চেক হিসাবে মডেলটিকে রিফিট করছেন। আপনি যদি ভাবেন যে অন্যান্য লোকেরা সম্ভাব্য আউটলিয়ারদের সম্পর্কে যথেষ্ট পরিমাণে উদ্বিগ্ন হবে তবে আপনি উভয় মডেলের ফিটের প্রতিবেদন করতে পারেন। আপনি যা বলবেন তা হ'ল লাইনের সাথে,

এখানে আমার ফলাফল। কেউ উদ্বিগ্ন হতে পারে যে এই ছবিটি কেবল দু'টি অস্বাভাবিক, তবে অত্যন্ত প্রভাবশালী, পর্যবেক্ষণের কারণে উদ্ভূত হয়েছে। এগুলি একই মডেলের ফলাফল, তবে সেই পর্যবেক্ষণ ছাড়াই। কোনও সুস্পষ্ট পার্থক্য নেই।

এগুলি অপসারণ এবং আপনার প্রাথমিক ফলাফল হিসাবে দ্বিতীয় মডেলটি ব্যবহার করাও সম্ভব। সর্বোপরি, মূল ডেটাসেটের সাথে থাকা অনুমানের সমান যে কোনও ডেটা মডেলের অন্তর্ভুক্ত তা কেবল উপসেটের সাথে যাওয়ার মতোই। তবে লোকেরা আপনার প্রতিবেদনের ফলাফল সম্পর্কে খুব সংশয়ী হতে পারে কারণ মনোবৈজ্ঞানিকভাবে কারও পক্ষে নিজেকে সত্যিকারের দুর্নীতিগ্রস্থ অভিপ্রায় ব্যতিরেকে বোঝানো খুব সহজ, পরবর্তী পোস্টের সাময়িক টুইটগুলির সেট (যেমন কিছু পর্যবেক্ষণ বাদ দেওয়া) এর সাথে যেতে পারে যা তাদের দেয় gives ফলাফল তারা সবচেয়ে বেশি প্রত্যাশিত। সর্বদা সম্পূর্ণ ডেটাসেটের সাথে গিয়ে আপনি সেই সম্ভাবনাটিকে অগ্রাহ্য করেন এবং লোককে আশ্বস্ত করেন (বলুন, পর্যালোচক) যে এটি আপনার প্রকল্পে যা চলছে তা নয়।

এখানে আরেকটি সমস্যা হ'ল লোকেরা ' বুদ্বুদ তাড়া ' করে। আপনি যখন কিছু সম্ভাব্য আউটলিয়ারকে ফেলে যান এবং আপনার মডেলটি পুনরায় চালু করেন, তখন আপনার ফলাফলগুলি সমাপ্ত হয় যা সম্ভাব্য বিদেশী হিসাবে নতুন, বিভিন্ন পর্যবেক্ষণ দেখায়। আপনার কতগুলি পুনরাবৃত্তি অতিক্রম করার কথা? এর মানক প্রতিক্রিয়া হ'ল আপনার নিজের মূল, সম্পূর্ণ ডেটাসেটের সাথে থাকা উচিত এবং পরিবর্তে একটি শক্তিশালী রিগ্রেশন চালানো উচিত । এটি আবার সংবেদনশীলতা বিশ্লেষণ হিসাবে বোঝা যায়।

— gung - মনিকা পুনরায় স্থাপন করুন
সূত্র