কুকের দূরত্বের কাট-অফ মান


9

আমি আউটলিয়ারদের সনাক্ত করতে কুকের দূরত্বে পড়ছি যা আমার প্রতিরোধের উপর উচ্চ প্রভাব ফেলে। কুকের মূল গবেষণায় তিনি বলেছেন যে প্রভাবকগুলি সনাক্ত করতে 1 এর কাট-অফ হার তুলনামূলক হওয়া উচিত। তবে অন্যান্য বিভিন্ন গবেষণায় cut বা a কে কাট-অফ হিসাবে ব্যবহার করা হয়।4এন4এন--1

আমার গবেষণায়, আমার অবশিষ্টাংশগুলির মধ্যে 1 টিরও 1 ডি-এর বেশি নয় তবে, যদি আমি কে একটি কাট হিসাবে ব্যবহার করি , তবে বিভিন্ন তথ্য রয়েছে পয়েন্ট যা প্রভাবক হিসাবে বিবেচিত হয়। আমি এই সিদ্ধান্ত নিতে সিদ্ধান্ত নিয়েছি যে এই ডেটা পয়েন্টগুলি সরিয়ে দেওয়া আমার সাধারণ লিনিয়ার রিগ্রেশনকে তাত্পর্যপূর্ণ করবে কিনা। আমার সমস্ত আইভি তাদের তাত্পর্য ধরে রেখেছিল এবং কোনও সুস্পষ্ট পরিবর্তন স্পষ্ট ছিল না।4এন(4149=.026)

আমার কি আমার সমস্ত ডেটা পয়েন্ট ধরে রাখা উচিত এবং 1 এর কাট-অফ রেট ব্যবহার করা উচিত? নাকি এগুলি সরাবেন?


বাল্টাগি (২০১১) একনোমেট্রিক্স, 5 ই দেখুন। অধ্যায় 8, বিভাগ 8.1। তিনি কুকের দূরত্ব থেকে প্রাপ্ত অন্য একটি পদক্ষেপের পরামর্শ দিয়েছেন এবং এটিও, ভার-কোভার ম্যাট্রিক্সের প্রভাবশালী obs থেকে বিকৃতি / প্রভাবগুলির জন্য যাচাই করে নিন, আপনার অনুমানকারীদের খুব বেশি পরিবর্তন না করার জন্য ...
স্যার অ্যালেক্স

10
এই ডায়াগোনস্টিকের ভিত্তিতে আপনার কোনও ডেটা অপসারণ করা উচিত নয়। এর উদ্দেশ্য হ'ল আপনার বিশ্লেষণে সেগুলি এবং সেগুলির প্রভাব সম্পর্কে আপনাকে ভাবতে সহায়তা করা ।
whuber

উত্তর:


5

আমি সম্ভবত আপনার সম্পূর্ণ ডেটাসেটের সাথে আপনার মূল মডেলটির সাথে যেতে চাই। সংবেদনশীলতা বিশ্লেষণগুলির সুবিধার্থে আমি এই জিনিসগুলিকে সাধারণত ভাবি। এটি হ'ল তারা আপনাকে বোকামির কারণে কোনও নির্দিষ্ট ফলাফল না দেয় তা নিশ্চিত করার জন্য কী পরীক্ষা করতে হবে তার দিকে আপনাকে নির্দেশ করে point আপনার ক্ষেত্রে, আপনার কিছু সম্ভাব্য প্রভাবশালী পয়েন্ট রয়েছে, তবে আপনি যদি এগুলি ছাড়া মডেলটি পুনরায় চালু করেন তবে আপনি যথেষ্ট উত্তর পাবেন (কমপক্ষে আপনি যে দিকগুলি সম্ভবত বিবেচনা করছেন সেগুলি সম্পর্কে শ্রদ্ধার সাথে)। অন্য কথায়, আপনার পছন্দসই থ্রোহোল্ডটি ব্যবহার করুন — আপনি কেবলমাত্র 'সত্য' সংস্করণ হিসাবে নয়, চেক হিসাবে মডেলটিকে রিফিট করছেন। আপনি যদি ভাবেন যে অন্যান্য লোকেরা সম্ভাব্য আউটলিয়ারদের সম্পর্কে যথেষ্ট পরিমাণে উদ্বিগ্ন হবে তবে আপনি উভয় মডেলের ফিটের প্রতিবেদন করতে পারেন। আপনি যা বলবেন তা হ'ল লাইনের সাথে,

এখানে আমার ফলাফল। কেউ উদ্বিগ্ন হতে পারে যে এই ছবিটি কেবল দু'টি অস্বাভাবিক, তবে অত্যন্ত প্রভাবশালী, পর্যবেক্ষণের কারণে উদ্ভূত হয়েছে। এগুলি একই মডেলের ফলাফল, তবে সেই পর্যবেক্ষণ ছাড়াই। কোনও সুস্পষ্ট পার্থক্য নেই।

এগুলি অপসারণ এবং আপনার প্রাথমিক ফলাফল হিসাবে দ্বিতীয় মডেলটি ব্যবহার করাও সম্ভব। সর্বোপরি, মূল ডেটাসেটের সাথে থাকা অনুমানের সমান যে কোনও ডেটা মডেলের অন্তর্ভুক্ত তা কেবল উপসেটের সাথে যাওয়ার মতোই। তবে লোকেরা আপনার প্রতিবেদনের ফলাফল সম্পর্কে খুব সংশয়ী হতে পারে কারণ মনোবৈজ্ঞানিকভাবে কারও পক্ষে নিজেকে সত্যিকারের দুর্নীতিগ্রস্থ অভিপ্রায় ব্যতিরেকে বোঝানো খুব সহজ, পরবর্তী পোস্টের সাময়িক টুইটগুলির সেট (যেমন কিছু পর্যবেক্ষণ বাদ দেওয়া) এর সাথে যেতে পারে যা তাদের দেয় gives ফলাফল তারা সবচেয়ে বেশি প্রত্যাশিত। সর্বদা সম্পূর্ণ ডেটাসেটের সাথে গিয়ে আপনি সেই সম্ভাবনাটিকে অগ্রাহ্য করেন এবং লোককে আশ্বস্ত করেন (বলুন, পর্যালোচক) যে এটি আপনার প্রকল্পে যা চলছে তা নয়।

এখানে আরেকটি সমস্যা হ'ল লোকেরা ' বুদ্বুদ তাড়া ' করে। আপনি যখন কিছু সম্ভাব্য আউটলিয়ারকে ফেলে যান এবং আপনার মডেলটি পুনরায় চালু করেন, তখন আপনার ফলাফলগুলি সমাপ্ত হয় যা সম্ভাব্য বিদেশী হিসাবে নতুন, বিভিন্ন পর্যবেক্ষণ দেখায়। আপনার কতগুলি পুনরাবৃত্তি অতিক্রম করার কথা? এর মানক প্রতিক্রিয়া হ'ল আপনার নিজের মূল, সম্পূর্ণ ডেটাসেটের সাথে থাকা উচিত এবং পরিবর্তে একটি শক্তিশালী রিগ্রেশন চালানো উচিত । এটি আবার সংবেদনশীলতা বিশ্লেষণ হিসাবে বোঝা যায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.