হেটেরোসেসটাস্টিটির সাথে মোকাবিলা করার সর্বোত্তম উপায়?


19

আমার কাছে লাগানো মানগুলির কার্যকারিতাতে লিনিয়ার মডেলের অবশিষ্টাংশের একটি প্লট রয়েছে যেখানে হিটারোসিসেস্টাস্টিটি খুব স্পষ্ট। তবে আমি কীভাবে এখন এগিয়ে যাব তা নিশ্চিত নই কারণ যতদূর আমি বুঝতে পেরেছি এটি আমার লিনিয়ার মডেলটিকে অবৈধ করে তুলেছে। (এটা কি সঠিক?)

  1. প্যাকেজটির rlm()ক্রিয়াকলাপটি ব্যবহার করে MASSদৃ line়তরৈখ্য রৈখিক ফিটিং ব্যবহার করুন কারণ এটি স্পষ্টতই হেটেরোসেসাস্টাস্টিটির পক্ষে শক্ত।

  2. যেহেতু আমার সহগের স্ট্যান্ডার্ড ত্রুটিগুলি হিটারোসিসেস্টাস্টিটির কারণে ভুল, তাই আমি কেবল মানক ত্রুটিগুলি হেটেরোসেসটাস্টিকটির সাথে শক্তিশালী হওয়ার জন্য সামঞ্জস্য করতে পারি? স্ট্যাক ওভারফ্লোতে পোস্ট করা পদ্ধতিটি এখানে ব্যবহার করে: হেটেরোস্কেস্টাস্টিটি স্ট্যান্ডার্ড ত্রুটিগুলির সাথে সংবেদন

আমার সমস্যাটি মোকাবেলা করার জন্য সবচেয়ে ভাল পদ্ধতিটি কোনটি হবে? আমি যদি সমাধান 2 ব্যবহার করি তবে আমার মডেলটির আমার পূর্বাভাসের ক্ষমতাটি সম্পূর্ণ অকেজো?

ব্রুশ-পৌত্তলিক পরীক্ষাটি নিশ্চিত করেছে যে বৈকল্পিক স্থির নয়।

লাগানো মানগুলির কার্যকারিতাতে আমার অবশিষ্টাংশগুলি দেখতে এই রকম দেখাচ্ছে:

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(আরও বড় সংস্করণ)


আপনি কি 'স্ট্যাকএক্সচেঞ্জ' এর চেয়ে 'স্ট্যাকওভারফ্লো' বলতে চান? (আপনি এখনও এখানে স্ট্যাকেক্সচেঞ্জে রয়েছেন)) যদি এটি হয় তবে সাধারণত দ্বিতীয় প্রতিলিপি পোস্ট করার চেয়ে প্রশ্নটি স্থানান্তর করা ভাল (সহায়তাটি একই প্রশ্নে একাধিকবার পোস্ট না করার জন্য একটি সেরা স্থান চয়ন করতে বলে)।
গ্লেন_বি -রিনস্টেট মনিকা

স্প্রেডের প্রকরণটি এত বেশি নয় যে প্রভাব তীব্র হবে (এটি হ'ল এটি আপনার মানক ত্রুটিগুলিকে পক্ষপাত করবে এবং এফেক্টের প্রভাবকে প্রভাবিত করবে, সম্ভবত এটি কোনও বিশাল পার্থক্য আনবে না)। আমি স্প্রেডের সাথে সম্পর্কিত কিনা তা বিবেচনা করতে আগ্রহী এবং সম্ভবত একটি জিএলএম বা সম্ভবত রূপান্তরটি দেখুন (এটি নিশ্চিতভাবে ফিটযুক্ত সম্পর্কিত দেখায়)। ওয়াই-ভেরিয়েবল কী?
গ্লেন_বি -রিনস্টেট মনিকা

2
আরেকটি সম্ভাবনা হিটরোসসিডাস্টিটি মডেল করা, উদাহরণস্বরূপ, glsপ্যাকেজ এনএলএম থেকে ভেরিয়েন্স স্ট্রাকচারগুলির মধ্যে একটি।
রোল্যান্ড

উত্তর:


18

এটি একটি ভাল প্রশ্ন, তবে আমি মনে করি এটি ভুল প্রশ্ন। আপনার চিত্রটি এটিকে পরিষ্কার করে দেয় যে হেটেরোসেসটাস্টিকটির চেয়ে আপনার আরও মৌলিক সমস্যা রয়েছে, অর্থাত আপনার মডেলটির এমন একটি অলাইনারিটি রয়েছে যার জন্য আপনি দায়বদ্ধ হন নি। কোনও মডেলের যে সম্ভাব্য সমস্যা রয়েছে তার অনেকগুলিই (ননলাইনারিটি, ইন্টারঅ্যাকশনস, আউটলিয়ার্স, হেটেরোসিসেস্টাস্টিটি, নরমাল্যালিটি) একে অপরকে উপস্থাপিত করতে পারে। আমি মনে করি না একটি কঠোর এবং দ্রুত নিয়ম আছে, তবে সাধারণভাবে আমি ক্রমটিতে সমস্যাগুলি মোকাবেলা করার পরামর্শ দেব

outliers > nonlinearity > heteroscedasticity > non-normality

(উদাহরণস্বরূপ, ফিটনেসকে অদ্ভুতভাবে পর্যবেক্ষণ করা হচ্ছে কিনা তা যাচাই করার আগে অ-লাইনারিটির বিষয়ে চিন্তা করবেন না; হেটেরোসিসটাস্টিকটির বিষয়ে চিন্তা করার আগে স্বাভাবিকতার বিষয়ে চিন্তা করবেন না)।

এই বিশেষ ক্ষেত্রে, আমি একটি চতুর্ভুজীয় মডেল ফিট করব y ~ poly(x,2)(বা poly(x,2,raw=TRUE)বা y ~ x + I(x^2)এবং এটি সমস্যাটিকে দূরে সরিয়ে দেয় কিনা তা দেখুন।


প্লটটি ছোট এবং অক্ষগুলি লেবেলযুক্ত নয়। আমি জানি না এটি কোনও অবশিষ্টাংশ বনাম লাগানো প্লট কিনা। আমি ধরে নিয়েছি যে ওপিতে একটি বর্গক্ষেত্র পদ রয়েছে, যেমন। যদি না হয়, আপনি স্পষ্টভাবে ঠিক বলেছেন।
গুং - মনিকা পুনরায়

1
আমার ব্রাউজারে আমি দেখতে পাচ্ছি যে y- অক্ষের পরিসরটি -4 থেকে 3 পর্যন্ত চলেছে, যা মনে হয় কোনও অবশিষ্টাংশ বনাম লাগানো প্লট / স্কেল-লোকেশন প্লট বাতিল করে দেয় ...
বেন বলকার

1
হাই বেন, তুমি যা কর তা ভালবাস "আউটলিয়ার্স" সবচেয়ে বড় সমস্যা এই ধারণাটি কি আপনি প্রসারিত করতে পারেন? আপনি যদি একক উচ্চ-উত্সের পয়েন্টগুলিকে "আউটলিয়ার" হিসাবে অন্তর্ভুক্ত করেন তবে তাদের অল্প অবশিষ্ট কিছু থাকলে? আমি আমার কাজের লাইনে সর্বদা চূড়ান্ত মান পর্যবেক্ষণকে মোকাবিলা করি (পরিবেশগত পরিসংখ্যান) এবং আমি দেখতে পেলাম যে কিছু লোক (বিশেষত EPA) অনুপাতের বাইরে বহিরাগতদের ধাক্কা দেয় (ক্ষমা করে দেয় কোনও অনিচ্ছাকৃত শাস্তি) এবং আগ্রহী হওয়ার উপায় তাদের বাদ দিতে। আমি যদি বিদেশিদের কাছে সহনীয় মনোভাব পোষণ করি তবে যদি আমি প্রমাণ পাই না যে তারা স্পষ্টভাবে ডেটা (সংগ্রহ, প্রবেশ) ত্রুটির ফলাফল।
ডাল্টন হ্যান্স

1
@ ডাল্টনহ্যান্স: আমরা সম্ভবত একই পৃষ্ঠায় অনেক বেশি। আমার বক্তব্যটি হ'ল যদি আপনার আউটলিয়ার থাকে (যে কোনও সংজ্ঞা অনুসারে) এবং আপনি যে পরিসংখ্যানের মডেল / পদ্ধতির ব্যবহার করছেন (মিশ্রণ মডেল, শক্তিশালী পরিসংখ্যান, চর্বিযুক্ত লেজযুক্ত বিতরণ ইত্যাদি) বিবেচনায় না নেওয়া হয় , তবে এটি আপনার বাকী সমস্ত ডায়াগনস্টিকগুলি স্ক্রু প্রবণতা করবে - এটি অবশিষ্টাংশগুলিকে ননলাইনার / হেটেরোসেসটেস্টিক / অ-সাধারণ দেখায় Nor আমি অবশ্যই সম্মত হই যে আপনার কেবলমাত্র চিন্তাভাবনা / প্রতিচ্ছবি করে এড়িয়ে দেওয়া উচিত নয়।
বেন বলকার

8

আমি heteroscedasticity (সঙ্গে সাথে ডিল করার পদ্ধতি কোনো সংখ্যাযুক্ত তালিকা R: উদাহরণ) এখানে heteroskedastic ডেটার জন্য একমুখী ANOVA বিকল্প । এই সুপারিশগুলির মধ্যে অনেকগুলিই কম আদর্শ হবে কারণ আপনার একাধিক স্তরের শ্রেণিবদ্ধ ভেরিয়েবলের পরিবর্তে একক ক্রমাগত পরিবর্তনশীল রয়েছে তবে যাইহোক ওভারভিউ হিসাবে এটি পড়ে ভাল লাগবে।

আপনার পরিস্থিতির জন্য, ওজনযুক্ত সর্বনিম্ন স্কোয়ারগুলি (সম্ভবত কিছু শক্তিশালী বিদেশী থাকতে পারে সন্দেহ হলে সম্ভবত শক্তিশালী রিগ্রেশনের সাথে মিলিত) একটি যুক্তিসঙ্গত পছন্দ হবে। হুবার-হোয়াইট স্যান্ডউইচ ত্রুটিগুলি ব্যবহার করাও ভাল।

আপনার নির্দিষ্ট প্রশ্নের কয়েকটি উত্তর এখানে দেওয়া হয়েছে:

  1. দৃust় প্রতিরোধটি একটি কার্যকর বিকল্প, তবে আমার মতে ওজনের সাথে জোড় করা থাকলে আরও ভাল। যদি আপনি উদ্বিগ্ন না হন যে হেটেরোসেসটেস্টিটিটি বিদেশীদের কারণে হয় তবে আপনি কেবল ওজন সহ নিয়মিত লিনিয়ার রিগ্রেশন ব্যবহার করতে পারেন। সচেতন হন যে বৈকল্পিকতা বহিরাগতদের কাছে খুব সংবেদনশীল হতে পারে এবং আপনার ফলাফলগুলি অনুপযুক্ত ওজনের সাথে সংবেদনশীল হতে পারে, তাই চূড়ান্ত মডেলটির জন্য শক্তিশালী রিগ্রেশন ব্যবহারের চেয়ে গুরুত্বপূর্ণ আর কী হতে পারে ওজনগুলি অনুমান করার জন্য বিচ্ছুরণের একটি মজবুত ব্যবস্থা ব্যবহার করা। সংযুক্ত থ্রেডে, আমি উদাহরণস্বরূপ 1 / IQR ব্যবহার করি।
  2. ভিন্ন ভিন্ন কারণের কারণে মানগত ত্রুটিগুলি ভুল। আপনি হুবার-হোয়াইট স্যান্ডউইচ অনুমানের সাথে স্ট্যান্ডার্ড ত্রুটিগুলি সামঞ্জস্য করতে পারেন। লিঙ্কযুক্ত এসও থ্রেডে গ্যাভিনসিম্পসন এটি করছেন।

হিটোরিসেসডাস্টিকটি আপনার রৈখিক মডেলটিকে পুরোপুরি অবৈধ করে না। এটি প্রাথমিকভাবে স্ট্যান্ডার্ড ত্রুটিগুলিকে প্রভাবিত করে। আপনার যদি অপ্রদর্শক না থাকে তবে সর্বনিম্ন স্কোয়ার পদ্ধতিটি নিরপেক্ষ থাকতে হবে। সুতরাং পয়েন্ট ভবিষ্যদ্বাণীগুলির ভবিষ্যদ্বাণীমূলক যথার্থতা অকার্যকর হওয়া উচিত। কভারেজ ব্যবধান যদি আপনি এর কার্যকারিতা হিসেবে ভ্যারিয়েন্স মডেল করা হয়নি ভবিষ্যৎবাণী প্রভাবিত হতে হবে এবং ব্যবহার যে শর্তাধীন আপনার ভবিষ্যদ্বাণী অন্তর প্রস্থ সমন্বয় । এক্সএক্সএক্স


1
lmrob প্যাকেজ থেকে শক্তিশালী রিগ্রেশন ব্যবহার করে কিছু ওজন স্বয়ংক্রিয়ভাবে অনুমান করা যায়, কেন # 1 এর পরিবর্তে সেগুলি ব্যবহার করবেন না?
সরঞ্জাম.শিশ

1

লোড করুন sandwich packageএবং আপনার রিগ্রেশনটির ভার-কোভ ম্যাট্রিক্সটি গণনা করুন var_cov<-vcovHC(regression_result, type = "HC4")(ম্যানুয়ালটি পড়ুন sandwich)। এখন ফাংশনটি lmtest packageব্যবহারের সাথে coeftest:

coeftest(regression_result, df = Inf, var_cov)

0

আপনার ডেটা বিতরণ কেমন দেখাচ্ছে? এটিকে কি আদৌ বেল বাঁকানোর মতো দেখাচ্ছে? বিষয় থেকে, এটি কি সাধারণত বিতরণ করা যায়? উদাহরণস্বরূপ, কোনও ফোন কলের সময়কাল নেতিবাচক হতে পারে না। সুতরাং কলগুলির সেই নির্দিষ্ট ক্ষেত্রে একটি গামা বিতরণ এটি ভালভাবে বর্ণনা করে। এবং গামার সাহায্যে আপনি সাধারণীভূত রৈখিক মডেল ব্যবহার করতে পারেন (গ্লাম ইন আর)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.