রূপান্তরিত হওয়ার পরে আমি অ-স্বাভাবিক ডেটাতে কীভাবে রিগ্রেশন করব?


15

আমি কিছু ডেটা পেয়েছি (158 কেস) যা 21 প্রশ্নপত্র আইটেমের লিকার্ট স্কেল উত্তর থেকে নেওয়া হয়েছিল। প্রশ্নাবলীর কোন আইটেম সামগ্রিক আইটেম (সন্তুষ্টি) এর প্রতিক্রিয়া পূর্বাভাস দেয় তা দেখতে আমি সত্যিই একটি রিগ্রেশন বিশ্লেষণ করতে চাই / প্রয়োজন। প্রতিক্রিয়াগুলি সাধারণত বিতরণ করা হয় না (কেএস পরীক্ষাগুলি অনুযায়ী) এবং আমি এটিকে বিপরীতভাবে রূপান্তর করেছি (বিপরীত, লগ, লগ 10, স্কয়ার্ট, স্কোয়ার্ড) এবং এটি দৃub়তার সাথে সাধারণভাবে বিতরণ করতে অস্বীকার করে। অবশিষ্ট প্লটটি পুরো জায়গা জুড়ে দেখায় তাই আমি বিশ্বাস করি যে লিনিয়ার রিগ্রেশন করা এবং এটি স্বাভাবিকভাবে আচরণ করা ভান করা সত্যই বৈধ নয় (এটি কোনও পোইসন বিতরণও নয়)। আমি মনে করি কারণ এটি উত্তরগুলি খুব ঘনিষ্ঠভাবে ক্লাস্টার করা হয়েছে (যার অর্থ 3.91, 95% সিআই 3.88 থেকে 3.95)।

সুতরাং, আমি ভাবছি আমার হয় আমার ডেটা রুপান্তর করার একটি নতুন উপায়ে প্রয়োজন বা একরকম নন-প্যারামেট্রিক রিগ্রেশন দরকার তবে এসপিএসএসে আমি কী করতে পারি তা আমি জানি না।


1
একটি বক্স-কক্স রূপান্তর বিবেচনা করুন ( en.wikedia.org/wiki/… )। আপনার প্রশ্নের অবশিষ্টাংশ প্লট যুক্ত করা সহায়ক হতে পারে।
এম বার্ক

3
হ্যাঁ, দয়া করে আপনার অবশিষ্টাংশের প্লটটি আমাদের দেখান। সম্ভবত একটি কিউকি প্লটও।
ডেভিড মার্কস

5
যদি আপনার মানগুলি আলাদা হয়, বিশেষত যদি সেগুলি এক প্রান্তে ছড়িয়ে থাকে তবে এমন কোনও রূপান্তর হতে পারে না যা ফলাফলটিকে প্রায় সাধারণ করে তোলে। তবে স্বাভাবিকতার আনুষ্ঠানিক হাইপোথিসিস পরীক্ষাগুলি সঠিক প্রশ্নের উত্তর দেয় না এবং আপনার অন্যান্য প্রক্রিয়াগুলি শর্তসাপেক্ষে পরিচালিত করে যা আপনি নামমাত্র বৈশিষ্ট্যগুলি না রেখে আপনি স্বাভাবিকতা প্রত্যাখ্যান করেন কিনা তা নিয়ে শর্তযুক্ত cause
গ্লেন_বি -রিনস্টেট মনিকা

1
আনুপাতিক বৈষম্য লজিস্টিক রিগ্রেশন সম্ভবত এই প্রশ্নের একটি বুদ্ধিমান পদ্ধতির হতে পারে, তবে এসপিএসএস এ এটি উপলব্ধ কিনা তা আমি জানি না।
বেন বলকার

3
আমি বিশ্বাস করি না যে প্রতিরোধটি সঠিক দৃষ্টিভঙ্গি, এবং স্বাভাবিকতার উদ্বেগের কারণে নয়। আপনার প্রশ্নাবলির উত্তরগুলি এমনকি কার্ডিনাল নাও হতে পারে। উদাহরণস্বরূপ, আপনি যদি কোনও লোককে জিজ্ঞাসা করেন 'আপনি কি খুশি? "এবং উত্তর 3 পান, যদিও গত মাসে এটি ছিল 4, এর অর্থ কি এই যে তিনি 25% কম খুশি? সম্ভবত না, তাই এমনকি স্বাভাবিকতা সম্পর্কে ভাবনা শুরু করার আগে, আপনি জিনিসটা কিনা এমনকি অঙ্কবাচক সংখ্যা সঙ্গে লেনদেন করছেন এবং মাত্র পূরণবাচক প্রয়োজন আছে সার্ভে মত মনে করে সাথে ডিল করার বিশেষ উপায় আছে, এবং রিগ্রেশন ডিফল্ট পছন্দ নয় আপনি এটা উপযুক্ত প্রথম দেখাতে হবে।।।
Aksakal

উত্তর:


32

রিগ্রেশন করার জন্য আপনার সাধারণ বিতরণ অনুমান করার দরকার নেই। সর্বনিম্ন স্কোয়ারের রিগ্রেশন হ'ল নকল অনুমানকারী (সেরা লিনিয়ার, নিরপেক্ষ अनुमानক) কোনও বিতরণ ছাড়াই। গাউস-মার্কভ উপপাদ্যটি দেখুন (যেমন উইকিপিডিয়া) একটি সাধারণ বিতরণ কেবলমাত্র এটি দেখানোর জন্য ব্যবহৃত হয় যে অনুমানকারীটিও সর্বাধিক সম্ভাবনার অনুমানকারী। এটি একটি সাধারণ ভুল বোঝাবুঝি যে ওএলএস কোনওভাবে সাধারণভাবে বিতরণ করা ডেটা ধরে নেয়। এটা না. এটি অনেক বেশি সাধারণ।


2
এটাই সত্যি. অনেক লোকের কাছে প্রায়শই এই সত্যটি উপেক্ষা করা হয়।
পুনরায় খেলুন

@ রেপমেটের সাথে একমত আমি নিশ্চিত নই যে আমি কখনও স্বাভাবিকতা পরীক্ষা দিয়েছি ... তবে আমার মডেলগুলি কাজ করে।
হাইটজ

5

অবশিষ্টাংশের স্বাভাবিকতার জন্য কোনও পরীক্ষার উপর নির্ভর করার পরিবর্তে যৌক্তিক রায় দিয়ে স্বাভাবিকতাটি মূল্যায়নের চেষ্টা করুন। সাধারণতা পরীক্ষা আপনাকে জানায় না যে আপনার ডেটা স্বাভাবিক, কেবল এটিই নয়। কিন্তু প্রদত্ত যে ডেটা একটি নমুনা আপনি যথেষ্ট নিশ্চিত হতে পারেন যে তারা আসলে পরীক্ষা ছাড়াই স্বাভাবিক নয়। প্রয়োজনীয়তা প্রায় স্বাভাবিক। পরীক্ষা আপনাকে এটি বলতে পারে না। টেস্টগুলি বৃহত্তর এন বা আরও গুরুতরভাবে সংবেদনশীল হয়ে ওঠে, এন এর সাথে সংবেদনশীলতায় পরিবর্তিত হয় Your আপনার এন সেই সীমার মধ্যে যেখানে সংবেদনশীলতা উচ্চতর হতে শুরু করে। যদি আপনি নীচে সিমুলেশনটি বেশ কয়েকবার চালিয়ে যান এবং প্লটগুলি দেখুন তবে আপনি দেখতে পাবেন যে স্বাভাবিকতা পরীক্ষা খুব ভাল সংখ্যক সাধারণ বিতরণের জন্য "স্বাভাবিক নয়" বলছে।

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

আশা করা যায়, সিমুলেশনগুলি দেখার পরে আপনি দেখতে পাচ্ছেন যে একটি স্বাভাবিকতা পরীক্ষা খুব সহজেই দেখতে খুব সহজে দেখা যায় এবং এটি একটি সাধারণ বিতরণ থেকে প্রাপ্ত ডেটা স্বাভাবিক থেকে বেশ দূরে দেখতে পারে। আপনি যদি এই চেষ্টার একটি চূড়ান্ত মান দেখতে চান n <- 1000। ডিস্ট্রিবিউশনগুলি সমস্ত স্বাভাবিক দেখায় তবে তবুও নিম্ন এন মান হিসাবে প্রায় একই হারে পরীক্ষায় ব্যর্থ হয়। এবং বিপরীতে, একটি কম এন বিতরণ যা পরীক্ষায় উত্তীর্ণ হয় সাধারণ থেকে খুব দূরে দেখতে পারে।

এসপিএসএসের স্ট্যান্ডার্ড রেসিডুয়াল প্লট স্বাভাবিকতা নির্ধারণের জন্য মারাত্মকভাবে কার্যকর নয়। আপনি আউটলিয়ারগুলি, পরিসীমা, ফিটের ধার্মিকতা এবং সম্ভবত লাভও দেখতে পারেন। তবে স্বাভাবিকতা থেকে এটি পাওয়া কঠিন। হিস্টোগ্রাম, কোয়ান্টাইল-কোয়ান্টাইল সাধারণ প্লট এবং অবশিষ্ট প্লটের তুলনা করে নিম্নলিখিত সিমুলেশনটি ব্যবহার করে দেখুন।

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

গত চক্রান্ত থেকে স্বাভাবিকতা বা আরও অনেক কিছুই বলা অসম্ভব কঠিন এবং তাই স্বাভাবিকতার ভয়াবহ ডায়াগনস্টিক নয়।

সংক্ষেপে, এটি সাধারণত স্বাভাবিকতা পরীক্ষার উপর নির্ভর না করে বরং অবশিষ্টাংশের ডায়াগনস্টিক প্লটগুলিতে নির্ভর করার পরামর্শ দেওয়া হয়। আপনার প্লটের এই প্লটগুলি বা আসল মান ব্যতীত বিশ্লেষণ বা রূপান্তরের ক্ষেত্রে আপনার ডেটা কী প্রয়োজন সে সম্পর্কে আপনাকে দৃ solid় পরামর্শ দেওয়া কারও পক্ষে পক্ষে খুব কঠিন। সর্বোত্তম সহায়তা পেতে, কাঁচা ডেটা সরবরাহ করুন।


হাই পরামর্শ দেওয়ার জন্য সকলকে ধন্যবাদ। আমি প্রস্তাবিত হিসাবে আমার রেসিডুয়ালগুলি দেখে এবং আমার ভেরিয়েবলগুলির সাথে উপরের সিনট্যাক্সটি ব্যবহার করে শেষ করেছি। আমার ডেটা বিপর্যয়করভাবে অস্বাভাবিক ছিল না যতটা আমি ভেবেছিলাম তাই আমি আমার প্যারাম্যাট্রিক লিনিয়ার রেগ্রেশনগুলি আরও অনেক আত্মবিশ্বাস এবং সুস্পষ্ট বিবেক দিয়ে ব্যবহার করেছি! আবার ধন্যবাদ.
রাচেল এস

4

প্রথমত, ওএলএস রিগ্রেশন তথ্য সম্পর্কে কোনও অনুমান করে না, অবশিষ্টাংশ দ্বারা অনুমান হিসাবে এটি ত্রুটিগুলি সম্পর্কে অনুমান করে।

দ্বিতীয়ত, একটি মডেল ফিট করার জন্য ডেটা রুপান্তর করা আমার মতে, ভুল পদ্ধতির। আপনি চান যে আপনার মডেলটি আপনার সমস্যার সাথে ফিট করে, অন্যভাবে নয়। পুরানো দিনগুলিতে, ধীর কম্পিউটারের কারণে ওএলএসের প্রতিরোধ "শহরে একমাত্র খেলা" ছিল, তবে এটি আর সত্য নয় no

তৃতীয়, আমি এসপিএসএস ব্যবহার করি না যাতে আমি সেখানে সহায়তা করতে পারি না, তবে আমি যদি অবাক হব তবে এটি যদি কিছু রূপবিহীন রেগ্রেশন না দেয়। কিছু সম্ভাবনাগুলি কোয়ান্টাইল রিগ্রেশন, রিগ্রেশন ট্রি এবং মজবুত রিগ্রেশন।

চতুর্থ, আমি আপনার বক্তব্য সম্পর্কে কিছুটা উদ্বিগ্ন:

প্রশ্নাবলীর কোন আইটেম সামগ্রিক আইটেমের প্রতিক্রিয়া পূর্বাভাস করেছে (সন্তুষ্টি)

যদি সামগ্রিক স্কেল তৈরি করতে আইটেমগুলি সংক্ষিপ্ত করা বা কোনওভাবে একত্রিত করা হয়, তবে রিগ্রেশন মোটেই সঠিক পদ্ধতির নয়। আপনি সম্ভবত ফ্যাক্টর বিশ্লেষণ চান।


আপনি পরামর্শ দিয়েছিলেন যে তিনি ফ্যাক্টর এনালাইসিস চান, তবে ডেটা বিতরণ না করা হলে ফ্যাক্টর এনালাইসিসও প্রভাবিত হয় না?
স্ট্রিমলাইন করুন

আপনি ডেটাতে ফ্যাক্টর বিশ্লেষণ করতে পারেন যা এমনকি অবিচ্ছিন্ন নয়। তবে এটি একটি পৃথক আলোচনা - এবং এটি এখানে আলোচনা করা হয়েছে।
পিটার ফ্লুম - মনিকা পুনরায়

1
হাই পিটার, আমি আপনার দক্ষতার প্রশংসা করি এবং আমি আপনার পরামর্শকে খুব মূল্য দিয়েছি। উত্তর দেওয়ার জন্য সময় দেওয়ার জন্য ধন্যবাদ। কেবল স্পষ্ট করে বলতে গেলে, আমি জানি যে সাধারণভাবে বিতরণকৃত আইটেমগুলিতে এফএ করতে পারে (পাশাপাশি অবশিষ্টাংশের স্বাভাবিকতা সম্পর্কে আলোচনা)। যদি ওপি একই ধরণের সমস্যার মধ্যে না পড়ে তবে আমি শিখতে আগ্রহী (আপনার দক্ষতার সাথে কারও কাছ থেকে)। তবে, আমি ধরে নিয়েছি আপনি ইতিমধ্যে জবাব দিয়েছেন :)
স্ট্রিমলাইন করুন

1

আপনার সমস্যাগুলির পক্ষে দুটি সম্ভাব্য পন্থা রয়েছে: একটি যা একটি তাত্ত্বিক দৃষ্টিভঙ্গি থেকে যথাযথভাবে ন্যায়সঙ্গত, তবে বাস্তবে এটি বাস্তবায়িত অসম্ভব, অন্যটিটি আরও তাত্ত্বিক।

তাত্ত্বিকভাবে সর্বোত্তম পদ্ধতির (যা আপনি সম্ভবত ব্যবহার করতে পারবেন না, দুর্ভাগ্যবশত) সর্বাধিক সম্ভাবনার তথাকথিত পদ্ধতির প্রত্যক্ষ প্রয়োগের দিকে প্রত্যাবর্তন করে একটি রিগ্রেশন গণনা করা। সর্বাধিক সম্ভাবনা অনুমানের (যা সত্যই পূর্ববর্তী এবং আরও মৌলিক গাণিতিক ধারণা) এবং সাধারণ ন্যূনতম স্কোয়ার্স (ওএলএস) রিগ্রেশন (সাধারণ পদ্ধতির, নির্দিষ্ট তবে অত্যন্ত সাধারণ ক্ষেত্রে কার্যকর যেখানে পর্যবেক্ষণের ভেরিয়েবলগুলি স্বাধীনভাবে এলোমেলোভাবে এবং সাধারণত বিতরণ করা হয়) ) পরিসংখ্যান সম্পর্কিত অনেক পাঠ্যপুস্তকে বর্ণিত হয়েছে; আমি যে আলোচনাটি বিশেষভাবে পছন্দ করি তা হ'ল গ্লেন কাউয়ান কর্তৃক "পরিসংখ্যান সংক্রান্ত ডেটা বিশ্লেষণ" এর বিভাগ 7.1 section আপনার পর্যবেক্ষণের ভেরিয়েবলগুলি সাধারণত বিতরণ না করা ক্ষেত্রে,

এই ক্ষেত্রে, যেহেতু আপনি আপনার পর্যবেক্ষণের ভেরিয়েবলগুলি পরিচালনা করে এমন অন্তর্নিহিত বিতরণটি আসলে আপনার উপস্থিতি হিসাবে দেখা যাচ্ছে না (যেমন, কেবলমাত্র নিশ্চিতরূপে জানা যায় এটি অবশ্যই গাউস নয়, তবে এটি আসলে কী নয়) আপনার জন্য কাজ না। সাধারণত, যখন ওএলএস ব্যর্থ হয় বা ক্রেজি ফলাফল দেয়, তখন এটি অনেকগুলি বহির্মুখী পয়েন্টের কারণে হয়। আউটলেট পয়েন্টগুলি, যা আসলে সাধারণত বিতরণ করা পর্যবেক্ষণের ভেরিয়েবলগুলির ধারণাকেই ভেঙে দেয়, এটি ফিটের পক্ষে খুব বেশি ওজনের অবদান রাখে, কারণ ওএলএসের পয়েন্টগুলি রিগ্রেশন বক্ররেখা থেকে তাদের বিচ্যুতির স্কোয়ার দ্বারা ভারিত হয়, এবং বহিরাগতদের পক্ষে সেই বিচ্যুতি বড়. এই ক্ষেত্রে সাধারণ তাত্পর্যপূর্ণ পদ্ধতির মধ্যে রয়েছে ওএলএসে কিছু তাত্পর্য বা পরিবর্তন করা যা ফলস্বরূপ পয়েন্টগুলি থেকে অবদানকে ডি-জোর দেওয়া বা ডি-ওয়েইটেড করে তোলে, বেসলাইন ওএলএস পদ্ধতির তুলনায়। সম্মিলিতভাবে, এগুলি সাধারণত হিসাবে পরিচিতশক্তসমর্থ রিগ্রেশন । সুনির্দিষ্ট শক্তিশালী অনুমানের কৌশলগুলির কয়েকটি উদাহরণ সহ একটি তালিকা যা আপনি চেষ্টা করতে চাইতে পারেন এখানে পাওয়া যাবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.