যদি আমার লিনিয়ার রিগ্রেশন ডেটাতে বেশ কয়েকটি সহ-মিশ্রিত লিনিয়ার সম্পর্ক থাকে?


34

ধরা যাক আমি পড়াশোনা করছি কীভাবে ড্যাফোডিলগুলি মাটির বিভিন্ন পরিস্থিতিতে প্রতিক্রিয়া জানায়। আমি ড্যাফোডিলের পরিপক্ক উচ্চতা বনাম মাটির পিএইচ-তে ডেটা সংগ্রহ করেছি। আমি লিনিয়ার সম্পর্কের প্রত্যাশা করছি, তাই আমি লিনিয়ার রিগ্রেশন চালাচ্ছি।

যাইহোক, আমি যখন আমার অধ্যয়ন শুরু করি তখন বুঝতে পারিনি যে জনসংখ্যায় আসলে দুটি জাতের ড্যাফোডিল রয়েছে, যার মধ্যে প্রতিটি মাটির পিএইচ-তে খুব আলাদাভাবে প্রতিক্রিয়া দেখায়। সুতরাং গ্রাফটিতে দুটি স্বতন্ত্র রৈখিক সম্পর্ক রয়েছে:

মাটির পিএইচ বনাম ফুলের উচ্চতা (সেমি)

আমি এটি চোখের পাতায় ফেলে রাখতে পারি এবং অবশ্যই এটি ম্যানুয়ালি আলাদা করতে পারি। তবে আমি আরও অবাক হচ্ছি যে আরও কঠোর পদ্ধতির যদি এটি থাকে।

প্রশ্নাবলী:

  1. কোনও একক লাইনের দ্বারা বা এন লাইন দ্বারা কোনও ডেটা সেট আরও ভাল ফিট করা যায় কিনা তা নির্ধারণের জন্য কোনও পরিসংখ্যান পরীক্ষা আছে?

  2. এন লাইনে ফিট করার জন্য আমি কীভাবে একটি লিনিয়ার রিগ্রেশন চালাব? অন্য কথায়, আমি কীভাবে মিশ্রিত ডেটা বিচ্ছিন্ন করব?

আমি কিছু সংহত পদ্ধতির কথা ভাবতে পারি তবে সেগুলি গণনা ব্যয়বহুল বলে মনে হয়।


ব্যাখ্যা:

  1. তথ্য সংগ্রহের সময় দুটি জাতের অস্তিত্ব অজানা ছিল। প্রতিটি ড্যাফোডিলের বিভিন্নতা লক্ষ্য করা যায়নি, উল্লেখ করা হয়নি এবং রেকর্ডও করা হয়নি।

  2. এই তথ্যটি উদ্ধার করা অসম্ভব। ডেফোডিলস ডেটা সংগ্রহের সময় থেকেই মারা গেছে।

আমার ধারণা আছে যে এই সমস্যাটি ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করার অনুরূপ, যাতে আপনি প্রায় শুরু করার আগে ক্লাস্টারের সংখ্যা জানতে হবে। আমি বিশ্বাস করি যে কোনও ডেটা সেট করে লাইনের সংখ্যা বাড়ানো মোট আরএমএস ত্রুটি হ্রাস পাবে। চূড়ান্তভাবে, আপনি নিজের ডেটা সেটটিকে স্বেচ্ছাসেবী জোড়ায় বিভক্ত করতে পারেন এবং প্রতিটি জোড়ার মধ্য দিয়ে একটি লাইন আঁকতে পারেন। (উদাহরণস্বরূপ, আপনার যদি 1000 ডাটা পয়েন্ট থাকে তবে আপনি এগুলিকে 500 স্বেচ্ছাসেবী জোড়ায় বিভক্ত করতে পারবেন এবং প্রতিটি জোড়ের মধ্য দিয়ে একটি লাইন আঁকতে পারেন)) ফিটটি সঠিক হবে এবং আরএমএস ত্রুটিটি ঠিক শূন্য হবে। তবে আমরা যা চাই তা তা নয়। আমরা "ডান" লাইনের সংখ্যা চাই।


1
সম্পর্কিত stats.stackexchange.com/questions/245902/…
rep_ho

3
আপনি কি জানেন যে কোন ড্যাফোডিল কোন বৈচিত্র্য? যদি তা হয় তবে আপনি সেই তথ্যটি কেবল আপনার মডেলটিতে অন্তর্ভুক্ত করতে পারেন
rep_ho

1
@ ডেমেট্রি পানানোসের জবাব হিসাবে এটি স্ট্যাটিস্টিকাল ইন্টারঅ্যাকশনের একটি ক্লাসিক কেস বলে মনে হচ্ছে।
রোল্যান্ডো 2

2
আমি অনুভব করি যে তাদের ডেটাতে ফুলটি কী ধরণের ছিল সে সম্পর্কে তাদের কাছে তথ্য নেই। আমি সম্মত হই যে তাদের যদি তা থাকে তবে এটি কেবল ইন্টারঅ্যাকশন মডেল তৈরির এমনকি প্রতিটি বৈচিত্রের জন্য পৃথক রেজিস্ট্রেশন চালানোর ক্ষেত্রেও ঘটবে। তবে, যদি তাদের কাছে সেই তথ্য না থাকে তবে সমস্ত আশা খোয়া যায় না। কেউ এমন একটি মডেল তৈরি করতে পারেন যা কেবল পৃথক রেখাগুলিই অনুমান করে না তবে প্রতিটি পর্যবেক্ষণ যে কোনও একটি দলের অন্তর্গত হওয়ার সম্ভাবনাগুলিও পূর্বাভাস দেয়।
Dason

1
@ ডিমেট্রিপানানোস আমি একটি উত্তর সরবরাহ করেছি যা আশাবাদী বোধগম্য। তারা এটি করতে চান তার উপর নির্ভর করে আরও কিছুটা কাজ করা। কোনও ধরণের পরীক্ষার জন্য আপনাকে সম্ভাবনা অনুপাতের পরীক্ষা করা বা একরকম র্যান্ডমাইজেশন পরীক্ষা বা কিছু করা দরকার। তবে তারা আমাদের খুব বেশি তথ্য দেয়নি এবং যদি লক্ষ্যটি কেবল লাইনের সাথে মানিয়ে যায় এবং তাদের লেবেল না থাকে তবে মিক্সটোল প্যাকেজটি ব্যবহার করা খুব খারাপ নয় not
Dason

উত্তর:


31

আমি মনে করি যদি আমরা ধরে নিই যে বিভিন্ন জাতের আপনার কাছে লেবেল রয়েছে তবে ডেমেট্রির উত্তরটি দুর্দান্ত। যখন আমি আপনার প্রশ্নটি পড়ি তা আমার কাছে মনে হয় নি। আমরা ইএম অ্যালগরিদমের উপর ভিত্তি করে একটি পদ্ধতির ব্যবহার করতে পারি যা মূলত ডেমেট্রি পরামর্শ দেয় এমন মডেলটিকে ফিট করতে পারে তবে বিভিন্নটির জন্য লেবেল না জেনে। ভাগ্যক্রমে আর এ মিক্সটুলস প্যাকেজটি আমাদের জন্য এই কার্যকারিতা সরবরাহ করে। যেহেতু আপনার ডেটা বেশ আলাদা হয়েছে এবং আপনার মনে হয় এটি বেশ কিছুটা সফলভাবে হওয়া উচিত।

library(mixtools)

# Generate some fake data that looks kind of like yours
n1 <- 150
ph1 = runif(n1, 5.1, 7.8)
y1 <- 41.55 + 5.185*ph1 + rnorm(n1, 0, .25)

n2 <- 150
ph2 <- runif(n2, 5.3, 8)
y2 <- 65.14 + 1.48148*ph2 + rnorm(n2, 0, 0.25)

# There are definitely better ways to do all of this but oh well
dat <- data.frame(ph = c(ph1, ph2), 
                  y = c(y1, y2), 
                  group = rep(c(1,2), times = c(n1, n2)))

# Looks about right
plot(dat$ph, dat$y)

# Fit the regression. One line for each component. This defaults
# to assuming there are two underlying groups/components in the data
out <- regmixEM(y = dat$y, x = dat$ph, addintercept = T)

আমরা ফলাফল পরীক্ষা করতে পারেন

> summary(out)
summary of regmixEM object:
          comp 1    comp 2
lambda  0.497393  0.502607
sigma   0.248649  0.231388
beta1  64.655578 41.514342
beta2   1.557906  5.190076
loglik at estimate:  -182.4186 

সুতরাং এটি দুটি রিগ্রেশন ফিট করে এবং এটি অনুমান করে যে 49.7% পর্যবেক্ষণগুলি উপাদান 1 এর জন্য রিগ্রেশনে পড়েছিল এবং 50.2% উপাদান 2 এর জন্য রিগ্রেশনে পড়েছিল I

সিমুলেশনের জন্য আমি ব্যবহৃত 'সত্য' মানগুলি লাইনগুলি দেয়:

y = 41.55 + 5.185 * ph এবং y = 65.14 + 1.48148 * পিএইচ

(যা আমি আপনার প্লট থেকে 'হাত দিয়ে' অনুমান করেছি যাতে আমি তৈরি করা ডেটা আপনার অনুরূপ লাগে) এবং ইএম অ্যালগরিদম এই ক্ষেত্রে যে লাইন দিয়েছিল তা হ'ল:

y = 41.514 + 5.19 * ph এবং y = 64.655 + 1.55 * ph

প্রকৃত মানগুলির কাছাকাছি খুব সুন্দর রঙিন।

আমরা ডেটা সহ লাগানো লাইনগুলি প্লট করতে পারি

plot(dat$ph, dat$y, xlab = "Soil Ph", ylab = "Flower Height (cm)")
abline(out$beta[,1], col = "blue") # plot the first fitted line
abline(out$beta[,2], col = "red") # plot the second fitted line

EM এর মাধ্যমে লাগানো লাইন


21

সম্পাদনা: আমি প্রথমে ভেবেছিলাম যে ওপি জানত কোন পর্যবেক্ষণটি কোন প্রজাতি থেকে এসেছে। ওপির সম্পাদনা এটিকে পরিষ্কার করে দেয় যে আমার আসল পদ্ধতির ব্যবহার সম্ভব নয়। আমি এটি উত্তরোত্তর জন্য ছেড়ে দেব, তবে অন্য উত্তরটি আরও ভাল। সান্ত্বনা হিসাবে, আমি স্টানে একটি মিশ্রণ মডেল তৈরি করেছি। আমি বলছি না যে কোনও বায়েশিয়ান পদ্ধতির ক্ষেত্রে বিশেষত ভাল, তবে এটি যে অবদান রাখতে পারি তা কেবল পরিষ্কার।

স্ট্যান কোড

data{

  //Number of data points
  int N; 

  real y[N];
  real x[N];
}
parameters{
  //mixing parameter
  real<lower=0, upper =1>  theta;

  //Regression intercepts
  real beta_0[2];

  //Regression slopes.
  ordered[2] beta_1;

  //Regression noise
  real<lower=0> sigma[2];
}
model{

  //priors
  theta ~ beta(5,5);
  beta_0 ~ normal(0,1);
  beta_1 ~ normal(0,1);
  sigma ~ cauchy(0,2.5);

  //mixture likelihood
  for (n in 1:N){
    target+=log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));
  }
}
generated quantities {
  //posterior predictive distribution
  //will allow us to see what points belong are assigned
  //to which mixture 
  matrix[N,2] p;
  matrix[N,2] ps;
  for (n in 1:N){
    p[n,1] = log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    p[n,2]= log_mix(1-theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    ps[n,]= p[n,]/sum(p[n,]);
  }
}

আর থেকে স্ট্যান মডেলটি চালান

library(tidyverse)
library(rstan)


#Simulate the data
N = 100
x = rnorm(N, 0, 3)
group = factor(sample(c('a','b'),size = N, replace = T))

y = model.matrix(~x*group)%*% c(0,1,0,2) 
y = as.numeric(y) + rnorm(N)

d = data_frame(x = x, y = y)

d %>% 
  ggplot(aes(x,y))+
  geom_point()

#Fit the model
N = length(x)
x = as.numeric(x)
y = y

fit = stan('mixmodel.stan', 
           data = list(N= N, x = x, y = y),
           chains = 8,
           iter = 4000)

ফলাফল

এখানে চিত্র বর্ণনা লিখুন

ড্যাশড লাইনগুলি স্থল সত্য, শক্ত রেখাগুলি অনুমান করা হয়।


আসল উত্তর

আপনি যদি জানেন যে কোন ধরণের ড্যাফোডিল থেকে কোন নমুনা আসে, আপনি বিভিন্ন এবং মাটির পিএইচ এর মধ্যে একটি মিথস্ক্রিয়া অনুমান করতে পারেন।

আপনার মডেল দেখতে হবে

Y=β0+ +β1বৈচিত্র্য+ +β2PH এর+ +β3বৈচিত্র্যPH এর

এখানে আর এর একটি উদাহরণ দেওয়া আছে আমি এমন কিছু ডেটা তৈরি করেছি যা দেখে মনে হচ্ছে:

এখানে চিত্র বর্ণনা লিখুন

স্পষ্টতই দুটি ভিন্ন লাইন, এবং লাইন দুটি প্রজাতির সাথে মিলে যায় লিনিয়ার রিগ্রেশন ব্যবহার করে কীভাবে লাইনগুলি অনুমান করা যায় তা এখানে।

library(tidyverse)

#Simulate the data
N = 1000
ph = runif(N,5,8)
species = rbinom(N,1,0.5)

y = model.matrix(~ph*species)%*% c(20,1,20,-3) + rnorm(N, 0, 0.5)
y = as.numeric(y)

d = data_frame(ph = ph, species = species, y = y)

#Estimate the model
model = lm(y~species*ph, data = d)
summary(model)

এবং ফলাফল হয়

> summary(model)

Call:
lm(formula = y ~ species * ph, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.61884 -0.31976 -0.00226  0.33521  1.46428 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.85850    0.17484  113.58   <2e-16 ***
species     20.31363    0.24626   82.49   <2e-16 ***
ph           1.01599    0.02671   38.04   <2e-16 ***
species:ph  -3.03174    0.03756  -80.72   <2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4997 on 996 degrees of freedom
Multiple R-squared:  0.8844,    Adjusted R-squared:  0.8841 
F-statistic:  2541 on 3 and 996 DF,  p-value: < 2.2e-16

0 লেবেলযুক্ত প্রজাতির জন্য, রেখাটি প্রায় হয়

Y=19+ +1PH এর

1 লেবেলযুক্ত প্রজাতির জন্য, রেখাটি প্রায় হয়

Y=40-2PH এর


যদি ওপি বিভিন্ন ধরণের ড্যাফোডিল আগে থেকেই জানে, তবে তারা কেন কেবল মাত্র দুটি ভাগে ডেটা বিভক্ত করতে পারে না এবং প্রতিটি জাতের জন্য দুটি পৃথক রেজিস্ট্রেশন চালাতে পারে না?
আকাওয়াল

ওপি যদি ড্যাফোডিল জাতগুলির মধ্যে পার্থক্যের বিষয়ে আগ্রহী না হয় (উদাহরণস্বরূপ, বিভিন্ন ধরণের 1 মাটির পিএইচ-তে কন্ডিশনারযুক্ত 2 টির চেয়ে আরও বেশি লম্বা হয়) তবে নির্ভুলতার আশেপাশের যুক্তিগুলি বাদ দিয়ে সমস্ত ডেটা একসাথে পুনরায় সংগ্রহ করার কোনও কারণ নেই।
ডেমেট্রি পানানোস 21

@ আকাওয়াইল - তারা ডেটাগুলিকে বিভক্ত করতে পারে তবে এ জাতীয় চালানো যদি জাতগুলির মধ্যে পার্থক্য সম্পর্কে কোনও অনুমানের পরীক্ষা করতে আগ্রহী হয় তবে কোনও ধরণের তুলনা করা সহজ করে তোলে। এটির সংমিশ্রণটি চালানো সামান্য বৈকল্পিক অনুমানটি বৈধ হলে কিছুটা ভাল অনুমানও দেয়।
Dason

1
ইএম পদ্ধতির দিকে নজর দেওয়ার আগে আমি বায়েশিয়ান পদ্ধতির বিষয়টি বিবেচনা করেছি। তবে আমি যেমন কাজ করার মতো বেয়েসিয়ান পদ্ধতি পছন্দ করি ততই আমি অলস হয়ে পড়েছিলাম এবং কেবল EM পদ্ধতির গ্রহণ করা আরও সহজ। এর সাথে আমি বলেছি যে আমি একটি বায়সিয়ান বিশ্লেষণকে বেশি পছন্দ করি এবং আমার মনে হয় এটি অনুসরণের প্রশ্নের উত্তরগুলি আরও সহজ করে তোলে - আপনি প্রাথমিক মডেলটির কোডিং করতে আরও কঠিন সময় পেতে পারেন তবে একবার আপনি যখন প্রশ্নটি ব্যবহার করছেন তখন উত্তর দেওয়া খুব সহজ হতে পারে উত্তর বিতরণ
Dason

2

পরিসংখ্যানগত পদ্ধতির উপরোক্ত দুটি জবাবের সাথে খুব মিল, তবে আপনার যদি পূর্বের জ্ঞানের অভাব হয় তবে কীভাবে সুপ্ত শ্রেণীর সংখ্যা বাছাই করা যায় তা নিয়ে এটি আরও কিছুটা বিষয় নিয়ে আলোচনা করে। আপনি সুপ্ত শ্রেণীর সংখ্যা চয়ন করার জন্য গাইড হিসাবে তথ্যের মানদণ্ড বা পার্সিমনি ব্যবহার করতে পারেন।

এখানে 2-5 সুপ্ত শ্রেণি / উপাদানগুলির সাথে সসীম মিশ্রণ মডেলগুলির (ক্রমবর্ধমান) মেশিনগুলির ক্রম ব্যবহার করে একটি স্টাতার উদাহরণ is প্রথম টেবিলটি সুপ্ত শ্রেণীর সদস্যতার জন্য সহগ রয়েছে। এগুলি ব্যাখ্যা করা কিছুটা কঠিন, তবে পরে এগুলি সম্ভাব্যতায় রূপান্তরিত হতে পারে estat lcprob। প্রতিটি শ্রেণীর জন্য, আপনি একটি ইন্টারসেপ্ট এবং একটি পিএইচ opeাল প্যারামিটার পাবেন, তারপরে সুপ্ত শ্রেণীর প্রান্তিক সম্ভাবনা এবং দুটি ইন-নমুনা আইসি পাবেন। এই সহগ অনুমানগুলি ঠিক একটি লিনিয়ার রিগ্রেশন মডেল থেকে গুণফল হিসাবে ব্যাখ্যা করা হয়। এখানে সর্বনিম্ন ইন-নমুনা বিআইসি আপনাকে দুটি উপাদান উপাদানকে সেরা হিসাবে বেছে নিতে বলে। এআইসি আশ্চর্যজনকভাবে 3 উপাদান উপাদান নির্বাচন করে। ক্রস বৈধতা বাছাই বা ব্যবহার করতে আপনি আউট-অফ-স্যাম্পল আইসি ব্যবহার করতে পারেন।

.01433133004

ক্লাসগুলি কম নিখরচায় থাকলে এফএমএম পদ্ধতি সবসময় অনুশীলনে এটি ভালভাবে কাজ করে না। আপনি অনেকগুলি সুপ্ত ক্লাসগুলির সাথে কম্পিউটেশনাল অসুবিধায় পড়তে পারেন, বিশেষত যদি আপনার কাছে পর্যাপ্ত ডেটা না থাকে, বা সম্ভাবনা ফাংশনে একাধিক স্থানীয় ম্যাক্সিমা থাকে।

. clear

. /* Fake Data */
. set seed 10011979

. set obs 300
number of observations (_N) was 0, now 300

. gen     ph = runiform(5.1, 7.8) in 1/150
(150 missing values generated)

. replace ph = runiform(5.3, 8)   in 151/300
(150 real changes made)

. gen y      = 41.55 + 5.185*ph   + rnormal(0, .25)  in 1/150
(150 missing values generated)

. replace y  = 65.14 + 1.48148*ph + rnormal(0, 0.25) in 151/300
(150 real changes made)

. 
. /* 2 Component FMM */
. fmm 2, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -194.5215

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |   .0034359   .1220066     0.03   0.978    -.2356927    .2425645
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173137   .0251922   205.35   0.000     5.123761    5.222513
       _cons |     41.654   .1622011   256.80   0.000      41.3361    41.97191
-------------+----------------------------------------------------------------
     var(e.y)|   .0619599   .0076322                      .0486698     .078879
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.486062    .026488    56.10   0.000     1.434147    1.537978
       _cons |   65.10664   .1789922   363.74   0.000     64.75582    65.45746
-------------+----------------------------------------------------------------
     var(e.y)|   .0630583   .0075271                      .0499042    .0796797
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |    .499141   .0305016      .4396545    .5586519
          2  |    .500859   .0305016      .4413481    .5603455
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -194.5215       7     403.043   428.9695
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 3 Component FMM */
. fmm 3, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -187.4824

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.0312504    .123099    -0.25   0.800    -.2725199    .2100192
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -3.553227   .5246159    -6.77   0.000    -4.581456   -2.524999
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173077   .0252246   205.08   0.000     5.123637    5.222516
       _cons |   41.65412     .16241   256.48   0.000      41.3358    41.97243
-------------+----------------------------------------------------------------
     var(e.y)|   .0621157   .0076595                      .0487797    .0790975
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.476049   .0257958    57.22   0.000      1.42549    1.526608
       _cons |   65.18698   .1745018   373.56   0.000     64.84496    65.52899
-------------+----------------------------------------------------------------
     var(e.y)|   .0578413   .0070774                      .0455078    .0735173
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.776746   .0020074   885.09   0.000     1.772811     1.78068
       _cons |   62.76633   .0134072  4681.54   0.000     62.74005    62.79261
-------------+----------------------------------------------------------------
     var(e.y)|   9.36e-06   6.85e-06                      2.23e-06    .0000392
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .5005343   .0304855      .4410591    .5599944
          2  |   .4851343   .0306119      .4256343    .5450587
          3  |   .0143313   .0073775      .0051968     .038894
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -187.4824      11    396.9648   437.7064
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 4 Component FMM */
. fmm 4, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood = -188.06042

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.6450345   .5853396    -1.10   0.270    -1.792279      .50221
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -.8026907   .6794755    -1.18   0.237    -2.134438    .5290568
-------------+----------------------------------------------------------------
4.Class      |
       _cons |  -3.484714   .5548643    -6.28   0.000    -4.572229     -2.3972
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173031   .0251474   205.71   0.000     5.123743    5.222319
       _cons |   41.65574    .161938   257.23   0.000     41.33835    41.97313
-------------+----------------------------------------------------------------
     var(e.y)|   .0617238   .0076596                      .0483975    .0787195
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.503764   .0371216    40.51   0.000     1.431007    1.576521
       _cons |   65.13498   .2666049   244.31   0.000     64.61244    65.65751
-------------+----------------------------------------------------------------
     var(e.y)|   .0387473   .0188853                      .0149062    .1007195
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.441334   .0443892    32.47   0.000     1.354333    1.528335
       _cons |   65.26791   .2765801   235.98   0.000     64.72582       65.81
-------------+----------------------------------------------------------------
     var(e.y)|   .0307352    .010982                      .0152578    .0619127
------------------------------------------------------------------------------

Class          : 4
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.665207   .0079194   210.27   0.000     1.649685    1.680728
       _cons |   63.42577   .0510052  1243.52   0.000      63.3258    63.52573
-------------+----------------------------------------------------------------
     var(e.y)|    .000096   .0000769                        .00002    .0004611
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .4991443   .0304808      .4396979     .558615
          2  |   .2618733   .1506066      .0715338    .6203076
          3  |   .2236773    .150279      .0501835    .6110804
          4  |    .015305    .008329       .005234    .0438994
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -188.0604      15    406.1208   461.6776
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

এই খুব আকর্ষণীয় উত্তরের জন্য আপনাকে ধন্যবাদ। আপনি আমাকে গবেষণার জন্য কিছু নতুন ধারণা দিয়েছেন!
স্লোম্যাগিক

0

ডেসন ইতিমধ্যে মডেলিংয়ের অংশটি coveredেকে রাখার পরে আমি পরিসংখ্যানগত তাত্পর্য প্রশ্নে মনোনিবেশ করব।

আমি এটির জন্য কোনও আনুষ্ঠানিক পরীক্ষার সাথে অপরিচিত (যা আমি নিশ্চিত যে এটি বিদ্যমান) তাই আমি কিছু ধারণা এখানে ফেলে দেব (এবং আমি সম্ভবত আর কোড এবং প্রযুক্তিগত বিশদ পরে যুক্ত করব)।

প্রথমত, ক্লাসগুলি অনুমান করা সুবিধাজনক। অনুমান করে যে আপনার কাছে দুটি লাইন উপাত্তের সাথে খাপ খায়, আপনি প্রায় প্রতিটি বিন্দুটিকে তার নিকটবর্তী রেখার শ্রেণিতে নির্ধারিত করে পুনর্গঠন করতে পারেন। চৌরাস্তার কাছাকাছি পয়েন্টগুলির জন্য, আপনি সমস্যাগুলির মধ্যে চলে যাবেন, তবে আপাতত কেবল সেগুলি উপেক্ষা করুন (এটির কাছাকাছি যাওয়ার কোনও উপায় থাকতে পারে, তবে আপাতত আশা করি এটি খুব বেশি পরিবর্তন ঘটবে না)।

এক্সএক্সRএক্সএক্সRএক্সএক্সR

এরপরে দুটি প্রাকৃতিক উপায় আছে যা আমি দেখতে পাচ্ছি।

কম মজাদার উপায় হ'ল ডিমেট্রির উত্তরের মতো লিনিয়ার রিগ্রেশন মাধ্যমে অনুমিত শ্রেণীর লেবেলের সাথে মিলিত আপনার মূল ডেটাसेटটি চালানো।

এটি করার আরও আকর্ষণীয় উপায় হ'ল আনোভা-র পরিবর্তিত সংস্করণটি। মুল বক্তব্যটি হ'ল একটি কৃত্রিম ডেটাসেট তৈরি করুন যা দুটি লাইন উপস্থাপন করে (তাদের মধ্যে একই রকম ছড়িয়ে দিয়ে) এবং তারপরে আনোভা প্রয়োগ করে। প্রযুক্তিগতভাবে, আপনাকে একবার বাম পাশের জন্য এবং ডানদিকের জন্য একবার (যেমন আপনার কাছে দুটি কৃত্রিম ডেটাসেট থাকবে) করতে হবে।

Y1(আমি)=β1,1এক্স1(আমি)+ +β1,0+ +1(আমি)
β1,1এক্স1(আমি)+ +β1,0
β1,1এক্সএকটিবনাম+ +β1,0
এক্সএকটিবনামএক্সY1(আমি)
Y~1(আমি)=β1,1এক্সএকটিবনাম+ +β1,0+ +1(আমি),
Y~1(আমি)Y~2(আমি)

এন


-2

একই চার্টে উভয়কেই অন্তর্ভুক্ত করা কি ত্রুটি? বৈচিত্রগুলি সম্পূর্ণ ভিন্ন আচরণ করে তা ডেটা ওভারল্যাপ করার কোনও মূল্য আছে কি? আমার কাছে মনে হচ্ছে আপনি ড্যাফোডিলের একটি প্রজাতির জন্য প্রভাবগুলি সন্ধান করছেন, বিভিন্ন ড্যাফোডিলগুলিতে একই পরিবেশের প্রভাবগুলি নয়। আপনি যদি এমন ডেটা হারিয়ে ফেলেছেন যা প্রজাতি "বি" থেকে "এ" প্রজাতি নির্ধারণ করতে সহায়তা করে আপনি কেবল "এ" এবং আচরণ "বি" এর সাথে গোষ্ঠীবদ্ধ করতে পারেন এবং আপনার বর্ণনায় দুটি প্রজাতির আবিষ্কারকে অন্তর্ভুক্ত করতে পারেন। অথবা, যদি আপনি সত্যিই একটি চার্ট চান তবে কেবল একই অক্ষে দুটি ডেটা সেট ব্যবহার করুন। প্রদত্ত অন্যান্য প্রতিক্রিয়াগুলিতে আমি যে দক্ষতার সন্ধান করি তার কাছে আমার আর কোথাও নেই তাই আমাকে কম "দক্ষ" পদ্ধতি আবিষ্কার করতে হবে। আমি এমন একটি ওয়ার্কশিট পরিবেশে ডেটা বিশ্লেষণ চালাব যেখানে সমীকরণগুলি বিকাশ করা সহজ। তারপর, গ্রুপগুলি সুস্পষ্ট হয়ে গেলে, দুটি পৃথক ডেটা টেবিল তৈরি করে তারপরে চার্ট / গ্রাফে রূপান্তরিত করুন। আমি প্রচুর ডেটা নিয়ে কাজ করি এবং আমি প্রায়শই দেখতে পাই যে পৃথক পারস্পরিক সম্পর্কের আমার অনুমানগুলি ভুল হয়ে যায়; ডেটা আমাদের আবিষ্কার করতে সহায়তা করবে বলে মনে করা হয়। একবার আমি যখন জানতে পারি যে আমার অনুমানগুলি ভুল, আমি সেই আচরণগুলি আবিষ্কার করেছি এবং সেই আচরণগুলি এবং এর ফলে পরিসংখ্যানগত বিশ্লেষণগুলি বর্ণনার অংশ হিসাবে আলোচনা করেছি তার ভিত্তিতে ডেটা প্রদর্শন করি।


1
আমি অবাক হচ্ছি যে আপনি নিম্নচ্যুত হয়েছেন কারণ আপনার উত্তর প্রশ্নের জবাবে কোনও স্পষ্টতা বা অন্তর্দৃষ্টি সরবরাহ করছে না। আপনার উত্তরকে আরও সহায়কভাবে কাঠামো তৈরি করতে হবে এবং প্রতিটি বিন্দুতে আপনি কী উপ-প্রশ্নগুলি সম্বোধন করেছেন তা পরিষ্কার করে দেওয়া দরকার। উত্তরটি উত্তরগুলির মধ্যে এবং আপনার উত্তরের আগে প্রশ্নটি আপডেট করা হয়েছিল যাতে পরিষ্কারভাবে বলা হয় যে বিভিন্ন তথ্য পাওয়া যায়নি যা উদ্ধারযোগ্য নয়।
রিনিব্যাট

2
ক্রস যাচাইয়ে স্বাগতম! আপনার প্রথম উত্তরটি ভালভাবে না পাওয়ায় দয়া করে এড়িয়ে যাবেন না - এবং সহজ সমাধানগুলি খুব দরকারী - অনেক যোগ করা।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.