তথ্যের জন্য পরিসংখ্যানগত পদ্ধতি যেখানে কেবল সর্বনিম্ন / সর্বোচ্চ মান জানা যায়


29

এমন কোনও পরিসংখ্যানের একটি শাখা রয়েছে যা এমন ডেটা নিয়ে কাজ করে যার জন্য সঠিক মানগুলি জানা যায় না , তবে প্রতিটি স্বতন্ত্র ব্যক্তির জন্য, আমরা জানি মানের সাথে সর্বাধিক বা সর্বনিম্ন আবদ্ধ ?

আমি সন্দেহ করি যে আমার সমস্যাটি মূলত এই কারণে এসেছে যে আমি এটিকে পরিসংখ্যানগত দিক থেকে প্রকাশ করতে সংগ্রাম করছি, তবে আশা করি একটি উদাহরণ স্পষ্ট করতে সহায়তা করবে:

বলুন দুটি সংযুক্ত জনগোষ্ঠী হয় A এবং B যেমন যে, এক পর্যায়ে সদস্যদের may "অবস্থান্তর" মধ্যেএকজনবি , কিন্তু বিপরীত সম্ভব নয়। স্থানান্তরের সময় পরিবর্তনশীল, তবে এলোমেলো। উদাহরণস্বরূপ, "পুত্রসন্তান ছাড়া ব্যক্তি" এবং "কমপক্ষে একটি বংশধর ব্যক্তি " হতে পারে could এই অগ্রগতিটি ঘটে তার সাথে আমি আগ্রহী তবে আমার কাছে কেবল ক্রস-বিভাগীয় ডেটা রয়েছে। যে কোনও প্রদত্ত ব্যক্তির জন্য, আমি তারা A বা B সম্পর্কিত কিনা তা জানতে পারি । আমি এই ব্যক্তিদের বয়স জানি। জনসংখ্যার অন্তর্গত প্রত্যেক ব্যক্তির জন্য একটিবিএকজনবিএকজনবিএকজন, আমি জানি যে পরিবর্তনের বয়সটি তাদের বর্তমান বয়সের চেয়ে আরও বড় হবে। তেমনিভাবে, সদস্যদের জন্য বি, আমি জানি যে পরিবর্তনের বয়সটি তাদের বর্তমান বয়সের চেয়ে কম ছিল। তবে আমি সঠিক মান জানি না।

বলুন আমার কাছে আরও কিছু ফ্যাক্টর রয়েছে যা আমি পরিবর্তনের বয়সের সাথে তুলনা করতে চাই। উদাহরণস্বরূপ, আমি জানতে চাই যে কোনও ব্যক্তির উপ-প্রজাতি বা শরীরের আকার প্রথম সন্তানের বয়সকে প্রভাবিত করে কিনা। গড়ে, এ ব্যক্তি: আমি স্পষ্টভাবে কিছু দরকারী তথ্য ঐ প্রশ্ন অবহিত উচিত একজন বয়স্ক ব্যক্তি পরবর্তী রূপান্তরটি করতে হবে। তবে তথ্যটি অসম্পূর্ণ , বিশেষত অল্প বয়স্ক ব্যক্তিদের। এবং জনসংখ্যার বিপরীতে বি

এই ধরণের ডেটা মোকাবেলার জন্য কি কোনও প্রতিষ্ঠিত পদ্ধতি রয়েছে ? আমাকে সঠিক জায়গায় শুরু করার জন্য এই জাতীয় বিশ্লেষণ কীভাবে চালানো যায় তার পুরো পদ্ধতির প্রয়োজন হয় না, কেবলমাত্র কিছু অনুসন্ধান শব্দ বা দরকারী সংস্থান আছে!

ক্যাভেটস: আমি সরলকরণ অনুমান করছি যে একজন থেকে তে স্থানান্তরটি বিতাত্ক্ষণিক। আমি ধরে নিতেও প্রস্তুত আছি যে বেশিরভাগ ব্যক্তি পর্যায়ে উন্নতি করবে বি, তারা ধরে নিচ্ছে তারা দীর্ঘায়িত হবে live এবং আমি বুঝতে পারি যে দ্রাঘিমাংশের ডেটাগুলি খুব সহায়ক হবে, তবে ধরে নিই যে এটি এই ক্ষেত্রে উপলভ্য নয়।

দুঃখিত, এটি যদি একটি সদৃশ হয় তবে আমি যেমন বলেছি, আমার সমস্যার অংশটি হ'ল আমি জানি না যে আমার কী সন্ধান করা উচিত। একই কারণে, যদি উপযুক্ত হয় তবে অন্যান্য ট্যাগ যুক্ত করুন।

নমুনা ডেটাসেট: এসএসপি দুটি বা দুটি উপ-প্রজাতির মধ্যে বা Y নির্দেশ করে । সন্তানসন্ততি কোনও বংশ ( ) বা কমপক্ষে একটি বংশ ( বি ) নির্দেশ করেএক্সওয়াইএকজনবি

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

সম্পাদনা করুন: উদাহরণস্বরূপ ডেটাসেটটি খুব বেশি প্রতিনিধি না হওয়ায় পরিবর্তিত হয়েছে


2
এটি একটি আকর্ষণীয় পরিস্থিতি। আপনি কি আপনার তথ্য সরবরাহ করতে পারেন?
গুং - মনিকা পুনরায়

1
আমি সম্পূর্ণ ডেটাসেট পোস্ট করতে সক্ষম হব না তবে একটি উদাহরণ সেট দিতে পারলাম।
ব্যবহারকারী 2390246

উত্তর:


26

এটি বর্তমান অবস্থা তথ্য হিসাবে উল্লেখ করা হয় । আপনি ডেটাগুলির একটি ক্রস বিভাগীয় দর্শন পেয়েছেন, এবং প্রতিক্রিয়া সম্পর্কে, আপনারা যা জানেন কেবল তা হ'ল প্রতিটি বিষয় পর্যবেক্ষণ করা বয়সে, ইভেন্টটি (আপনার ক্ষেত্রে: এ থেকে বিতে স্থানান্তরিত হয়েছে) ঘটেছে। এটি বিরতি সেন্সর করার একটি বিশেষ ক্ষেত্রে ।

TiআমিCiiCi<TiTX

(li,ri)Tiici(ci,)ci(0,ci)

নির্লজ্জ প্লাগ: আপনি যদি আপনার ডেটা বিশ্লেষণ করতে রিগ্রেশন মডেলগুলি ব্যবহার করতে চান তবে এটি আর এর মাধ্যমে করা যেতে পারে icenReg (আমি লেখক)। প্রকৃতপক্ষে, বর্তমান স্থিতির ডেটা সম্পর্কে একই প্রশ্নে ওপ আইকনরেগ ব্যবহারের একটি দুর্দান্ত ডেমো রেখেছিল । তিনি দেখিয়ে দিয়ে শুরু করেন যে সেন্সরিং অংশটি উপেক্ষা করে এবং লজিস্টিক রিগ্রেশন ব্যবহার করা পক্ষপাতের দিকে পরিচালিত করে (গুরুত্বপূর্ণ দ্রষ্টব্য: তিনি বয়সের সাথে সামঞ্জস্য না করেই লজিস্টিক রিগ্রেশন ব্যবহারের কথা উল্লেখ করছেন । আরও পরে এটি।)

আর একটি দুর্দান্ত প্যাকেজ হ'ল interval, যা অন্যান্য সরঞ্জামগুলির মধ্যে লগ-র‌্যাঙ্কের পরিসংখ্যান পরীক্ষা করে।

সম্পাদনা করুন:

@ এডএম সমস্যার উত্তর দেওয়ার জন্য লজিস্টিক রিগ্রেশন ব্যবহার করার পরামর্শ দিয়েছিল। আমি অন্যায়ভাবে এটি অস্বীকার করে বলেছিলাম যে আপনাকে সময়ের কার্যকারিতা সম্পর্কে চিন্তা করতে হবে। যদিও আপনি সময়টির কার্যকরী ফর্মটি সম্পর্কে আপনার চিন্তিত হওয়া উচিত সেই বিবৃতিটির পেছনে দাঁড়িয়ে আমি বুঝতে পেরেছিলাম যে খুব যুক্তিসঙ্গত রূপান্তর হয়েছে যা যুক্তিসঙ্গত প্যারামিট্রিক অনুমানকারীকে নিয়ে যায়।

বিশেষত, যদি আমরা লজিস্টিক রিগ্রেশন সহ আমাদের মডেলটিতে লভ (সময়) ব্যবহার করি, আমরা লগ-লজিস্টিক বেসলাইন সহ আনুপাতিক প্রতিকূল মডেলটি শেষ করি।

এটি দেখতে, প্রথমে বিবেচনা করুন যে আনুপাতিক প্রতিকূলতা রিগ্রেশন মডেল হিসাবে সংজ্ঞায়িত হয়েছে

Odds(t|X,β)=eXTβOddso(t)

Oddso(t)t

এখন লভ (সময়) সহিত একটি লভিনিস্টিক রিগ্রেশনকে কোভারিয়েট হিসাবে বিবেচনা করুন। আমাদের তখন আছে

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

সামান্য কাজ করে, আপনি এটিকে লগ-লজিস্টিক মডেলের সিডিএফ হিসাবে দেখতে পারেন (প্যারামিটারগুলির অ-লিনিয়ার রূপান্তর সহ)।

ফিটগুলি সমতুল্য: আর

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

নোট করুন যে grpপ্রতিটি মডেল এর প্রভাব একই, এবং চূড়ান্ত লগ-সম্ভাবনা শুধুমাত্র সংখ্যাগত ত্রুটি দ্বারা পৃথক। বেসলাইন প্যারামিটারগুলি (যেমন লজিস্টিক রিগ্রেশনের জন্য ইন্টারসেপ্ট এবং লগ_এজ, ইন্টারভাল সেন্সর করা মডেলের জন্য আলফা এবং বিটা) বিভিন্ন প্যারামিটারাইজেশন তাই সেগুলি সমান নয়।

সুতরাং সেখানে আপনার এটি রয়েছে: লজিস্টিক রিগ্রেশন ব্যবহার করা লগ-লজিস্টিক বেসলাইন বিতরণের সাথে আনুপাতিক বৈষম্যের সাথে সমান। যদি আপনি এই প্যারাম্যাট্রিক মডেলটি ফিট করে ঠিক করেন তবে লজিস্টিক রিগ্রেশন বেশ যুক্তিসঙ্গত। আমি সাবধানতা যে ব্যবধান সেন্সর ডেটা সহ, আধা-স্থিতিমাপ মডেলের সাধারণত নির্ধারণে মডেল হইয়া অসুবিধা কারণে সুবিধাপ্রাপ্ত না, কিন্তু যদি আমি সত্যিই ভেবেছিলাম সম্পূর্ণরূপে স্থিতিমাপ মডেলের আমি তাদের মধ্যে অন্তর্ভুক্ত করা যেত জন্য কোনো স্থান ছিল না icenReg


এটি খুব সহায়ক বলে মনে হচ্ছে। আপনি যে সংস্থানগুলি দেখিয়েছেন এবং আইকেনরেগ প্যাকেজ সহ একটি খেলা আছে তার উপরে আমার নজর থাকবে। আমি কেন লজিস্টিক রিগ্রেশন কম উপযুক্ত - এদিকে আমার মাথা নেওয়ার চেষ্টা করছি - @ এডএম এর পরামর্শটি পৃষ্ঠের দিকে তাকিয়ে যেন এটি কাজ করা উচিত। পক্ষপাতটি কি "ইভেন্ট" - কারণ এখানে বংশধর রয়েছে - বেঁচে থাকার প্রভাব ফেলতে পারে? সুতরাং, যদি এটি বেঁচে থাকার পরিমাণ হ্রাস পায় তবে আমরা দেখতে পাব যে একটি নির্দিষ্ট বয়সের ব্যক্তিদের মধ্যে, যারা পুনরুত্পাদন করেনি তাদেরকে বেশি উপস্থাপন করা হবে?
ব্যবহারকারী 2390246

1
@ ব্যবহারকারী 2390246: আপনি বর্তমান স্থিতির ডেটার জন্য লজিস্টিক রিগ্রেশন ব্যবহার করতে পারেন। তবে তারপরে আপনাকে বয়সের কার্যকরী রূপ পেতে অনেক কাজ করতে হবে এবং অন্যান্য ভেরিয়েবলের সাথে এটি ইন্টারঅ্যাকশন করা সঠিক। এটি অত্যন্ত তুচ্ছ বেঁচে থাকার উপর ভিত্তি করে তৈরি মডেলগুলির সাহায্যে আপনি একটি আধা-প্যারাম্যাট্রিক বেসলাইন ( ic_spইন icenReg) ব্যবহার করতে পারেন এবং সে সম্পর্কে মোটেই চিন্তা করবেন না। তদ্ব্যতীত, দুটি গ্রুপের জন্য টিকে থাকা কার্ভগুলি দেখে আপনার প্রশ্নের সঠিক উত্তর দেয়। লজিস্টিক ফিট থেকে এটি পুনরায় তৈরি করার চেষ্টা করা যেতে পারে তবে বেঁচে থাকার মডেলগুলি ব্যবহার করার চেয়ে আরও অনেক বেশি কাজ।
ক্লিফ এবি

আমি এটি সম্পর্কে ক্লিফএবির সাথে একমত বয়সের উপর নির্ভরতার জন্য সঠিক কার্যকরী ফর্মটি পেতে অসুবিধার কারণে বিশেষত লজিস্টিক রিগ্রেশন বা প্রস্তাব দেওয়ার বিষয়ে আমার দ্বিধা ছিল। বর্তমান স্থিতির ডেটা বিশ্লেষণের সাথে আমার কোনও অভিজ্ঞতা নেই; বয়সের উপর নির্ভরতার যে ফর্মটি বের করতে না পারাই সেই কৌশলটির একটি বড় সুবিধা। তবুও আমি আমার উত্তর রাখব যাতে যারা পরে এই থ্রেডটি পরীক্ষা করে তারা বুঝতে পারে যে এটি কীভাবে কার্যকর হয়েছে।
এডিএম

আমার কাছে মনে হয় আপনার এখানে মন্তব্যটি বিষয়টির কর্কশ। আপনি যদি আপনার উত্তরে এটি বিকাশ করতে পারেন তবে এটি সহায়তা করবে। উদাহরণস্বরূপ, যদি আপনি একটি এলআর মডেল এবং একটি অন্তর সেন্সর করা বেঁচে থাকার মডেল তৈরি করতে ওপি'র উদাহরণ ডেটা ব্যবহার করতে পারেন এবং কীভাবে আরও সহজেই ওপি'র গবেষণা প্রশ্নটির উত্তর দেয় তা দেখান।
গুং - মনিকা পুনরায়

1
@ গুং: আসলে, আমি লজিস্টিক রিগ্রেশন সম্পর্কে একটি নমনীয় অবস্থান নিয়েছি। এটি প্রতিফলিত করার জন্য আমি আমার উত্তর সম্পাদনা করেছি।
ক্লিফ এ বি

4

f(x)F(x)xiif(xi)yi1F(yi)ziF(zi)(yi,zi]F(zi)F(yi)


1
দরকার নেই (এক্স)চলতে থাকবে. বা এমনকি ভাল আচরণ। এটি একটি পৃথক বেঁচে থাকার মডেল হতে পারে (সুতরাং পিডিএফ অপরিবর্তিত এবং পরিবর্তে একটি পিএমএফ ব্যবহার করা হয়) এবং আপনি যা বলেছিলেন তা সঠিক হবে, কিছুটা সামঞ্জস্য করে (প্রতিস্থাপন করুন)এফ(Yআমি) সঙ্গে এফ(Yআমি+ +)
ক্লিফ এবি

4

এই সমস্যাটি মনে হচ্ছে এটি লজিস্টিক রিগ্রেশন দ্বারা ভালভাবে পরিচালনা করা হতে পারে।

আপনার দুটি এবং এ এবং বি রয়েছে এবং কোনও নির্দিষ্ট ব্যক্তি অপরিবর্তনীয়ভাবে রাষ্ট্র এ থেকে রাষ্ট্র বিতে পরিবর্তন করেছেন কিনা তার সম্ভাবনা পরীক্ষা করতে চান এবং পর্যবেক্ষণের সময় একটি মৌলিক ভবিষ্যদ্বাণী পরিবর্তনশীল বয়স হতে পারে। আগ্রহের অন্যান্য উপাদান বা কারণগুলি হ'ল অতিরিক্ত পূর্বাভাসকারী ভেরিয়েবল।

আপনার লজিস্টিক মডেলটি তখন ভবিষ্যদ্বাণীকারীদের একটি ফাংশন হিসাবে রাষ্ট্র বিতে থাকার সম্ভাবনা অনুমান করার জন্য এ / বি রাষ্ট্র, বয়স এবং অন্যান্য কারণগুলির প্রকৃত পর্যবেক্ষণগুলি ব্যবহার করবে। যে বয়সে এই সম্ভাবনা 0.5 কে পাস করবে তা রূপান্তর সময়ের অনুমান হিসাবে ব্যবহার করা যেতে পারে এবং আপনি তারপরে ভবিষ্যদ্বাণী করা সংক্রমণের সময় অন্যান্য ফ্যাক্টরের প্রভাবগুলি পরীক্ষা করতে পারবেন।

আলোচনার জবাবে যুক্ত হয়েছে:

যে কোনও রৈখিক মডেলের মতো, আপনারা নিশ্চিত করতে হবে যে আপনার ভবিষ্যদ্বাণীকারীরা এমনভাবে পরিবর্তিত হয়েছে যাতে তারা ফলাফলের পরিবর্তনশীলের সাথে একটি রৈখিক সম্পর্ক বহন করে, এক্ষেত্রে রাষ্ট্র বিতে চলে যাওয়ার সম্ভাবনার লগ-প্রতিক্রিয়াগুলি অগত্যা নয় একটি তুচ্ছ সমস্যা @ ক্লিফএবের উত্তর দেখায় যে কীভাবে বয়সের চলকের লগ রূপান্তর ব্যবহৃত হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.