2 ডি হিস্টোগ্রামের জন্য ফিটের সদল্য


19

স্টার প্যারামিটারগুলি উপস্থাপন করে আমার কাছে দুটি সেট ডেটা রয়েছে: একটি পর্যবেক্ষণকৃত এবং একটি মডেলড। এই সেটগুলির সাহায্যে আমি তৈরি করি যা ডু-কালার ডায়াগ্রাম (টিসিডি) বলে। একটি নমুনা এখানে দেখা যায়:

histogramas

একটি পর্যবেক্ষণকৃত ডেটা এবং বি মডেল থেকে প্রাপ্ত ডেটা (কালো রেখাগুলি মনে করবেন না, বিন্দুগুলি ডেটা উপস্থাপন করে না) আমার কাছে কেবল একটি ডায়াগ্রাম রয়েছে, তবে আমি যতটা চাই বি বিচিত্র চিত্র তৈরি করতে পারি এবং আমার যা প্রয়োজন এক যে ভাল দেখাচ্ছে রাখার একটি

সুতরাং আমার যা প্রয়োজন তা হ'ল ডায়াগ্রাম বি (মডেল) থেকে ডায়াগ্রাম (পর্যবেক্ষণ) এর ফিটের ভালতা যাচাই করার একটি নির্ভরযোগ্য উপায় ।

এখনই আমি যা করি তা হ'ল আমি প্রতিটি ডায়াগ্রামের জন্য উভয় অক্ষকে (প্রতিটিটির জন্য ১০০ টি বিন) বিন্ন করে একটি 2 ডি হিস্টগ্রাম বা গ্রিড তৈরি করি (এটিই আমি বলে থাকি, সম্ভবত এটির আরও সঠিক নাম রয়েছে) তারপর আমি গ্রিডের প্রতিটি কক্ষের মধ্য দিয়ে যাই এবং আমি সেই নির্দিষ্ট কক্ষের জন্য A এবং B এর মধ্যে গণনাগুলির মধ্যে সম্পূর্ণ পার্থক্য খুঁজে পাই । সমস্ত কক্ষের মধ্য দিয়ে যাওয়ার পরে, আমি প্রতিটি কক্ষের মানগুলি যোগ করি এবং তাই আমি A এবং B এর মধ্যে ফিট ( ) এর সদ্ব্যবহারকে উপস্থাপন করে একটি একক ধনাত্মক প্যারামিটার দিয়ে শেষ করি । শূন্যের নিকটতম, ফিট তত ভাল। মূলত, এটি প্যারামিটারের মতো দেখাচ্ছে:gf

gf=ij|aijbij|; যেখানে হল সেই নির্দিষ্ট কক্ষের জন্য ডায়াগ্রাম এ- এর তারার সংখ্যা ( দ্বারা নির্ধারিত ) এবং B বি এর জন্য সংখ্যা ।aijijbij

এই সেই হয় গন্য প্রতিটি সেল বর্ণন মত পার্থক্য গ্রিড আমি (নোট যে আমি পরম মান ব্যবহার করছি না তৈরি এই ছবিতে কিন্তু আমি কি করতে যখন গণক তাদের ব্যবহার প্যারামিটার):(aijbij)(aijbij)gf

Hess

সমস্যাটি হ'ল আমাকে পরামর্শ দেওয়া হয়েছে যে এটি ভাল অনুমানক নাও হতে পারে, মূলত কারণ প্যারামিটারটি কম হওয়ায় এই ফিটটি এই অন্যটির চেয়ে ভাল is কারণ সত্যই আমি আরও কিছু বলতে পারি না।


গুরুত্বপূর্ণ :

(এটি আনার জন্য @ পিটারএলিসকে ধন্যবাদ)

1- এর পয়েন্টগুলি A এর সাথে পয়েন্টগুলির সাথে একের সাথে সম্পর্কিত নয় । যে যখন ভাল হইয়া অনুসন্ধানের জন্য মনে রাখতে হবে একটি গুরুত্বপূর্ণ জিনিস: এ বিন্দুর সংখ্যা একটি এবং বি হয় না অগত্যা একই এবং হইয়া ধার্মিকতা পরীক্ষা এই অমিল হিসাব এবং এটি কমানোর জন্য চেষ্টা করা উচিত।

2- যে বিন্দুর সংখ্যা বি ডেটা সেট (মডেল আউটপুট) আমি হইয়া চেষ্টা একজন হয় না ঠিক করেছি।


আমি কিছু ক্ষেত্রে ব্যবহৃত চি-স্কোয়ার্ড পরীক্ষাটি দেখেছি :

i(OiEi)2/Ei ; যেখানে ফ্রিকোয়েন্সি (মডেল) এবং প্রত্যাশিত ফ্রিকোয়েন্সি (পর্যবেক্ষণ) পর্যবেক্ষণ করা হয়।OiEi

তবে সমস্যাটি হল: শূন্য হলে আমি কী করব ? উপরের চিত্রটিতে আপনি দেখতে পাচ্ছেন, আমি যদি এই ব্যাপ্তিতে এই চিত্রগুলির একটি গ্রিড তৈরি করি তবে অনেকগুলি ঘর থাকবে যেখানে শূন্য।EiEi

এছাড়াও, আমি পড়েছি কিছু লোক লস্ট সম্ভাবনা পোইসন টেস্টের ক্ষেত্রে হিস্টোগ্রামের সাথে জড়িত এমন ক্ষেত্রে প্রয়োগ করার পরামর্শ দেয় । যদি এটি সঠিক হয় তবে কেউ যদি এই নির্দিষ্ট ক্ষেত্রে সেই পরীক্ষাটি কীভাবে ব্যবহার করতে পারেন সে সম্পর্কে আমাকে নির্দেশ দিতে পারলে আমি সত্যিই এটির প্রশংসা করব (মনে রাখবেন, পরিসংখ্যান সম্পর্কে আমার জ্ঞানটি খুব খারাপ নয়, সুতরাং দয়া করে এটি যথাসাধ্য রাখুন :)


এ-এর পয়েন্টগুলির সাথে খ-এর পয়েন্টগুলির কি এক-একের সম্পর্ক রয়েছে (উদাহরণস্বরূপ প্রত্যেকেই একটি নির্দিষ্ট তারকা) বা এটি এর চেয়ে আরও বিমূর্ত?
পিটার এলিস

হাই @PeterEllis, কোন পয়েন্ট বি এর সাথে সম্পর্কিত করা হয় না এক টু এক পয়েন্ট সঙ্গে একটি । বস্তুত যখন ভাল হইয়া অনুসন্ধানের জন্য মনে রাখা আরেকটি গুরুত্বপূর্ণ জিনিস যে: বিন্দুর সংখ্যা একটি এবং বি হয় না অগত্যা সমান।
গ্যাব্রিয়েল

হাই - আকর্ষণীয় প্রশ্ন, আমি একটি সঠিক উত্তর লেখার চেষ্টা করব। বি এর প্রতিটি সংস্করণ কি একই সংখ্যক পয়েন্ট, বা সেগুলিও আলাদা?
পিটার এলিস

সেগুলি খুব আলাদা হয়, পয়েন্ট মাত্র সংখ্যা একটি ধ্রুবক। আপনি যদি পিটারএলিসকে এটি নির্ধারণ করতে আমাকে সহায়তা করেন তবে আপনি আমাকে কতটা সহায়তা করছেন তা আপনার কোনও ধারণা নেই।
গ্যাব্রিয়েল

এই প্রশ্নটি এই বিষয়টির সাথে একটি দৃ strong সাদৃশ্য বহন করে: stats.stackexchange.com/questions/71036/… যেখানে আমি একটি উত্তর সরবরাহ করেছি।
এল ফিশম্যান

উত্তর:


14

ঠিক আছে, আমি এই উত্তরটি ব্যাপকভাবে সংশোধন করেছি। আমি মনে করি আপনার ডেটা বিন্যাস এবং প্রতিটি বিনে গণনা তুলনা করার পরিবর্তে, আমি আমার 2 ডি কার্নেল ঘনত্বের প্রাক্কলন ফিট করে এবং তার সাথে তুলনা করার মূল উত্তরটি রেখেছি যে পরামর্শটি আরও ভাল ধারণা। আরও ভাল, আর এর জন্য টার্ন ডুংয়ের কেএস প্যাকেজে কেডেস্টেস্ট () ফাংশন রয়েছে যা পাই হিসাবে সহজ করে তোলে ।

আরও বিশদ বিবরণ এবং আপনি যে টুইটগুলি তাত্ক্ষণিক করতে পারেন তার জন্য ডকুমেন্টেশন কেডি.এস্টের জন্য পরীক্ষা করুন। তবে মূলত এটি আপনি যা চান ঠিক তেমন করে। এটি যে পি মানটি দেয় তা হ'ল নাল অনুমানের অধীনে আপনি তুলনা করছেন যে দুটি সেট ডেটা তৈরি করার সম্ভাবনা যা তারা একই বিতরণ থেকে উত্পন্ন হয়েছিল। সুতরাং পি-মানটি যত বেশি হবে, এ এবং বি এর মধ্যে তত ভাল below নীচের আমার উদাহরণটি দেখুন যেখানে এটি সহজেই তুলে ধরে যে বি 1 এবং এ পৃথক, তবে বি 2 এবং এ নির্দোষভাবে একই (এটি কীভাবে উত্পন্ন হয়েছিল) ।

# generate some data that at least looks a bit similar
generate <- function(n, displ=1, perturb=1){
    BV <- rnorm(n, 1*displ, 0.4*perturb)
    UB <- -2*displ + BV + exp(rnorm(n,0,.3*perturb))
    data.frame(BV, UB)
}
set.seed(100)
A <- generate(300)
B1 <- generate(500, 0.9, 1.2)
B2 <- generate(100, 1, 1)
AandB <- rbind(A,B1, B2)
AandB$type <- rep(c("A", "B1", "B2"), c(300,500,100))

# plot
p <- ggplot(AandB, aes(x=BV, y=UB)) + facet_grid(~type) + 
    geom_smooth() +     scale_y_reverse() + theme_grey(9)
win.graph(7,3)
p +geom_point(size=.7)

এখানে চিত্র বর্ণনা লিখুন

> library(ks)
> kde.test(x1=as.matrix(A), x2=as.matrix(B1))$pvalue
[1] 2.213532e-05
> kde.test(x1=as.matrix(A), x2=as.matrix(B2))$pvalue
[1] 0.5769637

আমার মূল উত্তরটি নীচে, কেবলমাত্র ইলিশের কাছ থেকে এখনই লিঙ্ক রয়েছে, যা সংবেদন করতে পারবে না B

প্রথমত, এটি সম্পর্কে অন্যান্য উপায় থাকতে পারে।

জাস্টেল এট আল কোলমোগোরভ -স্মারনভের ফিটের সদ্ব্যবহারের পরীক্ষার একটি মাল্টিভিয়ারেট এক্সটেনশন এগিয়ে রেখেছেন যা আমি মনে করি যে আপনার ক্ষেত্রে ব্যবহার করা যেতে পারে, মডেলিং ডাটাগুলির প্রতিটি সেটটি কতটা মূলের সাথে উপযুক্ত। আমি এর বাস্তবায়ন খুঁজে পাইনি (উদাহরণস্বরূপ আর এ) তবে সম্ভবত আমি যথেষ্ট কঠিন দেখিনি।

বিকল্পভাবে, মূল ডেটা এবং মডেল করা ডেটার প্রতিটি সেটে একটি কপুলা ফিট করে এবং তারপরে সেই মডেলগুলির সাথে তুলনা করে এটি করার একটি উপায় থাকতে পারে । আর এবং অন্যান্য জায়গায় এই পদ্ধতির বাস্তবায়ন রয়েছে তবে আমি তাদের সাথে বিশেষভাবে পরিচিত নই তাই চেষ্টা করি নি।

তবে আপনার প্রশ্নের সরাসরি সমাধানের জন্য, আপনি যে পদ্ধতি গ্রহণ করেছেন তা হ'ল যুক্তিসঙ্গত। বেশ কয়েকটি পয়েন্ট তাদের নিজেদের পরামর্শ দেয়:

  • আপনার ডেটা সেটটি দেখতে যত বড় মনে হচ্ছে তার চেয়ে বড় না হলে আমি মনে করি 100 x 100 গ্রিডটি অনেকগুলি বিন্যাস। স্বজ্ঞাতভাবে, আমি কল্পনা করতে পারি যে আপনি বিভিন্ন ধরণের তথ্য উপাত্তের চেয়ে বেশি ভিন্ন ভিন্ন তা কেবল আপনার বিনয়ের যথাযথতার কারণে অর্থ উপাত্তের ঘনত্ব বেশি থাকা সত্ত্বেও আপনার কাছে কম সংখ্যক পয়েন্ট রয়েছে low তবে শেষ পর্যন্ত এটি বিচারের বিষয়। আমি অবশ্যই আপনার ফলাফলগুলি বেনিংয়ের বিভিন্ন পদ্ধতির সাথে যাচাই করব।

  • একবার আপনি আপনার বিনিং হয়ে গেলে এবং আপনি আপনার তথ্যকে (ফলস্বরূপ) দুটি কলাম এবং বিনের সংখ্যার সমান সারি সংখ্যার (আপনার ক্ষেত্রে 10,000) সংখ্যার একটি অবিচ্ছিন্ন সারণীতে রূপান্তরিত করার পরে, আপনার দুটি কলামের তুলনা করার একটি মানক সমস্যা আছে গণনা। হয় চি স্কোয়ার পরীক্ষা বা কোনও ধরণের পোইসন মডেল কাজ করবে তবে আপনি যেমন বলছেন সেখানে প্রচুর শূন্যের সংখ্যার কারণে বিশৃঙ্খলা রয়েছে। এই মডেলগুলির মধ্যে দুটিই সাধারণত পার্থক্যগুলির স্কোয়ারের পরিমাণ হ্রাস করে ফিট করে, প্রত্যাশিত সংখ্যার বিপরীত দ্বারা ভারিত; যখন এটি শূন্যের কাছে পৌঁছায় এটি সমস্যার কারণ হতে পারে।

সম্পাদনা করুন - এই উত্তরটির বাকী অংশগুলি আমি এখন আর একটি উপযুক্ত পদ্ধতিরূপে বিশ্বাস করি না।

এন×2

এন×2এন

আমি আপনার মতো দেখতে কিছু তথ্য সিমুলেটেড করে দেখতে পেলাম যে "A" হিসাবে একই প্রক্রিয়া থেকে আমার "বি" সেটগুলির কোনটি সেট করা হয়েছিল এবং এটি কিছুটা আলাদা ছিল তা সনাক্ত করতে এই পদ্ধতিটি বেশ কার্যকর ছিল। খালি চোখের চেয়ে অবশ্যই বেশি কার্যকর।

  • এন×2আপনি যদি সম্পূর্ণরূপে প্রস্তাব করেন তবে নিখুঁত পার্থক্য বা বর্গক্ষেত্রের পার্থক্যের যোগফল ব্যবহার করে একটি সমস্যা)। তবে এটি বিবেচ্য নয় যে আপনার বি এর প্রতিটি সংস্করণের আলাদা আলাদা সংখ্যা রয়েছে number মূলত, বৃহত্তর বি ডেটা সেটগুলিতে নিম্ন পি-মানগুলি ফেরত দেওয়ার প্রবণতা থাকবে। আমি এই সমস্যার বেশ কয়েকটি সম্ভাব্য সমাধান সম্পর্কে ভাবতে পারি। ১. আপনি যে আকারের চেয়ে বড় সেগুলি সমস্ত বি সেট থেকে এলোমেলোভাবে নমুনা গ্রহণ করে আপনার সমস্ত বি সেটের ডেটা একই আকারে (আপনার বি সেটগুলির ক্ষুদ্রতমের আকার) হ্রাস করতে পারবেন। ২. আপনি প্রথমে আপনার প্রতিটি বি সেটের দ্বিমাত্রিক কার্নেল ঘনত্বের অনুমানের সাথে ফিট করতে পারেন এবং তারপরে সমান আকারের সেই অনুমান থেকে ডেটা সিমুলেট করতে পারেন। ৩. আপনি পি-মানগুলির আকারের সাথে সম্পর্ক স্থাপনের জন্য কিছু ধরণের সিমুলেশন ব্যবহার করতে পারেন এবং এটি "সংশোধন" করতে পারেন উপরোক্ত পদ্ধতি থেকে আপনি যে পি-মানগুলি পেয়েছেন তা তুলনামূলক। সম্ভবত অন্যান্য বিকল্পগুলিও রয়েছে। আপনি কোনটি বি কীভাবে কীভাবে উত্পন্ন হয়েছিল, আকারগুলি কতগুলি আলাদা ইত্যাদি নির্ভর করবে depend

আশা করি এইটি কাজ করবে.


আমি কয়েকটি ছোটখাটো টাইপো সংশোধন করেছি; আমি আশা করি আপনি কিছু মনে করবেন না। মূল ধারণাগুলি কিছুটা আরও সুস্পষ্টভাবে আঁকতে জিনিস ফর্ম্যাট করার একটি উপায় থাকতে পারে, বিশেষত শেষ বুলেট পয়েন্টে। তবে, আমিও অত্যধিক হতাশ হতে চাইনি। চিয়ার্স। :)
কার্ডিনাল

কোন প্রব আমি আমার শেষ বুলেট পয়েন্টের ফর্ম্যাট করার ভাল উপায় নিয়ে সংগ্রাম করেছি - আমি যা চেয়েছিলাম তা বুলেট পয়েন্টের নীচে সংখ্যাযুক্ত তালিকার একটি শ্রেণিবিন্যাস ছিল। কিন্তু আমি কীভাবে এটি করতে পারি তা খুঁজে পেলাম না।
পিটার এলিস

হ্যাঁ, আমি এটির সাথেও সংক্ষেপে বললাম, কারণ এটি মনে হচ্ছে আপনার ইচ্ছা মতো। কীভাবে তা করব তাড়াতাড়ি আমি বুঝতে পারছিলাম না এবং লেআউটে পাইকারি পরিবর্তন করতে খুব দ্বিধা বোধ করছিলাম, সুতরাং আমি বুঝতে পেরেছিলাম যে আমি কেবল তার পরিবর্তে মন্তব্য করব। :)
কার্ডিনাল

1
আমি উইলকক্সের বইটিকে একটি সাধারণ পরিসংখ্যান পাঠ্য হিসাবে সুপারিশ করি যা আর ব্যবহার করে (আমার উত্তর stats.stackex بدل . com / ক্র্যাশনস / 25632/… দেখুন )। যদিও তিনি ফিশারের সঠিক পাঠ্যটি আবৃত করেননি, ওয়েবে সুনির্দিষ্ট পাঠ্যের পর্যাপ্ত বিবরণ রয়েছে যা আপনি যদি অনুরূপ পরীক্ষাগুলিতে সেই বইয়ের পটভূমি পেয়ে থাকেন তবে আরও বোধগম্য হবে। ফিট সমস্যার এই ধরণের ধার্মিকতার জন্য আরও ভাল পাঠ্য থাকতে পারে তবে আমি মনে করি উইলকক্সের বইটি একটি সাধারণ পরিচয় হিসাবে দুর্দান্ত যা আপনাকে দ্রুত আপনাকে একটি উচ্চ স্তরে নিয়ে যায়।
পিটার এলিস

1
কি দারুন. আপনি এই জিনিস থেকে হ্যাক উত্তর দিয়েছেন। যদি কোনও "স্ট্যাকেক্সচেঞ্জের সেরা" থাকে তবে এটি এটিতে থাকবে।
কলিন কে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.