হিস্টোগ্রাম বিনিংয়ের জন্য ডোনের সূত্র


9

আমি হিস্টোগ্রামগুলির জন্য ব্যবহারযোগ্য সর্বোত্তম সংখ্যক বিনের অনুমান করতে বিভিন্ন অ্যালগরিদম বাস্তবায়ন করছি। আমি যেগুলি প্রয়োগ করছি তার বেশিরভাগগুলি উইকিপিডিয়া "হিস্টোগ্রাম" পৃষ্ঠাতে " বিন এবং প্রস্থের সংখ্যা " * বিভাগে বর্ণিত হয়েছে ।

আমি ডোনের সূত্র নিয়ে কোনও সমস্যায় আটকে আছি:

1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.))

nতথ্য আকার যেখানে ।

সমস্যাটি যখন কুরটোসিস নেতিবাচক হয় এবং কারণটির n >> 1যুক্তিটি logনেতিবাচক হয়।

* (এটি পোস্ট হওয়ার পরে সেই পৃষ্ঠাটি পরিবর্তিত হয়েছে, লিঙ্কটি পোস্টের সময় যেমন ছিল তেমন পৃষ্ঠায় নির্দেশ করতে)


1
আপনি কি জানেন যে সূত্রটি কুর্তোসিস বা অতিরিক্ত কুর্তোসিস ব্যবহার করে (যেমন সাধারণ ডিস্টের 4 বা 0 থাকে)?
পিটার ফ্লুম

@ পিটারফ্লম: মূল কাগজে ( amstat.tandfonline.com/doi/pdf/10.1080/00031305.1976.10479172 ) কুর্তোসিসকে স্কেকনেস হিসাবে সংজ্ঞায়িত করা হয়েছে তবে আমি বিশেষজ্ঞ নই। মূল কাগজটি উইকিপিডিয়া সূত্র থেকেও বেশ আলাদা
রাগেরো তুররা

1
এরর, কী? কুর্তোসিসকে স্কিউনেস হিসাবে সংজ্ঞায়িত করা হয়? এটা বোঝা যায় না; তারা খুব আলাদা। আমি কাগজটি অ্যাক্সেস করতে পারি না, তবে মনে হচ্ছে কোথাও কোথাও কোথাও গোলযোগ হয়েছে।
পিটার ফ্লুম

@PeterFlom সাধারন বন্টন 3 না 4. ক্রুটোসিস থাকা উচিত
Glen_b -Reinstate মনিকা

@ পিটারফ্লম আমি স্কিউনেস বনাম কুর্তোসিস ইস্যুটি তদন্ত করছি - আমার উত্তরে "সম্পাদনা 2" দেখুন।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


11

উইকিপিডিয়া পৃষ্ঠাটি অনুসন্ধান করার সাথে সাথে এই উত্তরটিতে উল্লেখযোগ্য পরিবর্তন হয়েছে। আমি উত্তরগুলি যেমন ছিল তেমনি রেখেছি কিন্তু সেগুলিতে যুক্ত করেছি, সুতরাং বর্তমানে এটি বোঝার অগ্রগতি রূপ দেয়; সর্বশেষ অংশ যেখানে সেরা তথ্য।

সংক্ষিপ্ত উত্তর: উইকিপিডিয়া পৃষ্ঠা - এবং ওপি'র সূত্রটি একই বলে মনে হচ্ছে - কমপক্ষে তিনটি ভিন্ন কারণে কেবল ভুল। আমি আমার আসল আলোচনাটি ছেড়ে যাব (যা ধরে নিয়েছে যে ওপি এবং উইকিপিডিয়াতে এটি সঠিক ছিল) যেহেতু এটি কিছু সমস্যা ব্যাখ্যা করে। আরও ভাল আলোচনা পরে অনুসরণ করা হয়। সংক্ষিপ্ত পরামর্শ: কেবল ডোনেকে ভুলে যান। আপনার যদি এটি অবশ্যই ব্যবহার করে তবে উইকিপিডিয়া এখন যা বলে তা ব্যবহার করুন (আমি এটি ঠিক করেছি)।


আমি বিশ্বাস করি যে সূত্রটি অবশ্যই অতিরিক্ত কুরটোসিসকে বোঝায়; এর জন্য আমার কারণ হ'ল এটি সাধারণ-অ-স্বাভাবিক ডেটার জন্য অ্যাকাউন্ট করার জন্য একটি সূত্র পরিবর্তন করে যাতে আপনি এটি স্বাভাবিকের মধ্যে অবিস্মরণীয় একটিকে পুনরুত্পাদন করার আশা করতে পারেন। এটি যদি আপনি অতিরিক্ত কুরটোসিস ব্যবহার করেন।

এটি অবশ্য এই সমস্যাটি উত্থাপন করে যে লগের শব্দটি বড় নমুনাগুলির সাথে নেতিবাচক হতে পারে (সত্যই, এটি হওয়া সম্ভব) 0 বেশ ছোট n)। আমি এটিকে নেতিবাচক অতিরিক্ত কুর্তোসিসের সাথে ব্যবহার না করার পরামর্শ দেব (আমি এটিকে যে কোনওভাবেই অবিশ্বাস্যতার বাইরে ব্যবহার করব না; জিনিসগুলি মাল্টিমোডাল হয়ে গেলে আপনি প্রতিটি মোডে অতিরিক্ত কুর্তোসিস ধারণাটি প্রয়োগ করতে চান , তাদের উপর মসৃণ নয়!), যদিও হালকা ক্ষেত্রে ( অতিরিক্ত কুর্তোসিস মাত্র 0 এর চেয়ে কম) এবং পরিমিত নমুনার আকার এটি কোনও বড় সমস্যা হবে না।

আমি এটিও পরামর্শ দিয়েছিলাম যে এটি যে কোনও ক্ষেত্রে এটি বৃহত্তর নমুনা আকারগুলিতে খুব কম বিন্দু দিতে চলেছে, এমনকি যখন এটি উদ্দেশ্য হিসাবে কাজ করে।

আপনি এই কাগজটি পেতে পারেন (নিয়মিত সিভিয়ার রব হ্যান্ডম্যান দ্বারা ):

http://www.robjhyndman.com/papers/sturges.pdf

কিছু আগ্রহের। স্টারজেসের যুক্তি যদি ভুল হয় তবে দোনে সূত্রেও একই সমস্যা রয়েছে ... যেমন রব কাগজে স্পষ্টভাবে নোট করেছেন।

সেই কাগজে (এবং এই উত্তরে ) তিনি ফ্রিডম্যান-ডায়াকোনিস বিধিটিকে সম্মতি জানায়। কাগজে তিনি ম্যাট ওয়ান্ডের দ্বারা বর্ণিত পদ্ধতির দিকেও ইঙ্গিত করেছেন (তিনি সেই ওয়ার্কিং পেপারকে উল্লেখ করেছেন যা অনলাইন বলে মনে হয় না, তবে পরবর্তী কাগজটি যদি আপনার অ্যাক্সেস থাকে তবে উপলব্ধ থাকে):

http://www.jstor.org/discover/10.2307/2684697

[সম্পাদনা: কার্যকারী কাগজের একটি লিঙ্কটি সিটিসিয়ার পৃষ্ঠায় রয়েছে ]

অন্তর্নিহিত ঘনত্বের অনুমানের জন্য আনুমানিক সর্বোত্তম (গড় ইন্টিগ্রেটেড স্কোয়ারড ত্রুটি, এমআইএসই) বিন প্রস্থ পাওয়ার জন্য এই পদ্ধতির প্রায় নির্দিষ্ট কার্যকারিতা অনুমানের সাথে জড়িত। যদিও এইগুলি ভাল কাজ করে এবং সাধারণভাবে স্টারজস বা দোয়েনের চেয়ে আরও অনেকগুলি বাঁধন দেয়, কখনও কখনও আমি এখনও আরও বেশি বিন্দু ব্যবহার করতে পছন্দ করি, যদিও এটি সাধারণত খুব ভাল প্রথম প্রচেষ্টা।

সত্যই আমি জানি না যে ওয়ান্ডের পদ্ধতির (বা খুব কমপক্ষে ফ্রেডম্যান ডায়াকোনিস নিয়ম) কোথাও খুব বেশি ডিফল্ট নয়।

কমপক্ষে বিনের সংখ্যার জন্য ফ্রিডম্যান-ডায়াকোনিস গণনাটি অফার করে:

 nclass.FD(rnorm(100))
[1] 11
 nclass.FD(runif(100))
[1] 6
 nclass.FD(rt(100,1))
[1] 71

দেখা ?nclass.FD

ব্যক্তিগতভাবে, আমার পক্ষে এটি কমপক্ষে প্রথম দুটি ক্ষেত্রে খুব কম বিন্দু; আমি এগুলি উভয়ের দ্বিগুণ করতাম যদিও এটি সর্বোত্তমের চেয়ে কিছুটা গোলমাল হতে পারে। এন বড় হওয়ার সাথে সাথে আমার ধারণা এটি বেশিরভাগ ক্ষেত্রেই খুব ভাল হয়।


সম্পাদনা 2:

আমি সিদ্ধান্ত নিয়েছি যে স্কিউনেস বনাম কুর্তোসিস ইস্যুটি @ পিটারফ্লম যথাযথভাবে ধাঁধা প্রকাশ করেছেন।

আমি দোনে পেপার উইসো এর সাথে জড়িত ছিলাম (আমি এটি আগে পড়েছি .... তবে এটি প্রায় 30 বছর আগে ছিল) - এটি কুর্তোসিসের বিষয়ে মোটেই রেফারেন্স দেয় না, কেবল স্কিউনেস-এর জন্য।

ডোনের আসল সূত্রটি হ'ল:Ke=log2(1+g1σg1)

কোথায় Ke যোগ করা বিনের সংখ্যা, g1তৃতীয় মুহুর্তের সঙ্কোচ [আচ্ছা আসলে, দোয়ান, সময়ের মোটামুটি সাধারণ ব্যবহার অনুসরণ করেb1জন্য স্বাক্ষরিত (!) 3 য় মুহূর্ত বক্রতা (স্বরলিপি এর এই প্রবণতা বিশেষ করে অশোভন অপব্যবহার উৎপত্তি বেশ বুড়ো হয়ে যাচ্ছেন আর আমি, এগোতে বলতে চাই যে এটা সৌভাগ্যবশত এখন অনেক কম প্রায়ই দেখতে পাওয়া যাচ্ছে ছাড়া যাচ্ছি না)।]

এখন স্বাভাবিক অবস্থায়, σg1=6(n2)(n+1)(n+3)6n
(যদিও এনটি প্রায় ১০০ না হওয়া অবধি সমীকরণটি বেশ দরিদ্র; দোয়ান প্রথম ফর্মটি ব্যবহার করে)

তবে, মনে হয় যে কেউ কুর্তোসিসের সাথে এটির সাথে খাপ খাইয়ে নেওয়ার চেষ্টা করেছেন ( উদাহরণস্বরূপ, আমি এই উইকিপিডিয়াটি লিখেছিলাম এটি কুর্তোসিসের ক্ষেত্রে রয়েছে, এবং আমি মনে করি না তারা এটি তৈরি করেছেন) - তবে এর স্পষ্ট কারণ রয়েছে সূত্রটি কেবল ভুল বলে বিশ্বাস করতে হবে (নোট করুন যে ব্যবহৃত স্ট্যান্ডার্ড ত্রুটিটি হ'ল আমি উপরের যে তাত্পর্যটি দিয়েছি তার জন্য চূড়ান্ত সন্নিকট)। আমার মনে হয় আমি কুর্তোসিসের এই ব্যবহারটি উইকিপিডিয়া ব্যতীত অন্য বেশ কয়েকটি স্থানে দেখেছি, তবে দোয়ানের কাগজে না থাকার পাশাপাশি এটি স্কটের কাগজে, হাইডম্যান পেপারে বা ইঙ্গিত করে নাই বা ওয়ান্ডের কাগজে উপস্থিত নেই। এটি কোথাও থেকে এসেছে বলে মনে হয়, তবে (যেমন আমি নিশ্চিত যে এটি উইকিপিডিয়াতে আসল নয়), কারণ দোয়ান এর সান্নিধ্য নেইσg1। দেখে মনে হচ্ছে এটি শেষ হওয়ার আগে এটি বেশ কয়েকবার খেলেছে; কেউ যদি এটি ট্র্যাক করে রাখে তবে আমি আগ্রহী।

এটি আমার কাছে এমনভাবে দেখায় যেমন ডোনের যুক্তি সুখে কুর্তোসিস পর্যন্ত প্রসারিত হওয়া উচিত , তবে সঠিক মানের ত্রুটিটি ব্যবহার করতে হবে।

যাইহোক, যেহেতু দোয়েন স্ট্রেজ এবং স্ট্রজের পক্ষে যুক্তি ত্রুটিযুক্ত বলে মনে হচ্ছে, সম্ভবত পুরো উদ্যোগটি নষ্ট হয়ে গেছে। যে কোনও ক্ষেত্রে আমি ত্রুটিটি লক্ষ্য করে উইকিপিডিয়ায় হিস্টোগ্রাম আলাপ পৃষ্ঠাটি সম্পাদনা করেছি।

---

সম্পাদনা 3: আমি উইকিপিডিয়া পৃষ্ঠাটি সংশোধন করেছি (তবে আমি স্কিউনেসের নিখুঁত মূল্য গ্রহণের স্বাধীনতা গ্রহণ করেছি, অন্যথায় দোয়ান-এর মূল সূত্রটি বাম-স্কুও বিতরণের জন্য ব্যবহার করা যাবে না - স্পষ্টতই সংখ্যার বিন্দুর চিহ্নের জন্য) skewness নিরবচ্ছিন্ন)। কঠোরভাবে বলতে গেলে আমার সূত্রটি মূল (ভুল) আকারে উপস্থাপন করা উচিত ছিল, এবং তারপরে এটি কেন বোঝায় না তা ব্যাখ্যা করেছিলেন তবে আমি মনে করি যে এটি বেশ কয়েকটি কারণে সমস্যাযুক্ত - লোকেরা কেবল সূত্রটি অনুলিপি করতে এবং কোনও বিষয়টিকে উপেক্ষা করার জন্য প্রলুব্ধ হবে না ব্যাখ্যা। আমি বিশ্বাস করি এটি আসলে দোয়ানের আসল উদ্দেশ্যকে অন্তর্ভুক্ত করে। যে কোনও ক্ষেত্রে এটি মূলত যে বাজে কথা ছিল তার তুলনায় এটি একটি বিশাল উন্নতি। (দয়া করে, যে কেউ মূল কাগজটি অ্যাক্সেস করতে পারেন, এটি একবারে দেখুন এবং কীভাবেb1 এটি যথাযথভাবে নিশ্চিত করার জন্য উইকিপিডিয়ায় আমার পরিবর্তনগুলি পরীক্ষা করা হয়েছে - কমপক্ষে তিনটি জিনিস ছিল - কুর্তোসিস, মানক ত্রুটি, এবং লগের ভুল ভিত্তি, এবং ডোনের নিজস্ব ছোট ত্রুটি))


আপনাকে অনেক ধন্যবাদ. যাইহোক আমি "দ্য আমেরিকান স্ট্যাটিস্টিস্টিয়ান" এ জাতীয় ত্রুটিটি দেখে অবাক হয়েছি। আমি স্বরলিপিটি কখনও দেখিনিb1
রাগেরো তুরা

সেই স্কেলের ছোট ত্রুটি (নিখুঁত মানের অনুপস্থিতি) জার্নালে খুব কম ঘটে না - বাইরের পরিসংখ্যান আমি আরও বেশি স্পষ্ট (এবং আরও গুরুতর) দেখেছি। স্বরলিপি হিসাবে, এটি আসলে মোটামুটি সাধারণ; উদাহরণস্বরূপ , উদাহরণস্বরূপ , উদাহরণস্বরূপ, ... আমি কয়েক
ডজনকে

2

দ্বিতীয় এবং চতুর্থ মুহুর্তের নিরিখে বর্ণিত কুর্তোসিস পরিমাপ কখনও নেতিবাচক নয় ( দেখুন ), তারপরেও log(1+...)>0

এই পরিমাণটি kurtosis()আর লাইব্রেরি থেকে কমান্ডে প্রয়োগ করা হয় moments। এছাড়াও, কমান্ডটি ব্যবহার করে hist()আপনি বিরতিগুলির সংখ্যা নিম্নলিখিত হিসাবে নির্দিষ্ট করতে পারেন

library(moments)

n <- 250
data <- rnorm(n)

# Sturges formula log_2(n) + 1
hist(data,breaks = "Sturges")

# Doane's formula    
Doane <- 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.))
hist(data,breaks = Doane)

কমান্ডটিতে ব্যবহৃত সূত্রটি kurtosis()সহজভাবে mean((data - mean(data))^4)/mean((data - mean(data))^2)^2

এখন, আপনি যদি `` সেরা '' সূত্রটি তদন্ত করতে চান তবে আপনার মানদণ্ডের প্রয়োজন হবে। বিবেচনা করুন যে এটি laaaaagegely পরিসংখ্যান সাহিত্যে আলোচনা করা হয়েছে।


আমি যা জানি না তা দোনের সূত্রে কুর্তোসিসের সংজ্ঞা কী
রাগ্গেরো তুররা

আপনার পোস্ট করা উইকিপিডিয়া এন্ট্রেতে কুর্তোসিসের সংজ্ঞার লিঙ্ক রয়েছে। ঘটনা, এটি আমার পোস্টের মতোই। এটি দ্বিতীয় নমুনা কেন্দ্রীয় মুহুর্তের বর্গ দ্বারা বিভক্ত চতুর্থ নমুনা কেন্দ্রীয় মুহুর্ত হিসাবে অনুমান করা হয়। দয়া করে কোডটির জন্য আমার সম্পাদনা দেখুন।
মাইলস ডেভিস

1
আবার, আমি পুলিশের সঠিক Doane এর সূত্র যদি আপনি কাগজ উদাহরণস্বরূপ তিনি লগ পরিবর্তে log2 ব্যবহার তাকান জানি না,
Ruggero Turra

ভাল, যে "Doane এর সূত্র" আপনি পোস্ট করা ¬¬ । যাইহোক, log(n,2)পরিবর্তে ব্যবহার করে এটি তুচ্ছভাবে সংশোধন করা যেতে পারে log(n)। কিন্তু, উইকিপিডিয়া প্রবেশের পাশাপাশি অন্যান্য উত্সগুলিও এটি হওয়া উচিত বলে নির্দেশ করে log
মাইলস ডেভিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.