কোনও হিস্টোগ্রামে অন্তরগুলির সংখ্যার উপরের সীমা কি রয়েছে?


10

আমি বইয়ের বেশ কয়েকটি নিবন্ধ এবং অংশগুলি পড়েছি যা কোনও ডেটা সেটের হিস্টোগ্রামের জন্য কীভাবে ভাল সংখ্যক অন্তর (বিন) নির্বাচন করতে হয় তা ব্যাখ্যা করে , তবে আমি ভাবছি যে পয়েন্টের সংখ্যার উপর ভিত্তি করে একটি কঠিন সর্বোচ্চ সংখ্যার অন্তর রয়েছে কিনা? একটি ডেটা সেট, বা অন্য কিছু মানদণ্ড।

পটভূমি: আমি জিজ্ঞাসার কারণটি হ'ল আমি একটি গবেষণামূলক কাগজ থেকে একটি পদ্ধতির ভিত্তিতে সফ্টওয়্যার লেখার চেষ্টা করছি। প্রক্রিয়াটির একটি পদক্ষেপ হ'ল একটি ডেটা সেট থেকে কয়েকটি হিস্টোগ্রাম তৈরি করা, তারপরে একটি বৈশিষ্ট্যযুক্ত ফাংশন (কাগজের লেখক দ্বারা সংজ্ঞায়িত) এর উপর ভিত্তি করে অনুকূল রেজোলিউশনটি চয়ন করুন। আমার সমস্যাটি হ'ল লেখকরা বিরতি পরীক্ষার জন্য সংখ্যার জন্য একটি উপরের গণ্ডির উল্লেখ করেন না। (বিশ্লেষণ করার জন্য আমার কাছে শত শত ডেটাসেট রয়েছে এবং প্রত্যেকের কাছে বিনের আলাদা আলাদা "অনুকূল" সংখ্যা থাকতে পারে Also এছাড়াও, এটি গুরুত্বপূর্ণ যে বিনের অনুকূল সংখ্যাটি নির্বাচন করা গুরুত্বপূর্ণ, সুতরাং ফলস্বরূপ ফলাফলগুলি দেখুন এবং একটি ভাল বাছাই করা যাবে না কাজ।)

উপাত্তের বিন্দুগুলির সীমাবদ্ধতার জন্য কেবল অন্ত্রের সর্বাধিক সংখ্যা নির্ধারণ করা একটি ভাল নির্দেশিকা হতে পারে, বা অন্য কোনও মানদণ্ড যা সাধারণত পরিসংখ্যানগুলিতে ব্যবহৃত হয়?


আপনি কি সমান আকারের বিনগুলি বোঝাচ্ছেন (অর্থাত্ বিনগুলি, যার একই অন্তর রয়েছে)?
অ্যাডাম রাইজকভস্কি

আমি বিশ্বাস করি যে উত্তরটি আপনি প্রয়োগ করার চেষ্টা করছেন সেই অ্যালগরিদমের উপর নির্ভর করবে। আমি মনে করি আপনি যদি গবেষণা গবেষণার কোনও লিঙ্ক সরবরাহ না করেন তবে প্রশ্নটি অসম্পূর্ণ।
অ্যাডাম রাইজকভস্কি

পয়েন্টগুলির সংখ্যা অবশ্যই একটি তাত্ত্বিক সর্বাধিক, তবে এটি প্রায় কোনও হিস্টোগ্রাম নয়, এটি একটি বিজোড় বিন্যাসযুক্ত স্ট্রিপ প্লট বা গালিচা প্লট হতে পারে।
পিটার ফ্লুম

1
আসলে, পয়েন্টের সংখ্যাটি আসলে সর্বাধিক নয়, দুঃখিত, আমার পর্যাপ্ত কফি ছিল না! কিছু বিনের মান 0 হবে eg যেমন ধরুন (একটি হাস্যকর সাধারণ উদাহরণের জন্য) আপনার 3 পয়েন্ট রয়েছে: 1.02 2.21 এবং 5.92। আপনি যদি সত্যিই সর্বাধিক সংখ্যক বিনিন চান, তবে এটি স্পষ্টভাবে ৩ এরও বেশি Pro সম্ভবত 6: 1-2, 2-3, 3-4, 4-5 এবং 5-6 (ডাবল বিন্ন এড়াতে উপযুক্ত উন্মুক্ত এবং বন্ধ বিরতি সহ)
পিটার ফ্লুম

1
@ হুইবার: মানগুলি কোনও কেন্দ্রের থেকে তার কেন্দ্রের থেকে দূরত্বের পরিমাপের একটি সেট যা সাধারণত [0, 1] এ পরিণত হয়। কাগজটি এই দূরত্বগুলিকে বিন্যাস ব্যবহার করে2J বিন, সর্বোত্তম খুঁজে Jহিস্টোগ্রামের পিডিএফ প্লাস পিডিএফ যোগ করার ত্রুটির যোগফলকে (বাইনিং থেকে) হ্রাস করে। আমার বোঝার সেরা।
ওয়েইন

উত্তর:


6

সত্যিই কোনও শক্ত উপরের সীমা নেই, তবে অন্যদিকে, বেশিরভাগ পরিস্থিতিতে, একবার আপনি যদি তাদের নিজস্ব বাক্সে সমস্ত অনন্য পর্যবেক্ষণ পান, সূক্ষ্ম বিনগুলি কেবল আরও কিছু না জানিয়ে তাদের অবস্থানগুলিকে আরও নির্দিষ্টভাবে চিহ্নিত করতে পারে। যেমন এগুলি তুলনা করুন:

30 টি বাক্স সহ হিস্টোগ্রাম
100 টি বিন দিয়ে হিস্টোগ্রাম

কিছু বিশেষ পরিস্থিতিতে ব্যতীত, দ্বিতীয় চক্রান্তে ব্যবহারিক সুবিধা হওয়ার সম্ভাবনা নেই, এবং প্রথমটিতে তেমন কিছু নয়। যদি আপনার ডেটা অবিচ্ছিন্ন থাকে তবে এটি সম্ভবত দরকারী সংখ্যার বিনের বাইরে।

সুতরাং বেশিরভাগ পরিস্থিতিতে, এটি কমপক্ষে একটি ব্যবহারিক উপরের আবদ্ধ মনে হয় - প্রতিটি নিজস্ব বাক্সে অনন্য পর্যবেক্ষণ।

(যদি সেখানে হয় অনন্য পর্যবেক্ষণ প্রতি একাধিক বিন বেনিফিট, আপনি সম্ভবত একটি rugplot বা কাঁপিয়ে দিয়েছিল stripchart তথ্য যে ধরনের পেতে কাজ করা উচিত) - এসব histograms এর মার্জিন মধ্যে সম্পন্ন ভালো কিছু:

হিস্টগ্রাম রাগপ্লট সাথে জিটার
স্ট্রিপচার্ট সহ হিস্টোগ্রাম

( এই উত্তরগুলি শেষের নিকটে, এই উত্তর থেকে নেওয়া হয়েছে )


5

প্রচুর পরিমাণে বিনা রাখার জন্য একটি ভাল কেস রয়েছে, যেমন প্রতিটি সম্ভাব্য মানের জন্য বিন, যখনই সন্দেহ করা হয় যে কোনও হিস্টগ্রামের বিশদটি গোলমাল করবে না, তবে আকর্ষণীয় বা গুরুত্বপূর্ণ সূক্ষ্ম কাঠামো।

এটি সরাসরি এই প্রশ্নের সুনির্দিষ্ট প্রেরণার সাথে সংযুক্ত নয়, কিছু বিন্যাসের সর্বোত্তম সংখ্যার জন্য একটি স্বয়ংক্রিয় নিয়ম চাই, তবে এটি সামগ্রিকভাবে প্রশ্নের সাথে প্রাসঙ্গিক।

আসুন উদাহরণের সাথে সাথে ঝাঁপিয়ে পড়ি। ডেমোগ্রাফিতে রিপোর্ট বয়সের বৃত্তাকার সাধারণ হয়, বিশেষত তবে কেবল সীমিত সাক্ষরতার দেশ নয়। কি ঘটতে পারে তা হ'ল অনেকেই তাদের জন্মের সঠিক তারিখ জানেন না বা তাদের বয়স বাড়াবাড়ির জন্য বা অতিরঞ্জিত করার জন্য সামাজিক বা ব্যক্তিগত কারণ রয়েছে। সশস্ত্র বাহিনীতে এড়াতে বা পরিষেবা নিতে লোকেরা তাদের বয়স সম্পর্কে মিথ্যা বলার উদাহরণগুলির সাথে মিলিটারি ইতিহাস পূর্ণ। প্রকৃতপক্ষে অনেক পাঠক এমন কাউকে জানতে পারবেন যিনি খুব বোকা বা অন্যথায় তাদের বয়স সম্পর্কে পুরোপুরি সত্যবাদী না, এমনকি যদি তারা এটি একটি আদমশুমারিতে মিথ্যা না বলে থাকে। নেট ফলাফল পরিবর্তিত হয় তবে ইতিমধ্যে বর্ণিত হিসাবে সাধারণত বৃত্তাকার হয়, উদাহরণস্বরূপ 0 এবং 5 এ শেষ হওয়া বয়সগুলি এক বছরের কম বা তার বেশি বয়সের তুলনায় অনেক বেশি সাধারণ।

বেশিরভাগ সমস্যার জন্যও ডিজিটাল পছন্দগুলির অনুরূপ ঘটনাটি সাধারণ। কিছু পুরানো ধরণের পরিমাপ পদ্ধতির সাহায্যে একটি রিপোর্ট করা পরিমাপের শেষ অঙ্কটি স্নাতক প্রাপ্ত চিহ্নগুলির মধ্যে ফাঁকে ফাঁকে ফাঁকে চোখে দেখে নেওয়া উচিত। পারদ থার্মোমিটার সহ এটি আবহাওয়াবিদ্যায় দীর্ঘ স্ট্যান্ডার্ড ছিল। দেখা গেছে যে সম্মিলিতভাবে কিছু রিপোর্ট করা অঙ্কগুলি অন্যের চেয়ে বেশি সাধারণ এবং স্বতন্ত্রভাবে আমাদের অনেকের স্বাক্ষর রয়েছে যা অন্যের চেয়ে কিছু সংখ্যার পক্ষে যাওয়ার ব্যক্তিগত প্যাটার্ন। এখানে সাধারণ রেফারেন্স বিতরণটি অভিন্ন, অর্থাৎ যতক্ষণ সম্ভব পরিমাপের পরিসীমা পরিমাপের "ইউনিট" এর চেয়ে বহুগুণ বেশি, চূড়ান্ত অঙ্কগুলি সমান ফ্রিকোয়েন্সি সহ ঘটবে বলে আশা করা যায়। সুতরাং যদি প্রতিবেদনিত ছায়াযুক্ত তাপমাত্রা 50 বলে (বলুন) বিস্তৃত করতে পারেসি দশটি শেষ অঙ্ক, একটি ডিগ্রির ভগ্নাংশ .0, .1, , .8, .9 এর প্রতিটি সম্ভাব্যতা 0.1 এর সাথে দেখা উচিত। এই সীমিতকরণের গুণমানটি আরও সীমিত পরিসরের জন্যও ভাল হওয়া উচিত।

ঘটনাক্রমে, রিপোর্ট করা তথ্যের শেষ সংখ্যাগুলি দেখানো বানোয়াট তথ্যগুলির জন্য চেক করার একটি সহজ এবং ভাল পদ্ধতি, এটি বেনফোর্ডের আইনে আবেদন করে প্রথম অঙ্কগুলির বর্তমানে ফ্যাশনেবল তদন্তের চেয়ে বোঝা অনেক সহজ এবং কম সমস্যাযুক্ত।

হিস্টোগ্রামগুলির জন্য আপলোডটি এখন পরিষ্কার হওয়া উচিত। একটি স্পাইকের মতো উপস্থাপনাটি এই জাতীয় সূক্ষ্ম কাঠামো দেখানোর জন্য বা আরও সাধারণভাবে পরীক্ষা করার জন্য পরিবেশন করতে পারে। স্বাভাবিকভাবেই, যদি আগ্রহের কিছুই বিবেচনা না করা হয় তবে গ্রাফটি খুব কম ব্যবহারের হতে পারে।

একটি উদাহরণ 1960 সালের জন্য ঘানা আদমশুমারি থেকে বয়সের apালু দেখায় http:// http://www.stata.com/manouts13/rspikeplot.pdf দেখুন

এখানে চূড়ান্ত অঙ্কগুলির বিতরণের একটি ভাল পর্যালোচনা ছিল

প্রিস, ডিএ 1981. ডেটাতে চূড়ান্ত অঙ্কগুলির বিতরণ। পরিসংখ্যানবিদ 30: 31-60।

পরিভাষা সম্পর্কিত একটি নোট: কিছু লোক কোনও ভেরিয়েবলের স্বতন্ত্র মূল্যবোধ সম্পর্কে লিখেন যখন তারা কোনও ভেরিয়েবলের স্বতন্ত্র মানগুলির বিষয়ে আরও ভাল কথা বলবেন। শব্দকোষ এবং ব্যবহারের গাইডগুলি এখনও পরামর্শ দেয় যে "অনন্য" অর্থ কেবল একবারে ঘটেছিল। সুতরাং জনসংখ্যার পৃথকভাবে বর্ণিত বয়সগুলি, বছরগুলিতে, 0, 1, 2 ইত্যাদি হতে পারে তবে এই বয়সগুলির বৃহত সংখ্যাগরিষ্ঠতা কোনও ব্যক্তির পক্ষে স্বতন্ত্র হবে না।


4

কোনও হিস্টোগ্রামে বিনের সংখ্যার জন্য কোনও শক্ত সর্বাধিক নেই। যদি ভেরিয়েবল প্লট করা হচ্ছে অবিচ্ছিন্ন হয়, তবে অসীম সংখ্যার বিভাগগুলির জন্য একটি যুক্তি তৈরি করা যেতে পারে (এবং হিস্টগ্রাম মূলত একটি গালিচা প্লট হয়ে যায়)।

ডেটা সেটে পয়েন্টের সংখ্যা একটি উপযুক্ত উপরের বাউন্ড নয়। দুটি মান: 1 এবং 1000 সমেত একটি ডেটা সেট বিবেচনা করুন two দুটি বিন থাকা যথাযথ হবে না।

উপরের-বাউন্ড নির্ধারণের জন্য দুটি ব্যবহারিক পদ্ধতি হ'ল: ক) ডেটার অন্তর্নিহিত বৃত্ত নির্ধারণ করা। উদাহরণস্বরূপ, যদি ডেটাটি পূর্ণসংখ্যার হয় তবে এটি বিন্যাসগুলি পূর্ণ সংখ্যার প্রস্থে থাকা বোঝায়। খ) সর্বাধিক দৃশ্যমান রেজোলিউশন (উদাহরণস্বরূপ, অনুভূমিক মাত্রায় পিক্সেলের সংখ্যা যা প্লট করার জন্য ব্যবহার করা যেতে পারে) তাকিয়ে রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.