ইউনিফর্ম বনাম অ-ইউনিফর্ম বিন সহ হিস্টোগ্রাম


10

এই প্রশ্নটি একটি ইউনিফর্ম এবং নন-ইউনিট হিস্টোগ্রামের মধ্যে মূল পার্থক্য বর্ণনা করে। এবং এই প্রশ্নটিতে অভিন্ন হিস্টোগ্রামের বিনের সংখ্যা বাছাইয়ের জন্য থাম্বের নিয়ম নিয়ে আলোচনা করা হয়েছে যা হিস্টগ্রাম সেই ডিগ্রিটি উপস্থাপন করে যা থেকে ডেটা নমুনাগুলি আঁকানো হয়েছিল optim

ইউনিফর্ম বনাম অ-ইউনিফর্ম হিস্টোগ্রামগুলি সম্পর্কে আমি একই ধরণের "অনুকূলতা" আলোচনার সন্ধান করতে পারি না। আমার অনেক দূরের আউটলিয়ারদের সাথে ক্লাস্টারযুক্ত ননপ্যারামেট্রিক বিতরণ রয়েছে যাতে একটি অ-ইউনিফর্ম হিস্টোগ্রাম স্বজ্ঞাতভাবে আরও জ্ঞান লাভ করে। তবে আমি নিম্নলিখিত দুটি প্রশ্নের আরও সুনির্দিষ্ট বিশ্লেষণ দেখতে পছন্দ করব:

  1. অ-ইউনিফর্ম বিনের চেয়ে ইউনিফর্ম-বিন হিস্টোগ্রামটি কখন ভাল?
  2. অ-ইউনিফর্ম হিস্টোগ্রামের জন্য ভাল সংখ্যক বিন কি?

একটি অ-অভিন্ন হিস্টোগ্রাম জন্য, আমি সবচেয়ে সহজ ক্ষেত্রে যেখানে আমরা নিতে বিবেচিত করছি একটি অজানা বন্টন থেকে নমুনা, যাতে ফলে মান, এবং তাদের মধ্যে আলাদা বিন প্রতিটি বিন হয়েছে যেমন যে এগুলোর নমুনা (বলা যাচ্ছে যে কিছু বৃহৎ পূর্ণসংখ্যা জন্য )। রেঞ্জ মধ্যে মিডপয়েন্ট গ্রহণ করে গঠিত হয় বিন মানগুলির আমি এবং \ মিনিট বিন মানগুলির আমি +1এখানে এবং এখানে লিঙ্কগুলি রয়েছে যা এই ধরণের অ-ইউনিফর্ম হিস্টোগ্রামগুলি বর্ণনা করে।এন কে কেnnk ncকেসিসর্বোচ্চknnckcmaximini+1


উত্তর দেওয়ার জন্য পর্যাপ্ত তথ্য নেই (২)। অ-অভিন্নতার শর্ত কি? আপনি পছন্দ মতো কোনও বিন বেছে নিতে পারেন, বা কিছুটা বাধা আছে? আপনি কী অনুকূলিত করতে চান? উদাহরণস্বরূপ আপনি কি এবং between এর মধ্যে ন্যূনতম গড় সংহত স্কোয়ার ত্রুটি চান ? অথবা অন্য কিছু? ff^
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেেন_বি আমি অ-ইউনিফর্ম বিন মামলায় যে ধরণের হিস্টোগ্রামটি বিবেচনা করছি তা আরও বিশদে বিশদভাবে বর্ণনা করছি।
অ্যালান টুরিং

আপনার সম্পাদনা পরীক্ষা করুন। আপনি "সিএন" এর চেয়ে "এন = সেমি" বোঝাতে চেয়েছিলেন? পরে একটি টাইপও আছে।
গ্লেন_বি -মিনিকা

আপনি কি এই জাতীয় কিছু জানাতে চেষ্টা করছেন ?
গ্লেন_বি

এছাড়াও এবং সাধারণ
হিস্টগ্রামের

উত্তর:


7

অ-ইউনিফর্ম বিনের চেয়ে ইউনিফর্ম-বিন হিস্টোগ্রামটি কখন ভাল?

এটির জন্য আমরা কীটি অপ্টিমাইজ করতে চাই তা কোনও ধরণের সনাক্তকরণের প্রয়োজন; অনেক লোক গড় সংহত গড় বর্গক্ষেত্র ত্রুটি অপ্টিমাইজ করার চেষ্টা করে, তবে অনেক ক্ষেত্রে আমি মনে করি যে কিছুটা হিস্টোগ্রাম করার দিকটি বাদ দেয়; এটি প্রায়শই (আমার চোখে) 'ওভারসুমথস'; হিস্টোগ্রামের মতো অনুসন্ধানের সরঞ্জামের জন্য আমি আরও ভাল রুক্ষতা সহ্য করতে পারি, কারণ রুক্ষতা নিজেই আমাকে বোঝায় যে চোখের দ্বারা আমার কতটা "মসৃণ" হওয়া উচিত; আমি এই জাতীয় নিয়মগুলি থেকে কমপক্ষে বিনের সংখ্যা কমপক্ষে দ্বিগুণ করি, কখনও কখনও এটি আরও ভাল হয় good আমি এ বিষয়ে অ্যান্ড্রু গেলম্যানের সাথে একমত হতে চাই ; সত্যই যদি আমার আগ্রহটি সত্যিই একটি ভাল এআইএমএসই পাচ্ছিল, তবে সম্ভবত আমার কোনও হিস্টোগ্রাম বিবেচনা করা উচিত নয়।

সুতরাং আমাদের একটি মানদণ্ড দরকার।

আমাকে সম-সম-অঞ্চল হিস্টোগ্রামের কয়েকটি বিকল্প নিয়ে আলোচনা করে শুরু করা যাক:

কিছু পন্থা রয়েছে যা নিম্ন ঘনত্বের ক্ষেত্রে বেশি স্মুথিং (কম, আরও বিস্তৃত বিন) এবং ঘনত্ব বেশি যেখানে সংকীর্ণ বিন রয়েছে - যেমন "সমান-অঞ্চল" বা "সমান গণনা" হিস্টোগ্রাম। আপনার সম্পাদিত প্রশ্নটি সমান গণনা সম্ভাবনা বিবেচনা করে বলে মনে হচ্ছে।

histogramআর এর ফাংশন latticeপ্যাকেজ প্রায় সমান-অঞ্চল বার তৈরী করতে পারে:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

সমান প্রস্থ এবং সমান ক্ষেত্রের তুলনা

বামতম বাঁদিকের ডানদিকে ডুব দেওয়া আরও পরিষ্কার হয় যদি আপনি চতুর্থ শিকড় গ্রহণ করেন; সমান প্রস্থের বিনের সাহায্যে আপনি এটি দেখতে পারবেন না যতক্ষণ না আপনি যতগুলি বিনের 15 থেকে 20 বার ব্যবহার করেন এবং তারপরে ডান লেজটি ভয়ঙ্কর দেখাচ্ছে।

আর-কোড সহ এখানে একটি সমান-গণনা হিস্টোগ্রাম রয়েছে , যা বিরতিগুলি খুঁজতে স্যাম্পল-কোয়ান্টাইল ব্যবহার করে।

উদাহরণস্বরূপ, উপরের মত একই ডেটাতে, এখানে প্রতিটি 6 টি পর্যবেক্ষণ সহ (আশাকরি) 6 টি বিন রয়েছে:

সমতুল্য হিস্টোগ্রাম

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

এই সিভি প্রশ্নটি ডেনবি এবং মলোজের একটি কাগজের দিকে ইঙ্গিত করে যার একটি সংস্করণ এখান থেকে ডাউনলোডযোগ্য যা সমান প্রস্থের বিন এবং সম-অঞ্চল বিনয়ের মধ্যে একটি সমঝোতার বর্ণনা দেয়।

এটি আপনার কিছুটা প্রশ্নের উত্তরও দিয়েছে।

আপনি সম্ভবত সমস্যাটিকে ধীরে ধীরে ধ্রুবক পোয়েসন প্রক্রিয়াটির বিরতি সনাক্তকরণ হিসাবে বিবেচনা করতে পারেন। যে এই মত কাজ করতে হবে । ক্লিসারিং / শ্রেণিবদ্ধকরণ ধরণের অ্যালগোরিদমগুলি দেখার জন্য সম্পর্কিত সম্ভাবনাও রয়েছে (বলুন) পোয়েসন গণনাগুলিতে, যার মধ্যে কয়েকটি অ্যালগোরিদমগুলি একটি সংখ্যক বিন্দু তৈরি করবে। ক্লাস্টারিং অপেক্ষাকৃত সমজাতীয় অঞ্চলগুলি চিহ্নিত করতে 2 ডি হিস্টোগ্রামে ( চিত্রগুলি , বাস্তবে ) ব্যবহার করা হয়েছে ।

-

আমাদের যদি সমান-গণনা হিস্টোগ্রাম থাকে এবং অনুকূলকরণের জন্য কিছু মানদণ্ড থাকে তবে আমরা প্রতি বিনের বিভিন্ন পরিসংখ্যান চেষ্টা করতে পারি এবং মানদণ্ডকে কোনওভাবে মূল্যায়ন করতে পারি। এখানে উল্লিখিত ওয়ান্ড পেপারে [ কাগজ , বা ওয়ার্কিং পেপার পিডিএফ ] এবং এর কিছু উল্লেখ (যেমন শেদার এট আল পেপারগুলিতে উদাহরণস্বরূপ) এআইএমএসইটিকে অনুকূলিত করার জন্য কার্নেল স্মুথিং আইডিয়াসের ভিত্তিতে বিন প্রস্থ নির্ধারণের "প্লাগ ইন" রূপরেখা; বিস্তৃতভাবে এই ধরণের পদ্ধতির সাথে কথা বলা এই পরিস্থিতির সাথে খাপ খাইয়ে নেওয়া উচিত, যদিও এটি করা দেখে আমার মনে নেই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.