অ-ইউনিফর্ম বিনের চেয়ে ইউনিফর্ম-বিন হিস্টোগ্রামটি কখন ভাল?
এটির জন্য আমরা কীটি অপ্টিমাইজ করতে চাই তা কোনও ধরণের সনাক্তকরণের প্রয়োজন; অনেক লোক গড় সংহত গড় বর্গক্ষেত্র ত্রুটি অপ্টিমাইজ করার চেষ্টা করে, তবে অনেক ক্ষেত্রে আমি মনে করি যে কিছুটা হিস্টোগ্রাম করার দিকটি বাদ দেয়; এটি প্রায়শই (আমার চোখে) 'ওভারসুমথস'; হিস্টোগ্রামের মতো অনুসন্ধানের সরঞ্জামের জন্য আমি আরও ভাল রুক্ষতা সহ্য করতে পারি, কারণ রুক্ষতা নিজেই আমাকে বোঝায় যে চোখের দ্বারা আমার কতটা "মসৃণ" হওয়া উচিত; আমি এই জাতীয় নিয়মগুলি থেকে কমপক্ষে বিনের সংখ্যা কমপক্ষে দ্বিগুণ করি, কখনও কখনও এটি আরও ভাল হয় good আমি এ বিষয়ে অ্যান্ড্রু গেলম্যানের সাথে একমত হতে চাই ; সত্যই যদি আমার আগ্রহটি সত্যিই একটি ভাল এআইএমএসই পাচ্ছিল, তবে সম্ভবত আমার কোনও হিস্টোগ্রাম বিবেচনা করা উচিত নয়।
সুতরাং আমাদের একটি মানদণ্ড দরকার।
আমাকে সম-সম-অঞ্চল হিস্টোগ্রামের কয়েকটি বিকল্প নিয়ে আলোচনা করে শুরু করা যাক:
কিছু পন্থা রয়েছে যা নিম্ন ঘনত্বের ক্ষেত্রে বেশি স্মুথিং (কম, আরও বিস্তৃত বিন) এবং ঘনত্ব বেশি যেখানে সংকীর্ণ বিন রয়েছে - যেমন "সমান-অঞ্চল" বা "সমান গণনা" হিস্টোগ্রাম। আপনার সম্পাদিত প্রশ্নটি সমান গণনা সম্ভাবনা বিবেচনা করে বলে মনে হচ্ছে।
histogram
আর এর ফাংশন lattice
প্যাকেজ প্রায় সমান-অঞ্চল বার তৈরী করতে পারে:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
বামতম বাঁদিকের ডানদিকে ডুব দেওয়া আরও পরিষ্কার হয় যদি আপনি চতুর্থ শিকড় গ্রহণ করেন; সমান প্রস্থের বিনের সাহায্যে আপনি এটি দেখতে পারবেন না যতক্ষণ না আপনি যতগুলি বিনের 15 থেকে 20 বার ব্যবহার করেন এবং তারপরে ডান লেজটি ভয়ঙ্কর দেখাচ্ছে।
আর-কোড সহ এখানে একটি সমান-গণনা হিস্টোগ্রাম রয়েছে , যা বিরতিগুলি খুঁজতে স্যাম্পল-কোয়ান্টাইল ব্যবহার করে।
উদাহরণস্বরূপ, উপরের মত একই ডেটাতে, এখানে প্রতিটি 6 টি পর্যবেক্ষণ সহ (আশাকরি) 6 টি বিন রয়েছে:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
এই সিভি প্রশ্নটি ডেনবি এবং মলোজের একটি কাগজের দিকে ইঙ্গিত করে যার একটি সংস্করণ এখান থেকে ডাউনলোডযোগ্য যা সমান প্রস্থের বিন এবং সম-অঞ্চল বিনয়ের মধ্যে একটি সমঝোতার বর্ণনা দেয়।
এটি আপনার কিছুটা প্রশ্নের উত্তরও দিয়েছে।
আপনি সম্ভবত সমস্যাটিকে ধীরে ধীরে ধ্রুবক পোয়েসন প্রক্রিয়াটির বিরতি সনাক্তকরণ হিসাবে বিবেচনা করতে পারেন। যে এই মত কাজ করতে হবে । ক্লিসারিং / শ্রেণিবদ্ধকরণ ধরণের অ্যালগোরিদমগুলি দেখার জন্য সম্পর্কিত সম্ভাবনাও রয়েছে (বলুন) পোয়েসন গণনাগুলিতে, যার মধ্যে কয়েকটি অ্যালগোরিদমগুলি একটি সংখ্যক বিন্দু তৈরি করবে। ক্লাস্টারিং অপেক্ষাকৃত সমজাতীয় অঞ্চলগুলি চিহ্নিত করতে 2 ডি হিস্টোগ্রামে ( চিত্রগুলি , বাস্তবে ) ব্যবহার করা হয়েছে ।
-
আমাদের যদি সমান-গণনা হিস্টোগ্রাম থাকে এবং অনুকূলকরণের জন্য কিছু মানদণ্ড থাকে তবে আমরা প্রতি বিনের বিভিন্ন পরিসংখ্যান চেষ্টা করতে পারি এবং মানদণ্ডকে কোনওভাবে মূল্যায়ন করতে পারি। এখানে উল্লিখিত ওয়ান্ড পেপারে [ কাগজ , বা ওয়ার্কিং পেপার পিডিএফ ] এবং এর কিছু উল্লেখ (যেমন শেদার এট আল পেপারগুলিতে উদাহরণস্বরূপ) এআইএমএসইটিকে অনুকূলিত করার জন্য কার্নেল স্মুথিং আইডিয়াসের ভিত্তিতে বিন প্রস্থ নির্ধারণের "প্লাগ ইন" রূপরেখা; বিস্তৃতভাবে এই ধরণের পদ্ধতির সাথে কথা বলা এই পরিস্থিতির সাথে খাপ খাইয়ে নেওয়া উচিত, যদিও এটি করা দেখে আমার মনে নেই।