আমি ভাবছিলাম কীভাবে একটি বক্সপ্ল্যাট ব্যবহার করে ভেরিয়েবলের বৈকল্পিকতা হ্রাস করতে পারি। যদি দুটি ভেরিয়েবলের তাদের বক্সপ্লট পর্যবেক্ষণের একই বৈকল্পিক থাকে তবে এটি কি কমিয়ে আনা সম্ভব?
আমি ভাবছিলাম কীভাবে একটি বক্সপ্ল্যাট ব্যবহার করে ভেরিয়েবলের বৈকল্পিকতা হ্রাস করতে পারি। যদি দুটি ভেরিয়েবলের তাদের বক্সপ্লট পর্যবেক্ষণের একই বৈকল্পিক থাকে তবে এটি কি কমিয়ে আনা সম্ভব?
উত্তর:
অনেক কঠোর অনুমান ছাড়া না, না। আপনি যদি উত্তরটি হ্যাঁ ধরে নেন (জিজ্ঞাসা করার পরিবর্তে, যার জন্য আমি আপনাকে সাধুবাদ জানাই) তবে আমি বাজি ধরতে পারি আমি আপনাকে এই (পাল্টা) উদাহরণ দিয়ে বোকা বানাতে পারি:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
দেখতে অনেকটা একই রকম, তাই না? তবুও !
কোড থেকে এটি পরিষ্কার না হলে জনসংখ্যা 2
হ'ল:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
এবং না, আপনি অনুমান করতে পারবেন না যে এই জনসংখ্যাটি কেবলমাত্র প্রতিসম মাত্রার কারণে স্বাভাবিক। এখানে জনসংখ্যার কিউকিউ প্লট রয়েছে 2
:
অবশ্যই আমার কাছে স্বাভাবিক দেখাচ্ছে না।
সম্পাদনা করুন - আপনার মন্তব্যের প্রতিক্রিয়া:
বৈকল্পিক একটি সংখ্যার পরিসংখ্যান is দুটি বিতরণের বৈকল্পিকগুলি যদি আক্ষরিক অর্থে সমান হয় তবে এটি সম্পর্কে আপনার যা বলার দরকার তা অনেক বেশি। যদি দুটি বিতরণ হ'ল স্বাভাবিক হয় , আবার, গাণিতিক সংজ্ঞা আছে যে তারা উভয়ই ফিট হবে। দুটি বিতরণ যদি যথাযথভাবে স্বাভাবিক বা বৈকল্পিক সমান না হয় তবে আপনার অন্যথায় বলা উচিত নয় say আপনি যদি বলতে চান যে তারা প্রায় সমান বা সাধারণ, আপনি সম্ভবত "উদ্দেশ্য হিসাবে যথেষ্ট" এমনভাবে সংজ্ঞায়িত করতে পারেন যা আপনার উদ্দেশ্যগুলির সাথে উপযুক্ত, যা আপনি এখানে নির্দিষ্ট করেন নি। বন্টনমূলক পার্থক্যের সংবেদনশীলতা বিশ্লেষণগুলির মধ্যে ব্যাপকভাবে পরিবর্তিত হয় যা সাধারণত আপনার মত প্রশ্নগুলিকে প্রেরণা দেয়। উদাহরণ স্বরূপ,এটা মোটামুটি আধুনিক দেওয়া সমান নমুনা আকারের লঙ্ঘনের শক্তসমর্থ এর ,) তাই আমি আমার জনসংখ্যা তুলনা যে পরীক্ষা না করার পরামর্শ দিচ্ছি 2
জনসংখ্যা 1
(স্বাভাবিক বন্টন)।
এটি ভাল উত্তর দেওয়া হয়েছে। এই অতিরিক্ত মন্তব্যগুলি মন্তব্য হিসাবে যেতে কিছুটা দীর্ঘ (আপডেট: এখন অনেক বেশি দীর্ঘ)।
দৃrict়ভাবে, আপনি কোনও বিতরণের পরিবর্তনের বিষয়ে একটি বক্সপ্লট যা পড়তে পারেন তা হ'ল এর আন্তঃআরক্ষীয় পরিসীমা (বাক্সটির দৈর্ঘ্য বা উচ্চতা) এবং পরিসীমা (প্রদর্শনের চূড়ার মধ্যে দৈর্ঘ্য বা উচ্চতা)।
একটি আনুমানিক হিসাবে, বাক্স প্লটগুলি যা দেখতে অভিন্ন বলে মনে হচ্ছে খুব একই ধরণের বৈকল্পিক হতে পারে তবে লক্ষ্য রাখুন। খুব আলাদা বাক্স পজিশন বা লেজ (বা উভয়) সহ বক্স প্লটগুলির মধ্যে একই রকম বৈকল্পিকতা হওয়ার সম্ভাবনা খুব কম তবে এটি অসম্ভব নয়। এমনকি বক্স প্লটগুলি যদি একরকম দেখতে লাগে তবে আপনি বাক্সের মধ্যে পরিবর্তনশীলতা বা হুইসারগুলির মধ্যে প্রকৃতপক্ষে পরিবর্তনশীলতার সম্পর্কে কোনও সরল বা ভ্যানিলা বক্স প্লটে কোনও তথ্য পাবেন না (প্রায়শই বাক্সের মধ্যে প্রদর্শিত লাইনগুলি প্রায় নিকটবর্তী কোয়ার্টাইলের 1.5 আইকিউআরের অভ্যন্তরে প্রদর্শিত হয়) । এনবি বক্স প্লটের বিভিন্ন রূপ বিদ্যমান; লেখকরা তাদের সফ্টওয়্যার দ্বারা ব্যবহৃত সুনির্দিষ্ট নিয়মগুলি ডকুমেন্ট করার ক্ষেত্রে প্রায়শই দুর্বল হন।
বক্স প্লটের জনপ্রিয়তার দাম রয়েছে। অনেকগুলি গ্রুপ বা ভেরিয়েবলের (20 বা 30, কখনও কখনও আরও বেশি বলুন) এর গ্রস বৈশিষ্ট্যগুলি দেখানোর জন্য বক্স প্লটগুলি খুব কার্যকর হতে পারে। সাধারণত 2 বা 3 টি গ্রুপের তুলনা করার জন্য তাদের ব্যবহার করা হয়েছে, আমার মতে, অন্য প্লটগুলি একই জায়গাতে আরও বেশি বিশদ বিবরণ প্রদর্শন করতে পারে। স্বাভাবিকভাবেই, সর্বজনীনভাবে প্রশংসা না করলে এটি ব্যাপকভাবে হয় এবং বক্স প্লটের বিভিন্ন বর্ধিততা আরও বিশদ দেখায়।
ভেরিয়েন্সগুলির সাথে গুরুতর কাজের জন্য মূল ডেটা অ্যাক্সেস প্রয়োজন।
এটি ব্রড ব্রাশ, এবং আরও বিশদ যুক্ত করা যেতে পারে। উদাহরণস্বরূপ, বাক্সের মধ্যে মধ্যম অবস্থানটি মাঝে মাঝে কিছুটা আরও তথ্য দেয়।
হালনাগাদ
আমি অনুমান করি যে আরও অনেক লোক বাক্স প্লট থেকে অনুমানকরণের নির্দিষ্ট প্রশ্নের চেয়ে সাধারণভাবে বাক্স প্লটগুলির ব্যবহার (এবং সীমাবদ্ধতা) সম্পর্কে আগ্রহী (যার সংক্ষিপ্ত উত্তর "আপনি অপ্রত্যক্ষভাবে ছাড়া প্রায় করতে পারেন না, এবং কখনও কখনও "), তাই আমি ক্রিশ্চিয়ান সৌর দ্বারা অনুরোধ করা বিকল্প হিসাবে আরও মন্তব্য যোগ করব।
সংবেদনশীলভাবে ব্যবহার করা হিস্টোগ্রামগুলি প্রায়শই প্রতিযোগিতামূলক। ফ্রিডম্যান, পিসানী এবং পার্ভেসের আধুনিক ক্লাসিক প্রবর্তক পাঠগুলি এগুলি সর্বত্র ব্যবহার করে।
ডট বা স্ট্রিপ প্লট (চার্ট) (এবং আরও অনেক নাম দ্বারা) নামে পরিচিত বিভিন্নগুলি বোঝা সহজ। ইচ্ছেমত পয়েন্টগুলি বিন্যাসের পরে, স্ট্যাক করা যেতে পারে। আপনি আপনার হৃদয়ের বিষয়বস্তুতে মিডিয়ান এবং কোয়েটাইলস, বা গড় এবং আত্মবিশ্বাসের অন্তরগুলি যুক্ত করতে পারেন।
কোয়ান্টাইল প্লটগুলি মনে হয়, এটি একটি অর্জিত স্বাদ তবে বিভিন্ন উপায়ে সকলের চেয়ে বহুমুখী। আমি এখানে অর্ডার করা মানগুলির প্লটগুলিকে আবার সংশ্লেষিত সম্ভাবনা (প্লটিং পজিশন) পাশাপাশি কোয়ান্টাইল প্লটগুলি অন্তর্ভুক্ত করেছি যা ডেটা যদি কোনও "ব্র্যান্ড-নাম" বিতরণ হিসাবে বিবেচিত হয় (সাধারণ, ঘনিষ্ঠ, গামা, যাই হোক না কেন) straight (সিজে গিয়ারের ব্যবহার হিসাবে "ব্র্যান্ড-নাম" রেফারেন্সের জন্য @ স্কোর্টচির কাছে স্বীকৃতি।)
তবে একটি বিস্তৃত তালিকা সম্ভব নয়। (উদাহরণস্বরূপ, আমি যুক্ত করব যে খুব মাঝেমধ্যে, স্টেম-এবং-পাতার উপস্থাপনাটি ডেটাতে গুরুত্বপূর্ণ বিশদটি দেখতে ঠিক ঠিক যেমন ডিজিটের অগ্রাধিকারটি প্রসারিত হয় is) মূল নীতিটি হ'ল সর্বোত্তম ধরণের বিতরণ প্লটের অনুমতি দেয় আপাতদৃষ্টিতে অসম্ভব, ডেটাতে সূক্ষ্ম কাঠামোর উপলব্ধি যা আকর্ষণীয় বা গুরুত্বপূর্ণ (মোডালিটি, গ্রানুলারিটি, আউটলিয়ারস, ইত্যাদি) পাশাপাশি মোটা কাঠামো (স্তর, স্প্রেড, স্কিউনেস ইত্যাদি) হতে পারে।
বক্স প্লটগুলি সমস্ত ধরণের কাঠামো দেখানোর ক্ষেত্রে সমানভাবে ভাল নয়। এগুলি হতে পারে না এবং হওয়ার ইচ্ছাও ছিল না। এটি পতাকাঙ্কিত করার মতো যে এক্সপ্লোরের ডেটা বিশ্লেষণ পঠন, জেনারেটাল: অ্যাডিসন-ওয়েসলি (1977) জেডাব্লু টুকি রায়লেগের বাইমোডাল ডেটার একটি উদাহরণ দিয়েছেন যা একটি বক্স প্লট মূল কাঠামোকে পুরোপুরি অস্পষ্ট করে। একজন দুর্দান্ত পরিসংখ্যানবিদ হিসাবে, তিনি ভালভাবেই জানেন যে বক্স প্লটগুলি সর্বদা উত্তর ছিল না।
প্রবর্তক গ্রন্থগুলিতে বিস্তৃত একটি উদ্ভট অনুশীলন আনোভা নিয়ে আলোচনা করছে যখন পাঠকদের বাক্সে প্লটগুলি দেখার জন্য আমন্ত্রণ জানানো হয়েছিল, যা মিডিয়েন এবং কোয়ার্টাইলগুলি দেখায়, উপায় এবং ভেরিয়েন্সগুলি (বরং এসডি) দেখায়। স্বভাবতই, ডেটা দেখার চেয়ে দেখার চেয়ে আরও ভাল, তবে তবুও আরও উপযুক্ত গ্রাফিকাল উপস্থাপনাটি যুক্তিযুক্তভাবে লাগানো কাঁচা ডেটার কিছু প্লট লাগানো উপায়ে +/- এসই-র কিছু উপযুক্ত একাধিক।
একটি নিষ্পাপ পদ্ধতি:
একটি সাধারণ বিতরণে, 25% এবং 75% কোয়ান্টাইলগুলি কেন্দ্র থেকে দূরত্বে অবস্থিত। এটি দেয় যে 50% কেন্দ্রিক ঘনত্ব এই দূরত্বের দ্বিগুণ হয়ে থাকে ( )। একটি বক্সপ্লটে, আন্তঃনগর রেঞ্জ (আইকিউআর, বাক্সের নীচ থেকে শীর্ষে দূরত্ব) 50% কেন্দ্রিক পরিমাণ নমুনা জুড়ে।1.35 ⋅ σ
আপনি ধৃষ্টতা যে আপনার জনসংখ্যা একটি সাধারণ বিন্যাসের (যা কখনও কখনও, তাই তুচ্ছ একটি বড় ধৃষ্টতা হয়) অনুসরণ করে তাহলে, তারপর আপনার জনসংখ্যার স্ট্যানডার্ড ডেভিয়েশন মোটামুটিভাবে সমীকরণ থেকে আনুমানিক যেতে পারে , যে হয় ।σ = 0.74 ⋅ I Q R
এবং বক্সপ্লট দ্বারা বৈকল্পিকগুলির তুলনা সম্পর্কে: বিস্তৃত বাক্সগুলির অর্থ বড় আকারের বৈচিত্র হয় তবে এটি আপনাকে অনুসন্ধানী বোঝাপড়া দেয় এবং আপনাকে হুইস্কার এবং আউটলিয়ারদেরও বিবেচনায় নিতে হবে। নিশ্চিতকরণের জন্য আপনার অনুমানের বিপরীতে ব্যবহার করা উচিত।