বক্সপ্লাট থেকে বিয়োগ


12

আমি ভাবছিলাম কীভাবে একটি বক্সপ্ল্যাট ব্যবহার করে ভেরিয়েবলের বৈকল্পিকতা হ্রাস করতে পারি। যদি দুটি ভেরিয়েবলের তাদের বক্সপ্লট পর্যবেক্ষণের একই বৈকল্পিক থাকে তবে এটি কি কমিয়ে আনা সম্ভব?


1
একটি অনুরূপ বিষয় সম্পর্কে সম্প্রতি এই নিবন্ধে হোঁচট খেয়েছে । আশা করি এটি আপনাকে কিছুটা অন্তর্দৃষ্টি দেবে।
পেঙ্গুইন_কাইট

উত্তর:


16

অনেক কঠোর অনুমান ছাড়া না, না। আপনি যদি উত্তরটি হ্যাঁ ধরে নেন (জিজ্ঞাসা করার পরিবর্তে, যার জন্য আমি আপনাকে সাধুবাদ জানাই) তবে আমি বাজি ধরতে পারি আমি আপনাকে এই (পাল্টা) উদাহরণ দিয়ে বোকা বানাতে পারি:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

দেখতে অনেকটা একই রকম, তাই না? তবুও !σ12=1,σ22=1.96

কোড থেকে এটি পরিষ্কার না হলে জনসংখ্যা 2হ'ল:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

এবং না, আপনি অনুমান করতে পারবেন না যে এই জনসংখ্যাটি কেবলমাত্র প্রতিসম মাত্রার কারণে স্বাভাবিক। এখানে জনসংখ্যার কিউকিউ প্লট রয়েছে 2:

অবশ্যই আমার কাছে স্বাভাবিক দেখাচ্ছে না।

সম্পাদনা করুন - আপনার মন্তব্যের প্রতিক্রিয়া:

বৈকল্পিক একটি সংখ্যার পরিসংখ্যান is দুটি বিতরণের বৈকল্পিকগুলি যদি আক্ষরিক অর্থে সমান হয় তবে এটি সম্পর্কে আপনার যা বলার দরকার তা অনেক বেশি। যদি দুটি বিতরণ হ'ল স্বাভাবিক হয় , আবার, গাণিতিক সংজ্ঞা আছে যে তারা উভয়ই ফিট হবে। দুটি বিতরণ যদি যথাযথভাবে স্বাভাবিক বা বৈকল্পিক সমান না হয় তবে আপনার অন্যথায় বলা উচিত নয় say আপনি যদি বলতে চান যে তারা প্রায় সমান বা সাধারণ, আপনি সম্ভবত "উদ্দেশ্য হিসাবে যথেষ্ট" এমনভাবে সংজ্ঞায়িত করতে পারেন যা আপনার উদ্দেশ্যগুলির সাথে উপযুক্ত, যা আপনি এখানে নির্দিষ্ট করেন নি। বন্টনমূলক পার্থক্যের সংবেদনশীলতা বিশ্লেষণগুলির মধ্যে ব্যাপকভাবে পরিবর্তিত হয় যা সাধারণত আপনার মত প্রশ্নগুলিকে প্রেরণা দেয়। উদাহরণ স্বরূপ,tএটা মোটামুটি আধুনিক দেওয়া সমান নমুনা আকারের লঙ্ঘনের শক্তসমর্থ এর ,) তাই আমি আমার জনসংখ্যা তুলনা যে পরীক্ষা না করার পরামর্শ দিচ্ছি 2জনসংখ্যা 1(স্বাভাবিক বন্টন)।


3
ভালো উদাহরণ. নিক আর ব্যবহার করছে (যতক্ষণ না সবাই আর ব্যবহার করে, ততক্ষণ এটি উল্লেখ করা ভাল অনুশীলন))
নিক কক্স ২ '

ভাবতে সাহায্য করতে পারে না যে পুরোটা দিন বিজ্ঞানের জন্য একটি ভাল দিন হবে :)
নিক স্টাওনার

আমার এটি সম্পর্কে একটি দীর্ঘ রচনা আছে, তবে কোনওভাবে এটি উপলব্ধ জায়গাতে ফিট হবে না।
নিক কক্স

ভাল উত্তর. আপনি লিখতে পারি কোন তথ্য আমরা অর্ডার বলতে রিপোর্ট করা উচিত: "তারা স্বাভাবিক এবং ভ্যারিয়েন্স একই"
Donbeo

প্রতিক্রিয়া জানাতে সম্পাদিত।
নিক স্টাওনার 21

10

এটি ভাল উত্তর দেওয়া হয়েছে। এই অতিরিক্ত মন্তব্যগুলি মন্তব্য হিসাবে যেতে কিছুটা দীর্ঘ (আপডেট: এখন অনেক বেশি দীর্ঘ)।

দৃrict়ভাবে, আপনি কোনও বিতরণের পরিবর্তনের বিষয়ে একটি বক্সপ্লট যা পড়তে পারেন তা হ'ল এর আন্তঃআরক্ষীয় পরিসীমা (বাক্সটির দৈর্ঘ্য বা উচ্চতা) এবং পরিসীমা (প্রদর্শনের চূড়ার মধ্যে দৈর্ঘ্য বা উচ্চতা)।

একটি আনুমানিক হিসাবে, বাক্স প্লটগুলি যা দেখতে অভিন্ন বলে মনে হচ্ছে খুব একই ধরণের বৈকল্পিক হতে পারে তবে লক্ষ্য রাখুন। খুব আলাদা বাক্স পজিশন বা লেজ (বা উভয়) সহ বক্স প্লটগুলির মধ্যে একই রকম বৈকল্পিকতা হওয়ার সম্ভাবনা খুব কম তবে এটি অসম্ভব নয়। এমনকি বক্স প্লটগুলি যদি একরকম দেখতে লাগে তবে আপনি বাক্সের মধ্যে পরিবর্তনশীলতা বা হুইসারগুলির মধ্যে প্রকৃতপক্ষে পরিবর্তনশীলতার সম্পর্কে কোনও সরল বা ভ্যানিলা বক্স প্লটে কোনও তথ্য পাবেন না (প্রায়শই বাক্সের মধ্যে প্রদর্শিত লাইনগুলি প্রায় নিকটবর্তী কোয়ার্টাইলের 1.5 আইকিউআরের অভ্যন্তরে প্রদর্শিত হয়) । এনবি বক্স প্লটের বিভিন্ন রূপ বিদ্যমান; লেখকরা তাদের সফ্টওয়্যার দ্বারা ব্যবহৃত সুনির্দিষ্ট নিয়মগুলি ডকুমেন্ট করার ক্ষেত্রে প্রায়শই দুর্বল হন।

বক্স প্লটের জনপ্রিয়তার দাম রয়েছে। অনেকগুলি গ্রুপ বা ভেরিয়েবলের (20 বা 30, কখনও কখনও আরও বেশি বলুন) এর গ্রস বৈশিষ্ট্যগুলি দেখানোর জন্য বক্স প্লটগুলি খুব কার্যকর হতে পারে। সাধারণত 2 বা 3 টি গ্রুপের তুলনা করার জন্য তাদের ব্যবহার করা হয়েছে, আমার মতে, অন্য প্লটগুলি একই জায়গাতে আরও বেশি বিশদ বিবরণ প্রদর্শন করতে পারে। স্বাভাবিকভাবেই, সর্বজনীনভাবে প্রশংসা না করলে এটি ব্যাপকভাবে হয় এবং বক্স প্লটের বিভিন্ন বর্ধিততা আরও বিশদ দেখায়।

ভেরিয়েন্সগুলির সাথে গুরুতর কাজের জন্য মূল ডেটা অ্যাক্সেস প্রয়োজন।

এটি ব্রড ব্রাশ, এবং আরও বিশদ যুক্ত করা যেতে পারে। উদাহরণস্বরূপ, বাক্সের মধ্যে মধ্যম অবস্থানটি মাঝে মাঝে কিছুটা আরও তথ্য দেয়।

হালনাগাদ

আমি অনুমান করি যে আরও অনেক লোক বাক্স প্লট থেকে অনুমানকরণের নির্দিষ্ট প্রশ্নের চেয়ে সাধারণভাবে বাক্স প্লটগুলির ব্যবহার (এবং সীমাবদ্ধতা) সম্পর্কে আগ্রহী (যার সংক্ষিপ্ত উত্তর "আপনি অপ্রত্যক্ষভাবে ছাড়া প্রায় করতে পারেন না, এবং কখনও কখনও "), তাই আমি ক্রিশ্চিয়ান সৌর দ্বারা অনুরোধ করা বিকল্প হিসাবে আরও মন্তব্য যোগ করব।

  • সংবেদনশীলভাবে ব্যবহার করা হিস্টোগ্রামগুলি প্রায়শই প্রতিযোগিতামূলক। ফ্রিডম্যান, পিসানী এবং পার্ভেসের আধুনিক ক্লাসিক প্রবর্তক পাঠগুলি এগুলি সর্বত্র ব্যবহার করে।

  • ডট বা স্ট্রিপ প্লট (চার্ট) (এবং আরও অনেক নাম দ্বারা) নামে পরিচিত বিভিন্নগুলি বোঝা সহজ। ইচ্ছেমত পয়েন্টগুলি বিন্যাসের পরে, স্ট্যাক করা যেতে পারে। আপনি আপনার হৃদয়ের বিষয়বস্তুতে মিডিয়ান এবং কোয়েটাইলস, বা গড় এবং আত্মবিশ্বাসের অন্তরগুলি যুক্ত করতে পারেন।

  • কোয়ান্টাইল প্লটগুলি মনে হয়, এটি একটি অর্জিত স্বাদ তবে বিভিন্ন উপায়ে সকলের চেয়ে বহুমুখী। আমি এখানে অর্ডার করা মানগুলির প্লটগুলিকে আবার সংশ্লেষিত সম্ভাবনা (প্লটিং পজিশন) পাশাপাশি কোয়ান্টাইল প্লটগুলি অন্তর্ভুক্ত করেছি যা ডেটা যদি কোনও "ব্র্যান্ড-নাম" বিতরণ হিসাবে বিবেচিত হয় (সাধারণ, ঘনিষ্ঠ, গামা, যাই হোক না কেন) straight (সিজে গিয়ারের ব্যবহার হিসাবে "ব্র্যান্ড-নাম" রেফারেন্সের জন্য @ স্কোর্টচির কাছে স্বীকৃতি।)

তবে একটি বিস্তৃত তালিকা সম্ভব নয়। (উদাহরণস্বরূপ, আমি যুক্ত করব যে খুব মাঝেমধ্যে, স্টেম-এবং-পাতার উপস্থাপনাটি ডেটাতে গুরুত্বপূর্ণ বিশদটি দেখতে ঠিক ঠিক যেমন ডিজিটের অগ্রাধিকারটি প্রসারিত হয় is) মূল নীতিটি হ'ল সর্বোত্তম ধরণের বিতরণ প্লটের অনুমতি দেয় আপাতদৃষ্টিতে অসম্ভব, ডেটাতে সূক্ষ্ম কাঠামোর উপলব্ধি যা আকর্ষণীয় বা গুরুত্বপূর্ণ (মোডালিটি, গ্রানুলারিটি, আউটলিয়ারস, ইত্যাদি) পাশাপাশি মোটা কাঠামো (স্তর, স্প্রেড, স্কিউনেস ইত্যাদি) হতে পারে।

বক্স প্লটগুলি সমস্ত ধরণের কাঠামো দেখানোর ক্ষেত্রে সমানভাবে ভাল নয়। এগুলি হতে পারে না এবং হওয়ার ইচ্ছাও ছিল না। এটি পতাকাঙ্কিত করার মতো যে এক্সপ্লোরের ডেটা বিশ্লেষণ পঠন, জেনারেটাল: অ্যাডিসন-ওয়েসলি (1977) জেডাব্লু টুকি রায়লেগের বাইমোডাল ডেটার একটি উদাহরণ দিয়েছেন যা একটি বক্স প্লট মূল কাঠামোকে পুরোপুরি অস্পষ্ট করে। একজন দুর্দান্ত পরিসংখ্যানবিদ হিসাবে, তিনি ভালভাবেই জানেন যে বক্স প্লটগুলি সর্বদা উত্তর ছিল না।

প্রবর্তক গ্রন্থগুলিতে বিস্তৃত একটি উদ্ভট অনুশীলন আনোভা নিয়ে আলোচনা করছে যখন পাঠকদের বাক্সে প্লটগুলি দেখার জন্য আমন্ত্রণ জানানো হয়েছিল, যা মিডিয়েন এবং কোয়ার্টাইলগুলি দেখায়, উপায় এবং ভেরিয়েন্সগুলি (বরং এসডি) দেখায়। স্বভাবতই, ডেটা দেখার চেয়ে দেখার চেয়ে আরও ভাল, তবে তবুও আরও উপযুক্ত গ্রাফিকাল উপস্থাপনাটি যুক্তিযুক্তভাবে লাগানো কাঁচা ডেটার কিছু প্লট লাগানো উপায়ে +/- এসই-র কিছু উপযুক্ত একাধিক।


নিক, আপনি কি অল্প সংখ্যক ভেরিয়েবলের বাক্স-প্লটের বিকল্পগুলি বর্ণনা করতে পারেন?
খ্রিস্টান সৌর

@ ক্রিশ্চিয়ানসৌর প্রম্পটের জন্য ধন্যবাদ: দয়া করে আপডেট দেখুন।
নিক কক্স

খুব সুন্দর আপডেটের জন্য আপনাকে ধন্যবাদ। আমি বিশেষত আপনার শেষ অনুচ্ছেদটি পছন্দ করি, আমি আনোভা এবং / অথবা রিগ্রেশনকে মিলিয়ে বাক্স-প্লটগুলি দেখতে বেশ বিভ্রান্তিকর - এটি আপেল এবং কমলার তুলনা করার মতো।
ক্রিশ্চিয়ান সৌর

2
পরিসংখ্যান, যেমন অন্য যে কোনও বিজ্ঞানের মতো, উদ্ভট পরিভাষা, স্বরলিপি এবং বিশ্লেষণ অভ্যাসগুলি অন্যের থেকে অনুলিপি দ্বারা পূর্ণ।
নিক কক্স

1
আমি সম্পূর্ণরূপে একমত - আমার মাস্টারের থিসিসে আমি স্বতন্ত্র ভেরিয়েবলগুলি তাদের সাধারণ বিতরণের জন্য পরীক্ষা করেছিলাম ... এটি কার্গো কাল্টের পরিসংখ্যানের সর্বোত্তম রূপ :(
খ্রিস্টান সৌর

6

একটি নিষ্পাপ পদ্ধতি:

একটি সাধারণ বিতরণে, 25% এবং 75% কোয়ান্টাইলগুলি কেন্দ্র থেকে দূরত্বে অবস্থিত। এটি দেয় যে 50% কেন্দ্রিক ঘনত্ব এই দূরত্বের দ্বিগুণ হয়ে থাকে ( )। একটি বক্সপ্লটে, আন্তঃনগর রেঞ্জ (আইকিউআর, বাক্সের নীচ থেকে শীর্ষে দূরত্ব) 50% কেন্দ্রিক পরিমাণ নমুনা জুড়ে।1.35 σ0.67σ1.35σ

আপনি ধৃষ্টতা যে আপনার জনসংখ্যা একটি সাধারণ বিন্যাসের (যা কখনও কখনও, তাই তুচ্ছ একটি বড় ধৃষ্টতা হয়) অনুসরণ করে তাহলে, তারপর আপনার জনসংখ্যার স্ট্যানডার্ড ডেভিয়েশন মোটামুটিভাবে সমীকরণ থেকে আনুমানিক যেতে পারে , যে হয় ।σ = 0.74 I Q RIQR=1.35σσ=0.74IQR

এবং বক্সপ্লট দ্বারা বৈকল্পিকগুলির তুলনা সম্পর্কে: বিস্তৃত বাক্সগুলির অর্থ বড় আকারের বৈচিত্র হয় তবে এটি আপনাকে অনুসন্ধানী বোঝাপড়া দেয় এবং আপনাকে হুইস্কার এবং আউটলিয়ারদেরও বিবেচনায় নিতে হবে। নিশ্চিতকরণের জন্য আপনার অনুমানের বিপরীতে ব্যবহার করা উচিত।


বৈকল্পিকের তুলনা করতে আমাদের এখনও মনে হয় যে বিতরণ উভয়ই স্বাভাবিক? বাক্সটি কেন্দ্রে প্রতিসাম্য সম্মান থাকলে আমরা পরিবর্তন করতে পারি যে পরিবর্তনশীলটি স্বাভাবিক কিনা?
ডোনবিও

1
@ নিক_এসটিউনার যা বলেছে তার সবই আমি সাবস্ক্রাইব করি। আমি যে বিষয়টি উন্মোচিত করেছি তা ধরেই নেওয়া হয়েছিল যে আপনার জনসংখ্যা সাধারণ, যা অন্যের মধ্যে প্রয়োজন তবে কেবলমাত্র প্রতিসাম্য এবং কুর্তোসিস = 0 নয় ass এই ধারণাটি প্রায়শই লঙ্ঘন করা হয়।
রুফো

2
কুরটোসিসকে বিভিন্ন উপায়ে সংজ্ঞায়িত করা হয়। অন্য একটি (সহজ) সংজ্ঞা অনুসারে, একটি সাধারণ (গাউসিয়ান) এর কার্টটোসিস 3 থাকে You আপনি যদি আপনার সফ্টওয়্যারটি অনুশীলন করে গণনা করছেন তবে আপনার সফ্টওয়্যারটি কোন সংজ্ঞা ব্যবহার করে তা পরীক্ষা করে দেখুন।
নিক কক্স ২

1
একটি সাধারণ বিতরণের জন্য, এটি কুর্তোসিস 3, অতিরিক্ত কুর্তোসিস 0 হবে , যদি আমি ভুল না করি। আমি আগ্রহী যদি কোনও জনপ্রিয় সফ্টওয়্যার প্যাকেজগুলি ডিফল্টরূপে অতিরিক্ত-অতিরিক্ত কুর্তোসিস তৈরি করে। এটি সম্ভবত প্রচুর বিভ্রান্তি সৃষ্টি করবে (অস্বীকার করবেন না যে সাধারণ মানুষ বিপরীত অনুশীলনে "অতিরিক্ত" বাদ দিয়ে কিছুটা বিভ্রান্ত হয়) ...
নিক স্টাওনার

1
স্টাটা ডিফল্টরূপে কুরটোসিস উত্পাদন করে। "অতিরিক্ত কুর্তোসিস" আমার দৃষ্টিতে একটি ভয়ঙ্কর শব্দ, তবে নির্মূলের বাইরে। দ্বিতীয় এবং চতুর্থ মুহুর্তের মধ্যে সবচেয়ে সহজভাবে সংজ্ঞায়িত হিসাবে কুর্তোসিসের (কুর্তোসিস 3) এর চেয়ে অনেক ভাল বৈশিষ্ট্য রয়েছে ; শেষ সংজ্ঞাটির ব্যবহারটিকে সাধারণ বিতরণকে অত্যধিক শ্রদ্ধার জন্য দায়ী করা যেতে পারে যেহেতু "বিতরণটি হ্রাস করা" থেকে সমস্ত বিতরণটি বিচ্যুত হয় ( কী বিতরণ সম্ভব এবং প্রাকৃতিক তা নিয়ে আমাদের বিস্তৃত দৃষ্টিভঙ্গি থাকা উচিত।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.