কোয়ালিটি অফ ভেরিয়েশন - আইকিউআর / মিডিয়ান, বা বিকল্প হিসাবে একটি শক্তিশালী (প্যারাম্যাট্রিক নয়)?


12

প্রদত্ত ডেটার সংকলনের জন্য, স্প্রেডকে প্রায়শই স্ট্যান্ডার্ড বিচ্যুতি হিসাবে বা আইকিউআর (আন্তঃ কোয়ার্টাইল রেঞ্জ) হিসাবে গণনা করা হয়।

যেহেতু standard deviationএটিকে সাধারণীকরণ করা হয় (জেড-স্কোর ইত্যাদি) এবং তাই দুটি পৃথক জনসংখ্যার থেকে ছড়িয়ে পড়া তুলনা করতে ব্যবহার করা যেতে পারে, এটি আইকিউআর ক্ষেত্রে নয় কারণ দুটি ভিন্ন জনগোষ্ঠীর নমুনাগুলির দুটি ভিন্ন ভিন্ন স্কেলের মান থাকতে পারে,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

আমি যা করছি তা হল একটি শক্ত (প্যারামিমেট্রিক) পরিমাপ যা আমি বিভিন্ন জনগোষ্ঠীর মধ্যে পার্থক্য তুলনা করতে ব্যবহার করতে পারি।

চয়েস 1: IQR / Median- এই উপমা দ্বারা হবে প্রকরণের সহগ , এর অর্থাত ।σμ

পছন্দ 2: Range / IQR

প্রশ্ন: জনসংখ্যার মধ্যে পার্থক্যের তুলনা করার জন্য আরও অর্থবহ পরিমাপ কোনটি? এবং যদি এটি চয়েজ 1 হয় তবে চয়েস 2 কি কোনও কিছুর জন্য / অর্থবহ, বা এটি মূলত ত্রুটিযুক্ত পরিমাপের জন্য কার্যকর?


খুব সহায়ক আলোচনার জন্য ধন্যবাদ। কয়েকটি দরকারী ফলো-আপগুলি - কোয়ার্টাইলগুলির বিভিন্ন সংজ্ঞা এবং সেইজন্য আইকিউআর (জন), মানক বিচ্যুতি বাস্তবে মানক নয় (হার্ভে), এবং কিউকিউ প্লট দুটি ডিস্ট্রিবিউশন (পিটার) এর সাথে তুলনা করার সরঞ্জাম হিসাবে। (তিনটি জবাবের জন্য +1!)
আসাদ ইব্রাহিম

উত্তর:


13

প্রশ্নটি সূচিত করে যে স্ট্যান্ডার্ড বিচ্যুতি (এসডি) একরকম স্বাভাবিক করা হয়েছে তাই দুটি পৃথক জনগোষ্ঠীর পরিবর্তনশীলতার তুলনা করতে ব্যবহার করা যেতে পারে। তাই না। পিটার এবং জন যেমন বলেছিলেন, এই স্বাভাবিকীকরণটি এসডি / গড়ের সমান, প্রকরণের সহগ (সিভি) গণনার সময় করা হয় । মূল তথ্য হিসাবে একই ইউনিটে এসডি রয়েছে। বিপরীতে, সিভি একটি ইউনিটলেস অনুপাত।

আপনার পছন্দ 1 (আইকিউআর / মিডিয়ান) সিভির সাথে সাদৃশ্যপূর্ণ। সিভি এর মতো, এটি তখনই বোধগম্য হবে যখন ডেটা অনুপাতের ডেটা হয়। এর অর্থ শূন্য আসলেই শূন্য। শূন্যের ওজন কোনও ওজন নয়। শূন্যের দৈর্ঘ্য কোনও দৈর্ঘ্য নয়। একটি পাল্টা উদাহরণ হিসাবে, এটি সি বা এফ তাপমাত্রার জন্য অর্থবোধ করবে না, কারণ শূন্য ডিগ্রি তাপমাত্রা (সি বা এফ) এর অর্থ এই নয় যে কোনও তাপমাত্রা নেই। কেবল সি বা এফ স্কেল ব্যবহারের মধ্যে স্যুইচ করা আপনাকে সিভি বা আইকিউআর / মিডিয়ান অনুপাতের জন্য আলাদা মান দেয় যা এই অনুপাত উভয়কেই অর্থহীন করে তোলে।

আমি পিটার এবং জন এর সাথে একমত যে আপনার দ্বিতীয় ধারণা (রেঞ্জ / আইকিউআর) বহিরাগতদের পক্ষে খুব মজবুত হবে না, তাই সম্ভবত এটি কার্যকর হবে না।


2
হার্ভে - ধন্যবাদ - আপনি ঠিক বলেছেন, এসডি মোটেও স্বাভাবিক হয় না ... আমি z-scoresএই সমস্যাটি সহ মান এবং মানক বিচ্যুতির পরিপ্রেক্ষিতে একটি বিতরণের মধ্যে তাদের অবস্থানকে সাধারণ করার জন্য ধারণাটি বিভ্রান্ত করছি was তাদের পরিবর্তনশীলতার ক্রমে পণ্যগুলির গ্রুপকে র‌্যাঙ্ক করতে সক্ষম হ'ল। আপনার উত্তরটিকে যথাযথ হিসাবে বেছে নেওয়া কারণ পিটার এবং জন উভয়েই খুব সহায়ক ছিল, আপনি আমাকে ধারণাগত মিশ্রণের বিষয়ে সতর্ক করেছিলেন। চয়েস 1 তে ভাল পয়েন্টটি মাঝারি মানের কাছাকাছি সীমিত ব্যবহার হওয়ায় 0 ভাগ্যক্রমে, আমার সমস্যায়, আমাকে এই সম্পর্কে চিন্তা করতে হবে না।
আসাদ ইব্রাহিম

আমি এটি একটি কাগজে ব্যবহার করতে চাই। এটি উল্লেখযোগ্য কোনও ভাল জায়গা আছে (বই / কোথাও পিয়ার-পর্যালোচনা)?
বেন বলকার

15

সর্বনিম্ন এবং সর্বোচ্চ ব্যবহার করা খুব ভাল পরিসংখ্যান নয় এটি উপলব্ধি করা গুরুত্বপূর্ণ (যেমন, তারা নমুনা থেকে নমুনায় প্রচুর পরিমাণে ওঠানামা করতে পারে, এবং কোনও সাধারণ বিতরণ অনুসরণ করবেন না, যেমন বলে যে, কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের কারণে গড়টি হতে পারে) । ফলস্বরূপ, এই সঠিক নমুনার পরিসীমাটি বর্ণনা করা ব্যতীত অন্য যে কোনও কিছুর জন্য পরিসীমাটি খুব কমই ভাল পছন্দ । পরিবর্তনশীলতার প্রতিনিধিত্ব করার জন্য একটি সহজ, ননপ্যারমেট্রিক স্ট্যাটিস্টিকের জন্য আন্তঃ কোয়ার্টাইল পরিসর আরও ভাল। যাইহোক, আমি আইকিউআর / মিডিয়ান এবং প্রকরণের সহগগুলির মধ্যে সাদৃশ্যটি দেখছি বলে আমি মনে করি না এটি সম্ভবত সেরা বিকল্প হতে পারে।

আপনি মিডিয়ান ( এমএডিএম ) থেকে মধ্যমা নিরঙ্কুশ বিচ্যুতিটি সন্ধান করতে পারেন । এটি হ'ল: আমি সন্দেহ করি আইকিউআর / মিডিয়ান না হয়ে পরিবর্তনের সহগের আরও ভাল ননপ্যারমেট্রিক উপমা এমএডিএম / মিডিয়ান হতে পারে।

MADM=median(|ximedian(x)|)

1
মজাদার পছন্দ MADM/median, মধ্যমূল্য থেকে মূলত মধ্য পার্থক্য। আসুন এই চয়েসটি কল করুন 3 আপনার পছন্দ 1 এর মূল্যায়নের সাথে সম্মত হন, তাই এটি আউট, ধন্যবাদ। আপনি যখন আরও ভাল পরামর্শ দিচ্ছেন, চয়েস 3 এর তুলনায় চয়েস 2 এর তুলনায় কোন বৈশিষ্ট্যটি ব্যবহার করতে পারে যা আরও ভাল?
আসাদ ইব্রাহিম

1
আপনি যে বৈশিষ্ট্যগুলি ব্যবহার করবেন তা মেট্রিকের জন্য আপনার লক্ষ্যগুলি কী তার উপর নির্ভর করবে। যাইহোক, আমি কেবল বোঝাই যে এটি CoV এর জন্য আরও ভাল উপমা । এনবি যে তৃতীয় কোয়ার্টাইলটি আপনার উপাত্তগুলির মধ্যবর্তী যা মিডিয়ানের উপরে রয়েছে এবং 1 তম কিউটি নীচেরগুলির মধ্যবর্তী হয়, সুতরাং দীর্ঘমেয়াদে আইকিউআর / 2 এমএডিএম সমান হবে (এনবি, তাদের সমান হওয়ার গ্যারান্টি নেই) প্রদত্ত নমুনায়)। আইকিউআর পপ এর সত্যিকারের মূল্য থেকে অন্যদিকে পরিবর্তিত হবে, তবে আমি নিশ্চিত নই কি, যদি কোনও হয় তবে এর কী কী প্রভাব ফেলতে পারে এবং কী দাঁড়াবে। মাত্রই ভুল করে। আইকিউআর / 2 এর এমএডিএম এর এসই এর মতো হওয়া উচিত।
গুং - মনিকা পুনরায়

আমি স্পষ্টতার জন্য ধন্যবাদ। Q3 এবং Q1 এর মধ্যম ব্যাখ্যা সম্পর্কে ভাল বক্তব্য। আমি MADM/medianপাশাপাশি চেষ্টা করব IQR/median। পাশাপাশি পাশাপাশি তুলনা আকর্ষণীয় হতে পারে। (আকর্ষণীয় পরামর্শের জন্য +1)
আসাদ ইব্রাহিম

6

"চয়েস 1" হ'ল আপনি কী চান যদি আপনি বহিরাগতদের প্রভাব হ্রাস করার সাধারণ উদ্দেশ্যে নন-প্যারাম্যাট্রিক ব্যবহার করেন। এমনকি যদি আপনি এটি স্কিউয়ের কারণে ব্যবহার করছেন তবে এর লেজটিতে সাধারণত চরম মান থাকার পার্শ্ব প্রতিক্রিয়াও রয়েছে, এটি বিদেশী হতে পারে। আপনার প্রথম পছন্দ সমীকরণের উপাদানগুলি তুলনামূলকভাবে শক্তিশালী হলেও আপনার "পছন্দ 2" নাটকীয়ভাবে বহিরাগতদের বা কোনও চরম মান দ্বারা প্রভাবিত হতে পারে।

[আপনি কোন ধরণের আইকিউআর নির্বাচন করেন তার উপর এটি কিছুটা নির্ভরশীল (কোয়ান্টাইলের জন্য আর সহায়তা দেখুন)]


তুমি ঠিক আছে, আমি আগেই বলেছি উচিত "এই হল analagous প্রকরণের সহগ সংজ্ঞা ... (প্রশ্নে এখন সংশোধন) করুন!
আসাদ ইব্রাহিম

আপনি কোন ধরণের আইকিউআর নির্বাচন করেন তার উপর নির্ভর করে মন্তব্যের জন্য ধন্যবাদ ... - আমি বুঝতে পারি না কোয়ার্টাইল / কোয়ান্টাইলের জন্য এতগুলি সম্ভাব্য সংজ্ঞা রয়েছে! আমি এক্সেলের বিল্ট-ইন quartile( )ফাংশনটি ব্যবহার করছি এবং এরপরে নিচ্ছি IQR := Q3 - Q1। আমার সংখ্যাগুলি এক বছরের মধ্যে সাপ্তাহিক পরিমাপের সময় সিরিজ থেকে আসে। পরিমাপগুলি শিল্প সম্পাদনের পদক্ষেপ এবং এগুলি অবিচ্ছিন্ন বিতরণ থেকে। বিভিন্ন জনগোষ্ঠী বিভিন্ন পণ্য গোষ্ঠী। এই পরিস্থিতিতে, আমি মনে করি না যে অনুশীলনগুলিতে বিভিন্ন সংজ্ঞাগুলি অনেক আলাদা হবে?
আসাদ ইব্রাহিম

6

আমি সিভি এর মতো পদক্ষেপগুলি গণনা না করা পছন্দ করি কারণ প্রায় সবসময়ই এলোমেলো পরিবর্তনশীলের জন্য আমার এক স্বেচ্ছাসেবী উত্স থাকে। একটি শক্তিশালী ছড়িয়ে পড়া পরিমাপের পছন্দ সম্পর্কে গিনির গড় পার্থক্যকে পরাভূত করা দুষ্কর, যা দুটি পর্যবেক্ষণের মধ্যে পার্থক্যের সমস্ত সম্ভাব্য পরম মানের অর্থ mean দক্ষ গণনার জন্য উদাহরণস্বরূপ আর rmsপ্যাকেজ GiniMdফাংশন দেখুন। স্বাভাবিকতার অধীনে, গিনির গড় পার্থক্য 0.98 যতটা ছড়িয়ে পড়ার অনুমানের জন্য এসডি হিসাবে দক্ষ।


3

@ জন এর মত আমি কোনও প্রকারের সহগের সংজ্ঞাটি শুনিনি heard আমি এটি বলব না যে আমি যদি এটি ব্যবহার করি তবে এটি মানুষকে বিভ্রান্ত করবে।

"কোনটি সবচেয়ে কার্যকর?" আপনি এটির জন্য কী ব্যবহার করতে চান তার উপর নির্ভর করবে। অবশ্যই 1 পছন্দটি বিদেশীদের কাছে আরও শক্তিশালী, যদি আপনি নিশ্চিত হন যে আপনি যা চান তা তাই। তবে দুটি বিতরণের তুলনা করার উদ্দেশ্য কী? আপনি কি করতে চেষ্টা করছেন?

একটি বিকল্প হ'ল উভয় পদক্ষেপকে মানক করা এবং তারপরে সংক্ষিপ্তসারগুলি দেখুন।

আরেকটি হল কিউকিউ প্লট।

পাশাপাশি আরও অনেকে আছেন।


ভাল পয়েন্ট - প্রকরণের সহগের সাথে সাদৃশ্যপূর্ণ কথা বলা উচিত (আমি সংশোধন করেছি)।
আসাদ ইব্রাহিম

আমার সংখ্যাগুলি এক বছরের মধ্যে সাপ্তাহিক পরিমাপের সময় সিরিজ থেকে আসে। পরিমাপগুলি শিল্প সম্পাদনের পদক্ষেপ এবং এগুলি অবিচ্ছিন্ন বিতরণ থেকে। বিভিন্ন জনসংখ্যা বিভিন্ন পণ্য গোষ্ঠী এবং আমার প্রায় 50 টি প্রোডাক্ট গ্রুপ রয়েছে। আমি যা করার চেষ্টা করছি তা হ'ল বিভিন্ন পণ্য গোষ্ঠীর মধ্যে অন্তর্নিহিত পরিবর্তনশীলতার তুলনা করতে সক্ষম। বিশেষত, আমি পরিবর্তনশীলতার ক্রম হ্রাসে পণ্য গোষ্ঠীগুলিকে র‌্যাঙ্ক করতে সক্ষম হতে চাই।
আসাদ ইব্রাহিম

'উভয় পদক্ষেপের মানককরণ করুন এবং তারপরে সংক্ষিপ্তসারগুলি দেখুন' এর অর্থ কী? আমি ভেবেছিলাম চয়েস 1 তাদের মানিক করে দিচ্ছে ...!
আসাদ ইব্রাহিম

2

এই কাগজটি তারতম্যের সহগের জন্য দুটি ভাল শক্তিশালী বিকল্প উপস্থাপন করে। এক interquartile পরিসীমা মধ্যমা দ্বারা বিভক্ত হয় যে:

আইকিউআর / মিডিয়ান = (কিউ 3-কিউ 1) / মিডিয়ান

অন্যটি মধ্যমা দ্বারা বিভক্ত মিডিয়ান পরম বিচ্যুতি , যা হ'ল:

ম্যাড / মধ্যমা

তারা সেগুলি তুলনা করে এবং দ্বিতীয়বারের মতো উত্পন্নভাবে বক্তব্য রাখলে কিছুটা পরিবর্তনশীল এবং বেশিরভাগ অ্যাপ্লিকেশনের জন্য সম্ভবত এটি আরও ভাল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.