ডেটা স্কাই করার সময় কী গড় ব্যবহার করা উচিত?


14

প্রায়শই প্রবর্তিত প্রয়োগের পরিসংখ্যান পাঠগুলি মধ্যবর্তী থেকে অর্থকে পৃথক করে (প্রায়শই বর্ণনামূলক পরিসংখ্যানের প্রসঙ্গে এবং গড়, মধ্যক এবং মোড ব্যবহার করে কেন্দ্রীয় প্রবণতার সংক্ষিপ্তকরণকে প্রেরণা দেয়) ব্যাখ্যা করে যে গড়টি নমুনা ডেটা এবং / অথবা বহিরাগতদের সংবেদনশীল is জনসংখ্যার বিতরণ বিতরণ করার জন্য, এবং এটি ডেডিয়া প্রতিসম নয়, যখন মধ্যমা পছন্দ করা উচিত এই দাবী হিসাবে একটি যুক্তিসঙ্গত হিসাবে ব্যবহৃত হয়।

উদাহরণ স্বরূপ:

প্রদত্ত ডেটা সেট করার জন্য কেন্দ্রীয় প্রবণতার সর্বোত্তম পরিমাপ প্রায়শই সেই পথে নির্ভর করে যা মানগুলি বিতরণ করা হয় .... যখন ডেটা প্রতিসম হয় না, তখন মিডিয়ান প্রায়শই কেন্দ্রীয় প্রবণতার সেরা পরিমাপ হয়। কারণটি চূড়ান্ত পর্যবেক্ষণের প্রতি সংবেদনশীল, এটি বাহ্যিক ডেটা মানগুলির দিকের দিকে টানা হয়েছে এবং ফলস্বরূপ অত্যধিক স্ফীত বা অত্যধিক
বিস্ফোরিত হতে পারে "" প্যাগানো এবং গাভ্রাউ, (2000) বায়োস্টাটিক্সের নীতিমালা , ২ য় সংস্করণ। (পিএন্ডজি হাতে ছিল, বিটিডাব্লু, সেগুলি প্রতি সেগুলি একা করছে না ))

লেখকগণ "কেন্দ্রীয় প্রবণতা" সংজ্ঞায়িত করেন: "ডেটা সংকলনের সর্বাধিক তদন্তকৃত বৈশিষ্ট্য হ'ল এর কেন্দ্র বা সেই বিষয় যা পর্যবেক্ষণগুলি গুচ্ছ হয়ে থাকে" "

এটি কেবলমাত্র মিডিয়ান, পিরিয়ড ব্যবহারের বলার সহজ-সরল উপায় হিসাবে আমাকে আঘাত করে কারণ ডেটা / ডিস্ট্রিবিউশনগুলি যখন প্রতিসম হয় তখন কেবল যখন ব্যবহার করা হয় তখনই মিডিয়াকে সমান করে বললে অর্থ ব্যবহার করা একই কাজ। সম্পাদনা করুন: whuber যথাযথভাবে নির্দেশ করে যে আমি মধ্যস্বত্বের সাথে কেন্দ্রীয় প্রবণতার মজাদার পদক্ষেপগুলিকে বিভ্রান্ত করছি। সুতরাং এটি মনে রাখা জরুরী যে আমি গাণিতিক গড়টির নির্দিষ্ট ফ্রেমিংটি প্রাথমিকভাবে প্রয়োগ পরিসংখ্যানগুলিতে মিডিয়াস বনাম (যেখানে মোড বাদে, কেন্দ্রীয় প্রবণতার অন্যান্য পদক্ষেপগুলি অনুপ্রাণিত করা হয় না) নিয়ে আলোচনা করছি।

গড়ের ব্যবহার্যতাটি মধ্যকের আচরণ থেকে কতটা দূরে চলে যায় তা বিচার করার পরিবর্তে, আমরা কেবল এগুলি কেন্দ্রীকরণের দুটি পৃথক ব্যবস্থা হিসাবে বুঝতে পারি না? অন্য কথায় skewness সংবেদনশীল হওয়া মানে বৈশিষ্ট্য। কেউ ঠিক মত যুক্তি দিতে পারে "ভাল মিডিয়ান কোনও ভাল নয় কারণ এটি স্কিউনেসের ক্ষেত্রে মূলত সংবেদনশীল নয়, তাই যখন এটি গড়ের সমান হয় তখনই এটি ব্যবহার করুন।"

(মোডটি বেশ সংবেদনশীলভাবে এই প্রশ্নের সাথে জড়িত হচ্ছে না))


3
ব্যক্তিগতভাবে, আমি উভয় পদক্ষেপ, গড় এবং মধ্যম উভয়ই অন্তর্ভুক্ত করতে চাই, যা পাঠককে কেন্দ্রীয় প্রবণতা সম্পর্কে কেবল কিছু তথ্যই দেবে না, তবে ডেটাটি কী পরিমাণ ত্রুটিযুক্ত তাও একটি ধারণা দেবে।
বিডিওনোভিক 21

1
কিছু প্রসঙ্গ এবং ব্যাখ্যা এই প্রশ্নের উন্নতি করবে। (1) এই (অনুমানমূলক) ইন্ট্রো গ্রন্থগুলি কোন প্রসঙ্গে অর্থটিকে অগ্রাধিকার দেওয়া উচিত বলে দাবি করে এবং কোন উদ্দেশ্যে? (২) ঠিক কীভাবে এই গ্রন্থগুলি "মাধ্যমের ব্যবহার থেকে কতটা দূরে চলেছে তার অর্থের উপযোগিতা বিচার করছে"? আপনি কি একটি উদাহরণ বা একটি উদ্ধৃতি সরবরাহ করতে পারেন যাতে আমরা আরও ভাল করে বুঝতে পারি?
whuber

2
এক পর্যায়ে আপনি ভুল ব্যাখ্যা করেন: মিডিয়ান একমাত্র পরিসংখ্যানই নয় যা কয়েকটি চরম পর্যবেক্ষণে দৃ rob়। সুতরাং গড়টি কোনও (প্রায়শই) অবাঞ্ছিত বৈশিষ্ট্যের ভিত্তিতে চিহ্নিত করা হয় এবং মধ্যকের সাথে কোনও তুলনা করে নয়। তবে আমি আপনার উদ্বেগের ঝলকও পেয়েছি এবং সম্ভবত এটি অসমীকরণ এবং বহিরাগতদের অস্তিত্বের অন্তর্নিহিত সংঘাতের সাথে সম্পর্কিত যা এই উদ্ধৃতিতে ঘটে। এটি আফসোসভাবে দুর্ভাগ্যজনক, কারণ বহিরাগতদের থাকা কখনও কখনও অসম্পূর্ণতার বোঝায়, তবে কথোপকথনটি প্রায়শই সত্য হয় না।
whuber


2
"কেন্দ্রীয় প্রবণতা" এর জন্য প্রদত্ত সংজ্ঞাটির আলোকে এটি স্পষ্ট বলে মনে হচ্ছে কেন স্কিউ বা বহিরাগতদের উপস্থিতিতে এই অর্থটি কার্যকর পদক্ষেপ হবে না। কেন্দ্রীয় প্রবণতার এই ধারণাটি আপনি সত্যই অনুমান করতে চান বা করবেন না বলে মনে হয় এটি অন্য একটি বিষয়!
jsk

উত্তর:


16

আমি ফ্ল্যাট আউট রুল হিসাবে পরামর্শের সাথে একমত নই। (এটি সমস্ত বইয়ের পক্ষে সাধারণ নয়))

বিষয়গুলি আরও সূক্ষ্ম হয়।

আপনি যদি জনসংখ্যার গড় সম্পর্কে অনুমান করতে আগ্রহী হন তবে স্যাম্পল গড়টি এটির কমপক্ষে একটি পক্ষপাতহীন অনুমানক এবং এর অন্যান্য অনেক সুবিধা রয়েছে। আসলে, গাউস-মার্কভ উপপাদ্যটি দেখুন - এটি সেরা লিনিয়ার নিরপেক্ষ।

যদি আপনার ভেরিয়েবলগুলি ভারী স্কিউ হয় তবে সমস্যাটি 'রৈখিক' নিয়ে আসে - কিছু পরিস্থিতিতে সমস্ত রৈখিক অনুমানক খারাপ হতে পারে, তবে এর মধ্যে সবচেয়ে ভাল এখনও অপ্রচলিত হতে পারে, তাই গড়টির একটি অনুমানকারী যা লিনিয়ার নয় আরও ভাল হতে পারে , তবে এর বিতরণ সম্পর্কে কিছু (বা এমনকি অনেক কিছু) জেনে রাখা দরকার। আমাদের সর্বদা সেই বিলাসিতা থাকে না।

আপনি যদি কোনও জনসংখ্যার সাথে সম্পর্কিত আনুষঙ্গিকভাবে আগ্রহী না হন তবে তার অর্থ (" একটি সাধারণ বয়স কী? "), বলুন বা একটি সাধারণ লোকেশন থেকে অন্য জনগোষ্ঠীতে আরও সাধারণ স্থান পরিবর্তন হয়েছে কিনা, যা কোনও অবস্থানের দিক থেকেও বর্ণিত হতে পারে বা এমনকি একটি পরিবর্তনশীল একটি অন্যের চেয়ে stochastically বৃহত্তর একটি পরীক্ষার), তারপরে গণনা যে জনসংখ্যার অর্থ হয় প্রয়োজন হয় না হয় বা সম্ভাব্য পাল্টা উত্পাদক (শেষ ক্ষেত্রে)।

সুতরাং আমি মনে করি এটি সম্পর্কে ভাবতে নেমে আসে:

  • আপনার আসল প্রশ্নগুলি কি? এই পরিস্থিতিতে জনসংখ্যা বলতে কি কোনও ভাল জিনিস সম্পর্কে জিজ্ঞাসা করা উচিত?

  • পরিস্থিতি (এই ক্ষেত্রে skewness) দেওয়া প্রশ্নের উত্তর দেওয়ার সর্বোত্তম উপায় কী? নমুনা ব্যবহার করা কি আমাদের আগ্রহের প্রশ্নের উত্তর দেওয়ার সর্বোত্তম পদ্ধতির?

এটি হতে পারে যে আপনার কাছে জনসংখ্যার অর্থ সম্পর্কে সরাসরি প্রশ্ন না থাকে তবে তবুও নমুনা অর্থগুলি সেই প্রশ্নগুলি দেখার জন্য একটি ভাল উপায় ... বা বিপরীত - প্রশ্নটি জনসংখ্যার অর্থ সম্পর্কে হতে পারে তবে নমুনার অর্থ সম্ভবত সেরা উপায় নাও হতে পারে এই প্রশ্নের উত্তর দিন।


14

বাস্তব জীবনে, আমরা কী খুঁজে বের করার চেষ্টা করছি তার উপর ভিত্তি করে আমাদের কেন্দ্রীয় প্রবণতার একটি পরিমাপ বেছে নেওয়া উচিত; এবং হ্যাঁ, কখনও কখনও মোডটি ব্যবহার করা সঠিক জিনিস। কখনও কখনও এটি উইনসরাইজড বা ছাঁটাইযুক্ত গড়। কখনও কখনও জ্যামিতিক বা সুরেলা মানে। কখনও কখনও কেন্দ্রীয় প্রবণতার কোনও ভাল পরিমাপ হয় না

ইন্ট্রো বইগুলি খারাপভাবে লেখা হয়, তারা শেখায় যে প্রয়োগ করার জন্য কুকবুকের নিয়ম রয়েছে।

আয় করুন। এটি প্রায়শই খুব স্কিউড এবং কখনও কখনও বিদেশী থাকে; নিশ্চিতভাবেই, আমরা সাধারণত "মধ্যম আয়" রিপোর্টিত দেখতে পাই। তবে কখনও কখনও outliers এবং skewness গুরুত্বপূর্ণ। এটি প্রসঙ্গে নির্ভর করে এবং চিন্তাভাবনা প্রয়োজন।

আমি এই বিষয়ে আরও লিখেছি


2
পিটার, আপনার পোস্টের লিঙ্কের জন্য আপনাকে অনেক ধন্যবাদ। আমি আশা করি যে অন্তর্ভুক্ত গ্রন্থাগুলি আপনি সেখানে প্রদত্ত হিসাবে বিবেচ্য বিবেচনা করার জন্য প্রয়োজনীয় 1 থেকে 2 পৃষ্ঠাগুলির স্থান নিয়েছিলেন।
অ্যালেক্সিস

4
আমি একটি লিখিনি তবে আমি সূচনা লেখার সামান্য প্রতিরক্ষা সন্নিবেশ করতে চাই want যে কোনও প্রবর্তনীয় পাঠ্য যে অভিজ্ঞ পেশাদাররা এটিরূপে স্বীকৃতি দেবে এমন সম্পূর্ণরূপে সংক্ষিপ্ত দৃষ্টিভঙ্গি দেওয়ার চেষ্টা করেছিল যা প্রায় সমস্ত অভিযুক্ত প্রাপকদের দ্বারা উদ্দীপ্ত হবে; প্রকৃতপক্ষে এটি প্রকাশিত হবে না।
নিক কক্স

5
একটি সংক্ষিপ্ত মন্তব্য: যখন মানগুলি অ্যাডিটিভ হয় যখন মোট দৈহিক বোধ হয় (যেমন) দৈহিক বোধ হয় তবে স্বতন্ত্র মানগুলির বন্টন নির্বিশেষে গড় প্রাকৃতিক সংক্ষিপ্তসার হয়।
নিক কক্স

3
@ নিককক্স আমি মনে করি যে সূচনা পাঠাগুলি তাদের চেয়ে অনেক ভাল করতে পারে। গড় বনাম মধ্যমা জন্য এটি এমনকি গাণিতিক যুক্তিও নয় - এটি একটি মর্মস্পষ্ট বিষয়। ভূমিকা পাঠ্যগুলি পড়তে থাকা ব্যক্তিকে বলতে হবে যে তারা ডেটা বিশ্লেষণ করার পক্ষে সত্যই যোগ্য নয়।
পিটার ফ্লুম - মনিকা পুনরায়

2
@jsk। ওহ ঠিক আছে. আমি মনে করি তাদের পরিসংখ্যানগুলিতে স্পষ্টভাবে বলা দরকার কারণ অনেক লোক মনে করে যে তারা ডেটা বিশ্লেষণের এক কোর্সের পরে প্রস্তুত; প্রকৃতপক্ষে, অনেক ক্ষেত্রে (মনোবিজ্ঞান, সমাজবিজ্ঞান, চিকিত্সা, ইত্যাদি) শুধুমাত্র 1, 2, বা কখনও কখনও 3 কোর্সের পরে লোকেরা ডেটা বিশ্লেষণ করতে পারে বলে আশা করা হচ্ছে। পিএইচডি প্রোগ্রামগুলিতে, উদাহরণস্বরূপ, তারা গবেষণামূলক লেখার প্রত্যাশা করা হয়। এটি অন্যান্য ক্ষেত্রে কেন আরও সুস্পষ্ট? আমি নিশ্চিত না.
পিটার ফ্লুম - মনিকা পুনরায়

6

এমনকি যখন ডেটা স্কাই করা হয় (উদাহরণস্বরূপ, ক্লিনিকাল পরীক্ষার পাশাপাশি স্বাস্থ্যসেবার ব্যয় গণনা করা হয়, যেখানে কিছু রোগী শূন্য ব্যয় করে কারণ তারা নিবন্ধনের ঠিক পরে মারা যায়, এবং তদন্তের অধীনে প্রদত্ত স্বাস্থ্যসেবা কর্মসূচীর পার্শ্ব প্রতিক্রিয়ার কারণে কয়েক রোগী টন ব্যয় অর্জিত হয়) ), গড়কে কমপক্ষে একটি প্রাকৃতিক কারণে মধ্যমকে প্রাধান্য দেওয়া যেতে পারে: রোগীদের সংখ্যার জন্য গড় ব্যয় বৃদ্ধি করা স্বাস্থ্যসেবা সিদ্ধান্ত গ্রহণকারীদের অধ্যয়নের অধীনে স্বাস্থ্যসেবা প্রযুক্তির বাজেট প্রভাব দেয়।


কার্লোর প্রতিবেদনের প্রতিধ্বনি: আপনি যদি মোট জনসংখ্যার (যেমন নিরীক্ষার নমুনা গ্রহণে) আগ্রহী হন তবে আপনি গড়, পিরিয়ডে আগ্রহী। বিতরণটি কীভাবে স্কিউড বা আউটলিয়ার প্রবণ তা কোনও পার্থক্য না রাখলে আপনাকে কেবল এটি মোকাবেলা করতে হবে। আপনি উইনসরাইজ, ট্রিম করতে পারবেন না, অন্যথায় আউটলিয়ারগুলি সরাতে বা লগ রূপান্তর করতে পারবেন না। স্তরবিন্যাস ব্যাপক সাহায্য করতে পারে; চরম বহিরাগতদের ক্ষেত্রে, এগুলি তাদের নিজেদের জন্য স্তর হিসাবে তৈরি করা উচিত।
পিটার ওয়েস্টফল

3

আমি মনে করি যে এ পর্যন্ত প্রশ্নটি থেকে দু'টি উত্তর থেকে কী অনুপস্থিত রয়েছে তা হ'ল সূচনামূলক পরিসংখ্যান বইয়ে গড় বনাম মধ্যমা সংক্রান্ত আলোচনাটি সাধারণত কোনও বিতরণের সংক্ষিপ্তকরণ কীভাবে করা যায় সে সম্পর্কে একটি অধ্যায়ে প্রথম দিকে ঘটে। আনুষ্ঠানিক পরিসংখ্যানের বিরোধিতা হিসাবে, এটি সাধারণত বর্ণনামূলক পরিসংখ্যান উত্পাদন সম্পর্কে যা গ্রাফিকভাবে বিরোধী হিসাবে সংখ্যাগুলিতে ডেটা বন্টন সম্পর্কিত তথ্য জানাতে একটি কার্যকর উপায় হবে। প্রসঙ্গ যেগুলির মধ্যে এটি দেখা দেয় সেগুলি হ'ল একটি প্রতিবেদন বা জার্নাল নিবন্ধের বর্ণনামূলক পরিসংখ্যান বিভাগ যা আপনার ডেটাসেটের সমস্ত ভেরিয়েবলের গ্রাফিকাল সংক্ষিপ্তসারগুলির জন্য সাধারণত স্থান নেই। যদি বিতরণটি স্কিউড হয়, তবে এই পরিমাপে মধ্যমটি বেছে নেওয়ার পক্ষে বুদ্ধিমান মনে হয়। যদি বিতরণটি বিদেশী না করে প্রতিসম হয়,


1
বর্ণনামূলক বনাম অনুমানমূলক পরিসংখ্যান সম্পর্কে আপনার বক্তব্য সার্থক। তবে আপনি কার্যকরভাবে বলছেন (বর্ণনামূলক পরিসংখ্যানের জন্য) "শুধুমাত্র যখন মাধ্যমের মতো হয় তখনই ব্যবহার করুন" " যদি বিতরণটি স্কিউড হয়, তবে মিডিয়ান মাথাপিছু ধারণার প্রতিনিধিত্ব করার একটি খারাপ কাজ করে না , তাই না? সুতরাং এই অবস্থানটি গ্রহণ করা ঠিক ততটাই বৈধ নয় "যখন মধ্যমটি সমান হয় তখনই মধ্যম ব্যবহার করবেন?" এটি ঠিক ততটাই নির্বিচারে, এবং মনে হয় এই ব্যবস্থাগুলির মূল অর্থ (লোকেরা তাদের শেখার জন্য) থেকে দূরে সরিয়ে দেবে attention
অ্যালেক্সিস

1
লক্ষ্যটি মাথাপিছু ধারণার প্রতিনিধিত্ব করে না? বল কে? অনুমান কেন যে লক্ষ্য নয়?
অ্যালেক্সিস

1
আমি কোনও অস্পষ্টতা বা "অভিনয়ে হতবাক" দেখতে পাচ্ছি না ওপি থেকে ... শুধু বলুন ...
নিক স্টাওনার

1
আপনি দেখতে পাচ্ছেন না যে আপনি এই উদাহরণে অনন্য বা বর্ণনামূলক পরিসংখ্যান করছেন কিনা matters যদি কেন্দ্রীয় প্রবণতার যথাযথ বর্ণনামূলক মাপটি মাঝারি হয়, তবে মধ্যমা সম্পর্কে অনুমানগুলি আঁকতে হবে; যদি গড়, তবে গড়। যদি কোনও বর্ণনামূলক পরিমাপটি বোঝায় না, তবে কোনও অনুমানমূলক পদক্ষেপটিও বোধগম্য হবে না।
পিটার ফ্লুম - মনিকা পুনরায়

1
@ পিটারফ্লোম এমন ক্ষেত্রে কী করবেন যেখানে শেষ লক্ষ্যটি অনুকরণীয় নয়? আমি সম্মত হই যে বর্ণনামূলক পরিসংখ্যানের যথাযথতা সম্পূর্ণ পরিসংখ্যান তৈরির কারণের উপর নির্ভর করে। ধারণাটি যে এটি সম্ভব যে "কোনও বর্ণনামূলক পদক্ষেপটি বোঝায় না" বোঝা যাচ্ছে যে বর্ণনামূলক পরিসংখ্যান সহজাতভাবে অর্থবহ হতে পারে না। আমি যুক্তি দিয়ে বলব যে প্রায় সব ক্ষেত্রেই মিডিয়ান সংজ্ঞা দ্বারা বিতরণ কেন্দ্রের একটি পরিমাপ হিসাবে উপলব্ধি করে। অন্যান্য উদ্দেশ্যে এটি বোধগম্য কিনা তা অন্য প্রশ্ন।
jsk
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.