শ্রেণিবদ্ধ বা গুণগত ভেরিয়েবলগুলির সাথে কোন সংক্ষিপ্ত পরিসংখ্যান ব্যবহার করতে হবে?


18

কেবল স্পষ্ট করে বলার জন্য, যখন আমি সংক্ষিপ্ত পরিসংখ্যান বুঝি তখন আমি গড়, মিডিয়ান কোয়ারটাইল রেঞ্জ, ভেরিয়েন্স, স্ট্যান্ডার্ড বিচ্যুতি উল্লেখ করি।

যখন একটি univariate যা সংক্ষেপিত শ্রেণীগত বা গুণগত উভয় বিবেচনায় নামমাত্র এবং পূরণবাচক ক্ষেত্রে, এটা জ্ঞান তার গড়, মধ্যমা খোঁজার, কোয়ার্টাইলের রেঞ্জ, ভ্যারিয়েন্স, এবং মানক চ্যুতির করতে না?

যদি তাই হয় তবে আপনি যদি অবিচ্ছিন্ন পরিবর্তনশীলকে সংক্ষিপ্তসার করে যাচ্ছিলেন তার চেয়ে কী আলাদা এবং কীভাবে?


2
আমি পরিভাষা বাদ দিয়ে কেবল শ্রেণিবদ্ধ এবং গুণগত ভেরিয়েবলের মধ্যে কোনও পার্থক্য দেখতে পাচ্ছি। যাইহোক, নামমাত্র পরিবর্তনশীল (উদাহরণস্বরূপ, চুলের রঙ) এর গড় বা এসডির মতো কোনও কিছু গণনা করা খুব কঠিন হবে। সম্ভবত আপনি আদেশযুক্ত স্তরগুলি সহ শ্রেণীবদ্ধ ভেরিয়েবলের কথা ভাবছেন?
chl

নাহ, যদি শ্রেণিবদ্ধ ডেটাগুলির একটি অর্ডার বা র‌্যাঙ্কড স্তর থাকে তবে তারা এই ওয়েবসাইট অনুসারে সাধারণ হিসাবে বলা হয়: [ stats.gla.ac.uk/steps/glossary/premitteding_data.html#orddat] , এবং এটিতে "আপনি গণনা করতে পারেন এবং অর্ডার, কিন্তু পরিমাপ না করে, অর্ডিনাল ডেটা "
চটসু

তবে আমি কি ভুল করছি?
ছুটসু

উত্তর:


8

সাধারণভাবে, উত্তরটি হ'ল না। তবে, কেউ যুক্তি দিতে পারে যে আপনি অর্ডিনাল ডেটার মিডিয়ান নিতে পারেন, তবে অবশ্যই, আপনি মিডিয়ান হিসাবে কোনও বিভাগ করবেন, একটি সংখ্যা নয়। মিডিয়ান ডেটা সমানভাবে ভাগ করে দেয়: অর্ধেক উপরে, অর্ধেক নীচে। সাধারণ তথ্য কেবল অর্ডারের উপর নির্ভর করে।

উপরন্তু, মধ্যে কিছু ক্ষেত্রে, ordinality রুক্ষ ব্যবধান স্তরের ডেটা মধ্যে তৈরি করা যেতে পারে। যখন অর্ডিনাল ডেটাগুলি গোষ্ঠীভূত করা হয় তখন এটি সত্য (উদাহরণস্বরূপ আয়ের বিষয়ে প্রশ্নগুলি প্রায়শই এইভাবে জিজ্ঞাসা করা হয়)। এই ক্ষেত্রে, আপনি একটি সুনির্দিষ্ট মিডিয়ান খুঁজে পেতে পারেন এবং আপনি অন্যান্য মানগুলি অনুমান করতে সক্ষম হতে পারেন, বিশেষত নিম্ন এবং উপরের সীমা নির্দিষ্ট করা থাকলে: আপনি প্রতিটি বিভাগের মধ্যে কিছু বিতরণ (যেমন ইউনিফর্ম) ধরে নিতে পারেন can অন্তরঙ্গ তৈরি করা যায় এমন অর্ডিনাল ডেটার আরেকটি ক্ষেত্রে হ'ল স্তরগুলিকে সংখ্যার সমতুল্য দেওয়া হয়। উদাহরণস্বরূপ: কখনও (0%), কখনও কখনও (10-30%), প্রায় অর্ধেক সময় (50%) ইত্যাদি on

(আরও একবার) উদ্ধৃত ডেভিড কক্স:

কোনও রুটিন পরিসংখ্যানমূলক প্রশ্ন নেই, কেবল প্রশ্নবিদ্ধ পরিসংখ্যানের রুটিন


1
আপনি ভাল সম্পর্কিত তথ্য সরবরাহ করেন তবে আমি chl প্রশ্নের জবাবে মনে করি, ওপি স্পষ্ট জানিয়ে দিয়েছে যে তিনি শ্রেণিবদ্ধ ডেটা নিয়ে কথা বলছেন যা সাধারণ নয়। সুতরাং আপনার প্রতিক্রিয়া সত্যিই কোনও উত্তরকারী নয় তবে আমি এমন কেউ নই যা একটি ডাউনটয়েট দেবে। তবে আমি মনে করি আপনার এটি একটি মন্তব্যে পরিবর্তন করা উচিত।
মাইকেল আর চেরনিক

1
না, আমি উত্তরটিকে হ্রাস করব না কারণ আমি মনে করি এটি আমার সীমিত বোঝার কিছু মূল্য যোগ করেছে। আমার বিবরণে আমার স্পষ্ট হওয়া উচিত ছিল যে আমি অর্ডিনাল এবং নামমাত্র সংক্ষিপ্তসার উভয়ের পরিসংখ্যান বিবেচনা করছি, সুতরাং দোষটি আমার।
চতুসু

5

যেমন উল্লেখ করা হয়েছে, এর অর্থ, এসডি এবং কব্জাগুলি শ্রেণিবদ্ধ তথ্যগুলির জন্য অর্থবোধক নয়। কব্জাগুলি (উদাহরণস্বরূপ, মিডিয়ান এবং কোয়ার্টাইল) অর্ডিনাল ডেটার জন্য অর্থপূর্ণ হতে পারে। আপনার শিরোনামটি বিভাগীয় ডেটা বর্ণনা করতে সংক্ষিপ্ত পরিসংখ্যানগুলি কী ব্যবহার করা উচিত তাও জিজ্ঞাসা করে। গণনা এবং শতাংশের দ্বারা শ্রেণিবদ্ধ ডেটা বৈশিষ্ট্যযুক্ত করা এটি স্ট্যান্ডার্ড। (আপনি শতাংশের আশেপাশে একটি 95% আত্মবিশ্বাস অন্তর অন্তর্ভুক্ত করতেও পারেন।) উদাহরণস্বরূপ, যদি আপনার ডেটা হয়:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

আপনি এগুলি এর মতো সংক্ষেপে বলতে পারেন:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

আপনার যদি নামমাত্র ভেরিয়েবল থাকে তবে অর্ডার বা দূরত্বের কোনও কার্য নেই। সুতরাং আপনি যে সংক্ষিপ্ত পরিসংখ্যান উল্লেখ করেছেন তার কোনও সংজ্ঞা আপনি কীভাবে দিতে পারেন? আমি মনে করি না আপনি পারবেন। কোয়ার্টাইলস এবং ব্যাপ্তির জন্য কমপক্ষে অর্ডারের প্রয়োজন হয় এবং উপায় এবং ভেরিয়েন্সের জন্য সংখ্যাযুক্ত ডেটা প্রয়োজন। আমি মনে করি বার গ্রাফ এবং পাই চার্টটি গুণগত পরিবর্তনশীলগুলির সংক্ষিপ্ত করার সঠিক উপায়গুলির সাধারণ উদাহরণ যা সাধারণ নয়।


3
@ পিটারফ্লম আমার বক্তব্যটি গুণগত তথ্য সংক্ষিপ্ত করার জন্য সমস্ত সম্ভাব্য গ্রাফিকাল পদ্ধতি তালিকাভুক্ত করা হয়নি। আমি সত্যিই জোর দিয়ে বলতে চাই যে এটি সত্যই অনুপাত যা তুলনা করা যায় এবং যেভাবে বিভাগগুলিতে অনুপাতগুলি বিতরণ করা হয়। অনুপাতের মধ্যে পার্থক্যটি চাক্ষুষরূপে স্বীকৃতি দেওয়ার জন্য আমি মনে করি পাই চার্টগুলি পাই চার্টগুলির চেয়ে ভিজ্যুয়ালাইজ করা সহজ তবে শ্রেণিবদ্ধ ডেটার সংক্ষিপ্ত করার কেবল দুটি জনপ্রিয় উপায়। আমি উপলব্ধি করতে চাই না যে তারা সবথেকে ভাল কারণ আমি সমস্ত উপলব্ধ পদ্ধতির সাথে পরিচিত নই।
মাইকেল আর চেরনিক

7
তারা অবশ্যই জনপ্রিয়! তবে আমি পাই চার্টগুলি কম জনপ্রিয় করার জন্য ক্ষেত্রের বিশেষজ্ঞ হিসাবে এটি আমাদের দায়িত্বের অংশ বলে মনে করি ।
পিটার ফ্লুম - মনিকা পুনরায়

3
ক্লিভল্যান্ড প্রথম দেখিয়েছিল যে লোকেরা লিনিয়ার দূরত্বের চেয়ে কৌণিক পরিমাপ অনুধাবন করতে খারাপ হয়। দ্বিতীয়ত, পাই পাইতে রঙগুলি পরিবর্তন করে ফালিগুলির আকার সম্পর্কে লোকের উপলব্ধি পরিবর্তন করে। তৃতীয়ত, পাই চার্টটি ঘুরিয়ে ফালিগুলির আকার সম্পর্কে লোকের উপলব্ধি পরিবর্তন করে। চতুর্থত: লোকেরা খুব আলাদা আকারের না হলে স্লাইসগুলি বৃহত্তম থেকে ক্ষুদ্রতম পর্যন্ত অর্ডার করতে সমস্যা হয়েছিল। ক্লিভল্যান্ড ডট প্লটগুলি এগুলি এড়িয়ে চলে।
পিটার ফ্লুম - মনিকা পুনরায়

6
@ মিশেল "একটি টেবিলটি বোবা পাই চার্টের চেয়ে প্রায় সবসময়ই ভাল; পাই চার্টের চেয়ে একমাত্র খারাপ নকশা এর মধ্যে বেশ কয়েকটি ... পাই চার্ট কখনও ব্যবহার করা উচিত নয়" "- টুফ্ট। "পাই চার্ট দ্বারা সর্বদা ডট চার্ট দ্বারা প্রদর্শিত হতে পারে এমন ডেটা ... 1920 এর দশকে পাই চার্ট এবং বিভক্ত বার চার্টের আপেক্ষিক গুণাবলী সম্পর্কে জাসার পাতায় যুদ্ধ শুরু হয়েছিল ... উভয় শিবির হেরেছে কারণ অন্যান্য গ্রাফ বিভক্ত বার চার্ট বা পাই চার্টগুলির চেয়ে অনেক বেশি ভাল পারফর্ম করে। "- ক্লিভল্যান্ড। আপনারা জানেন যে ক্লেভল্যান্ড হস্তক্ষেপমূলক নয়: এটি যতটা শক্তিশালী সে যে কোনও বিষয়েই পায়।
whuber

6
বিটিডাব্লু, @ মিশেল, আমি আপনাকে এবং এই থ্রেডে যে যুক্তিগুলি দিচ্ছি তার সাথে আমি একমত (যা আমি দৃinc়প্রত্যয়ী এবং ভালভাবে উপস্থাপন করি), তবে একজন পরিচালক হিসাবে আমাকে "ভয়েসের সুর" সম্পর্কে সম্প্রদায়ের সদস্যদের দ্বারা কড়া আপত্তি জানাতে হবে আপনি গ্রহণ করছেন। দয়া করে সাইটের শিষ্টাচার অনুসরণ করুন: বিষয়টিতে লেগে থাকুন এবং অন্যকে আক্রমণ করবেন না। এমনকী এমন স্টাফও লিখবেন না যা আক্রমণ হিসাবে শব্দ হতে পারে, এমনকি ঠাট্টা করেও। অবশ্যই একই উপদেশ সকলের কাছে প্রসারিত।
whuber

2

মোড এখনও কাজ করে! এটি কি গুরুত্বপূর্ণ সংক্ষিপ্ত পরিসংখ্যান নয়? (সর্বাধিক সাধারণ বিভাগটি কী?) আমার কাছে মনে হয় যে পরিসংখ্যান হিসাবে মিডিয়ান পরামর্শটির কোনও মূল্য নেই তবে মোডটি তা করে।

পৃথক গণনা মূল্যবান হবে। (আপনার কতটি বিভাগ রয়েছে?)

আপনি (সর্বাধিক সাধারণ বিভাগ) / (সর্বনিম্ন সাধারণ বিভাগ) বা (# 1 সর্বাধিক সাধারণ বিভাগ) / (# 2 সবচেয়ে সাধারণ বিভাগ) এর মতো অনুপাত তৈরি করতে পারেন। এছাড়াও (সর্বাধিক সাধারণ বিভাগ) / (অন্যান্য সমস্ত বিভাগ) যেমন 80/20 নিয়ম।

আপনি আপনার বিভাগগুলিতে নম্বরও নির্ধারণ করতে পারেন এবং সমস্ত স্বাভাবিক পরিসংখ্যানের সাথে বাদাম যেতে পারেন। এএ = 1, হিপ্প = 2, ইত্যাদি এখন আপনি গড়, মিডিয়ান, মোড, এসডি ইত্যাদি গণনা করতে পারবেন


0

আমি অন্যান্য উত্তরগুলির প্রশংসা করি, তবে এটি আমার কাছে মনে হয় যে কিছু টপোলজিকাল পটভূমি প্রতিক্রিয়াগুলিতে একটি প্রয়োজনীয় কাঠামো দেবে।

সংজ্ঞা

আসুন ডোমেনগুলির সংজ্ঞা স্থাপন করে শুরু করি:

  • শ্রেণীবদ্ধ ভেরিয়েবল এমন একটি যার ডোমেনটিতে উপাদান রয়েছে তবে তাদের মধ্যে কোনও পরিচিত সম্পর্ক নেই (সুতরাং আমাদের কেবল বিভাগগুলি রয়েছে)। উদাহরণগুলি, প্রসঙ্গে নির্ভর করুন, তবে আমি সাধারণ ক্ষেত্রে বলতে পারি, সপ্তাহের দিনগুলির তুলনা করা কঠিন: রবিবারের আগে সোমবার, যদি তাই হয়, পরের সোমবারের কী হবে? হতে পারে একটি সহজ, তবে কম ব্যবহৃত উদাহরণটি হ'ল কাপড়ের টুকরো: কোনও প্রসঙ্গ সরবরাহ না করে যা কোনও অর্ডারকে বোঝায়, ট্রাউজারগুলি জাম্পারদের আগে আসে বা বিপরীতে।

  • অর্ডিনাল ভেরিয়েবল এমন একটি যা ডোমেনের উপরে মোট অর্ডার সংজ্ঞায়িত করা হয়, অর্থাৎ ডোমেনের প্রতিটি দুটি উপাদানগুলির জন্য, আমরা বলতে পারি যে হয় সেগুলি অভিন্ন, বা একটি অন্যটির চেয়ে বড়। একটি লিকার্ট-স্কেল একটি অর্ডিনাল ভেরিয়েবলের সংজ্ঞা দেওয়ার একটি ভাল উদাহরণ। "কিছুটা সম্মত" অবশ্যই "অসম্মতি" এর চেয়ে "দৃ strongly়ভাবে সম্মত" এর নিকটেই রয়েছে is

  • ইন্টারভাল ভেরিয়েবল এমন একটি, যার ডোমেন উপাদানগুলির মধ্যে দূরত্বগুলি (একটি মেট্রিক ) সংজ্ঞা দেয়, সুতরাং আমাদের অন্তরগুলি সংজ্ঞায়িত করতে দেয় allowing

ডোমেন উদাহরণ

আমরা ব্যবহার করি এমন সাধারণ সেট হিসাবে, প্রাকৃতিক এবং আসল সংখ্যার মানক মোট অর্ডার এবং মেট্রিক থাকে। এই কারণেই আমরা আমাদের বিভাগগুলিতে সংখ্যা নির্ধারণের সময় আমাদের সাবধান হওয়া দরকার। আমরা যদি অর্ডার এবং দূরত্বকে অবহেলা করতে সাবধান না হই, তবে আমরা আমাদের শ্রেণিবদ্ধ তথ্যগুলিকে অন্তর্বর্তী ডেটাতে ব্যবহারিকভাবে রূপান্তর করি। যখন কোনও মেশিন কীভাবে এটি কাজ করে তা না জেনে শেখার অ্যালগরিদম ব্যবহার করে, একজন অনিচ্ছাকৃতভাবে এমন অনুমান করা ঝুঁকিপূর্ণ করে তোলে, ফলে সম্ভাব্যভাবে নিজের ফলাফলকে অকার্যকর করে দেয়। উদাহরণস্বরূপ, সর্বাধিক জনপ্রিয় গভীর শেখার অ্যালগরিদমগুলি তাদের অন্তর এবং অবিচ্ছিন্ন বৈশিষ্ট্যের সুবিধা গ্রহণ করে আসল সংখ্যাগুলির সাথে কাজ করে। আরেকটি উদাহরণ, 5-পয়েন্টের লিকার্ট স্কেলগুলি সম্পর্কে চিন্তা করুন, এবং আমরা তাদের উপর বিশ্লেষণ কীভাবে প্রয়োগ করি তা ধরে নেওয়া হয় যে দৃ strongly়ভাবে একমত হয় এবং সম্মত হয়মতবিরোধ একই এবং না একমত বা অসমত । এই জাতীয় সম্পর্কের জন্য মামলা করা কঠিন।

আরেকটি সেট যা আমরা প্রায়ই সঙ্গে কাজ হয় স্ট্রিংস্ট্রিংয়ের সাথে কাজ করার সময় বেশ কয়েকটি স্ট্রিং সাদৃশ্য মেট্রিক রয়েছে যা কাজে আসে। তবে এগুলি সবসময় কার্যকর হয় না। উদাহরণস্বরূপ, ঠিকানার জন্য, জন স্মিথ স্ট্রিট এবং জন স্মিথ রোড স্ট্রিংয়ের মিলের দিক থেকে বেশ ঘনিষ্ঠ, তবে অবশ্যই দুটি পৃথক সত্তা উপস্থাপন করেছেন যা মাইল দূরে থাকতে পারে।

সংক্ষিপ্ত পরিসংখ্যান

ঠিক আছে, এখন আসুন দেখি এর মধ্যে কিছু সংক্ষিপ্ত পরিসংখ্যান কীভাবে মাপসই হয়। যেহেতু পরিসংখ্যান সংখ্যাগুলির সাথে কাজ করে, তাই এর কার্যকারিতা অন্তরগুলিতে ভালভাবে সংজ্ঞায়িত হয়। তবে আসুন আমরা কীভাবে / কীভাবে শ্রেণিবদ্ধ বা অর্ডিনাল ডেটাতে তাদের সাধারণীকরণ করতে পারি তার উদাহরণগুলি দেখুন:

  • মোড - উভয় শ্রেণিবদ্ধ এবং অর্ডিনাল ডেটার সাথে কাজ করার সময়, আমরা বলতে পারি কোন উপাদানটি প্রায়শই ব্যবহৃত হয়। সুতরাং আমরা এই আছে। তারপরে আমরা @ ম্যাডডেঙ্কার তাদের উত্তরে তালিকাভুক্ত সমস্ত অন্যান্য পদক্ষেপগুলিও অর্জন করতে পারি। @ গুংয়ের আত্মবিশ্বাসের ব্যবধানও কার্যকর হতে পারে।
  • মিডিয়ান - @ পিটার-ফ্লুম যেমন বলেছেন, আপনার যতক্ষণ অর্ডার থাকবে ততক্ষণ আপনি আপনার মিডিয়ান অর্জন করতে পারবেন।
  • গড় , তবে স্ট্যান্ডার্ড বিচ্যুতি, শতাংশগুলিও ইত্যাদি - দূরত্বের মেট্রিকের প্রয়োজনের কারণে আপনি এগুলি কেবলমাত্র বিরতি ডেটা দিয়ে পান।

ডেটা প্রসঙ্গের উদাহরণ

শেষে, আমি আবারও চাপ দিতে চাই যে আপনি আপনার ডেটাতে যে অর্ডার এবং মেট্রিকগুলি নির্ধারণ করেছেন তা অত্যন্ত প্রাসঙ্গিক। এটি এখনই সুস্পষ্ট হওয়া উচিত, তবে আমি আপনাকে একটি শেষ উদাহরণ দেই: ভৌগলিক অবস্থানগুলির সাথে কাজ করার সময়, তাদের কাছে যাওয়ার জন্য আমাদের কাছে প্রচুর ভিন্ন উপায় রয়েছে:

  • যদি আমরা তাদের মধ্যে দূরত্ব সম্পর্কে আগ্রহী, আমরা তাদের ভূ-অবস্থান নিয়ে কাজ করতে পারি, যা মূলত আমাদেরকে দ্বি-মাত্রিক সংখ্যাসূচক স্থান দেয়, এইভাবে বিরতি।
  • যদি আমরা তাদের সম্পর্কের অংশটিতে আগ্রহী হয় তবে আমরা মোট অর্ডারটি সংজ্ঞায়িত করতে পারি (উদাহরণস্বরূপ একটি রাস্তাই একটি শহরের অংশ, দুটি শহর সমান, একটি মহাদেশ একটি দেশকে অন্তর্ভুক্ত করে)
  • যদি আমরা দুটি স্ট্রিং একই ঠিকানার প্রতিনিধিত্ব করে কিনা তা আগ্রহী, আমরা কিছু স্ট্রিং দূরত্ব নিয়ে কাজ করতে পারি যা বানান ভুল এবং শব্দের অবস্থানের অদলবদল সহ্য করতে পারে, তবে বিভিন্ন পদ এবং নাম আলাদা করতে নিশ্চিত করে নিই। এটি কোনও সহজ জিনিস নয়, তবে কেবল মামলাটি করা।
  • প্রচুর অন্যান্য ব্যবহারের কেস রয়েছে, যা আমাদের প্রত্যেকেই প্রতিদিনের মুখোমুখি হয়, যেখানে এর কোনওটিই বোঝায় না। তাদের মধ্যে কয়েকটি ঠিকানাকে ঠিক আলাদা বিভাগ হিসাবে বিবেচনা করার মতো আর কিছুই করার নেই, অন্যথায় এটি খুব স্মার্ট ডেটা মডেলিং এবং প্রিপ্রোসেসিংয়ে নেমে আসে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.