পরিসংখ্যানগত বিশ্লেষণের বিশেষ দিকগুলি চিত্রিত করার জন্য ভাল ডেটাসেটগুলি কী কী?


16

আমি বুঝতে পারি এটি বিষয়ভিত্তিক, তবে আমি ভেবেছিলাম আমাদের প্রিয় ডেটাসেটগুলি এবং আমরা যা মনে করি সেগুলি আকর্ষণীয় করে তোলে সে সম্পর্কে কথা বললে ভাল লাগবে। এখানে প্রচুর পরিমাণে ডেটা রয়েছে এবং ক্লাসিক ডেটাসেটের (যেমন, আর ডেটা ) সমস্ত এপিআই (যেমন, ডেটামব ) এর সাথে কী রয়েছে, আমি মনে করি এতে কিছু আকর্ষণীয় প্রতিক্রিয়া থাকতে পারে।

উদাহরণস্বরূপ, আমি সর্বদা "বস্টন হাউজিং" ডেটাসেটের মতো ডেটাसेट পছন্দ করেছি (তবুও দুর্ভাগ্যজনক প্রভাব) তবে তাদের বহুমুখিতাটির জন্য "এমটিকার্স"। শিক্ষাগত দৃষ্টিভঙ্গি থেকে, কেউ এগুলি ব্যবহার করে বিভিন্ন পরিসংখ্যানগত কৌশলগুলির গুণাবলী প্রদর্শন করতে পারে; এবং অ্যান্ডারসন / ফিশারের আইরিস ডেটাসেটের সর্বদা আমার হৃদয়ে জায়গা থাকবে।

থটস?



3
ক্রস যাচাইয়ে স্বাগতম! এটি আলোচনার ফোরাম নয়, আসল উত্তরের সাথে প্রশ্নগুলির জন্য প্রশ্নোত্তর সাইট হিসাবে ডিজাইন করা হয়েছে। এরূপ হিসাবে, আমি বিশ্বাস করি না যে এটি এই সাইটে আমরা কী ধরনের প্রশ্ন চাই। FAQ দেখুন দয়া করে ।
মাইকেল ম্যাকগোয়ান

4
আমি সচেতন যে এটি একটি প্রশ্নোত্তর হিসাবে ডিজাইন করা হয়েছে, তবে "আপনার পছন্দের পরিসংখ্যান কার্টুন কি?" উচ্চমাত্রায় ভোট পেয়ে আমি অনুভব করেছি যে এটি মারাত্মকভাবে অনুচিত হবে না। বিশেষত শিক্ষাগতভাবে, যদি কেউ ডেটা বিশ্লেষণ এবং অনুসন্ধানের কৌশলগুলি সম্পর্কে জানার চেষ্টা করছেন, তবে পাবলিক ডেটাসেটগুলির জন্য কিছু প্রতিক্রিয়া পাওয়া দরকারী যেগুলি একটি সমৃদ্ধ কাঠামো সরবরাহ করে এবং এর পিছনে প্রচুর ইতিহাস এবং গবেষণা রয়েছে have
ডিএ

4
আমি সম্প্রদায়টিকে এটি বন্ধ করতে হবে (গঠনমূলক নয়) তা সিদ্ধান্ত নিতে দিতে আগ্রহী, যদিও আমি যুক্ত করব যে পুঙ্খানুপুঙ্খ এবং যুক্তিযুক্ত জবাবগুলি ডেটা বিশ্লেষণের নির্দিষ্ট দিকগুলির ভবিষ্যতের প্রশ্নের পক্ষে সহায়তা হিসাবে কাজ করতে পারে। আমি এর মধ্যে সিডাব্লুতে রূপান্তর করছি কারণ স্পষ্টতই, এর চেয়ে সেরা কোনও উত্তর নেই no
chl

2
এই প্রশ্ন এবং তাদের উত্তর আমার জন্য খুব দরকারী। অপসারণ করবেন না দয়া করে।
ডিজাইন করুন

উত্তর:


12

কম জন্ম ওজন অধ্যয়ন

এটি প্রয়োগকৃত লজিস্টিক রিগ্রেশন (2000, উইলি, 2 য় সংস্করণ) তে হোসমার এবং লেমশোর পাঠ্যপুস্তকের অন্যতম ডেটাসেট । এই সম্ভাব্য অধ্যয়নের লক্ষ্য হ'ল নিম্ন জন্মের ওজনের বাচ্চা (2,500 গ্রামেরও কম ওজনের) জন্ম দেওয়ার সাথে সম্পর্কিত ঝুঁকির কারণগুলি চিহ্নিত করা। 189 জন মহিলার উপর ডেটা সংগ্রহ করা হয়েছিল, যার মধ্যে 59 টির মধ্যে কম জন্মের ওজন বাচ্চা ছিল এবং তাদের মধ্যে 130 টি জন্মের ওজনের শিশু ছিল। চারটি পরিবর্তনশীল যা গুরুত্ব বিবেচিত হয়েছিল তা হ'ল বয়স, তার শেষ মাসিকের সময় ওজনের ওজন এবং গর্ভাবস্থার প্রথম ত্রৈমাসিকের সময় চিকিত্সকের পরিদর্শন সংখ্যা।

এটি আর হিসাবে data(birthwt, package="MASS")বা স্টাটা সহ উপলব্ধ webuse lbw। একটি পাঠ্য সংস্করণ এখানে উপস্থিত হবে: lowbwt.dat ( বিবরণ )। লক্ষণীয়, এই ডেটাসেটের বেশ কয়েকটি সংস্করণ রয়েছে কারণ এটি কেস-নিয়ন্ত্রণ স্টাডিতে (1-1 বা 1-3- বয়সের সাথে মিলিত) প্রসারিত হয়েছিল, যেমন আলেআর অধ্যায় in এর হোসমার এবং লেমশো দ্বারা চিত্রিত।

আমি নিম্নলিখিত কারণে এই ডেটাসেটের উপর ভিত্তি করে প্রাথমিক পাঠ্যক্রম পড়াতাম:

  • এটি historicalতিহাসিক এবং মহামারী সংক্রান্ত দৃষ্টিকোণ থেকে আকর্ষণীয় (1986 সালে ডেটা সংগ্রহ করা হয়েছিল); মূল ধারণাগুলি এবং সেই গবেষণা থেকে কোন প্রশ্ন জিজ্ঞাসা করা যেতে পারে তা বোঝার জন্য চিকিত্সা বা পরিসংখ্যানগুলির কোনও পূর্ববর্তী পটভূমি প্রয়োজন নেই।
  • χ2
  • এটি বিভিন্ন মডেলিং দৃষ্টিভঙ্গি (ব্যাখ্যামূলক বা ভবিষ্যদ্বাণীমূলক পদ্ধতির) এবং মডেলগুলি বিকাশ করার সময় স্যাম্পলিং স্কিমের জড়িত (স্ট্র্যাটিফিকেশন / ম্যাচিং কেস) আলোচনা করতে অনুমতি দেয়।

পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার, বা সাধারণভাবে পরিসংখ্যানগুলির সাথে দক্ষতার স্তর এবং শ্রোতার উপর নির্ভর করে অন্যান্য পয়েন্টগুলিকে জোর দেওয়া যেতে পারে।

  1. আর-তে উপলব্ধ ডেটাসেটের ক্ষেত্রে শ্রেণিবদ্ধ ভবিষ্যদ্বাণীকারীদের পূর্ণসংখ্যা হিসাবে চিহ্নিত করা হয় (উদাহরণস্বরূপ, মায়ের জাতিগততার জন্য আমাদের কাছে '1' = সাদা, '2' = কালো, '3' = অন্যান্য), কিছু ভবিষ্যদ্বাণীকারীদের জন্য প্রাকৃতিক আদেশের বিষয়টি সত্ত্বেও (উদাহরণস্বরূপ, আগের অকাল শ্রমের সংখ্যা বা চিকিত্সকের পরিদর্শনের সংখ্যা) বা স্পষ্ট লেবেলগুলির ব্যবহার (বাইনারি ভেরিয়েবলের জন্য 1/0 এর পরিবর্তে 'হ্যাঁ' / 'না' ব্যবহার করা সর্বদা ভাল ধারণা, যদিও তা না করে ' ডিজাইনের ম্যাট্রিক্সে কোনও পরিবর্তন আনুন!) কেবল অনুপস্থিত। সেই হিসাবে, ডেটা বিশ্লেষণের স্তর বা পরিমাপের এককগুলিকে উপেক্ষা করে কী কী সমস্যা উত্থাপিত হতে পারে তা আলোচনা করা সহজ।

  2. মিশ্র প্রকারের ভেরিয়েবলগুলি আকর্ষণীয় হয় যখন এটি কিছু অনুসন্ধান বিশ্লেষণ করতে আসে এবং অবিবাহিত, দ্বিবিভক্ত বা তুচ্ছ সম্পর্কের সংক্ষিপ্তসার জন্য কোন ধরণের গ্রাফিকাল প্রদর্শনগুলি উপযুক্ত তা নিয়ে আলোচনা করা হয়। তেমনি, দুর্দান্ত সংক্ষিপ্ত টেবিল উত্পাদন করা এবং আরও সাধারণভাবে রিপোর্ট করা এই ডেটাসেটের আরেকটি আকর্ষণীয় দিক (তবে Hmisc::summary.formulaআদেশটি এটি আর এর অধীনে এত সহজ করে তোলে)।

  3. হোসমার এবং লেমশো জানিয়েছে যে বিষয়টির গোপনীয়তা রক্ষার জন্য প্রকৃত তথ্য পরিবর্তন করা হয়েছিল (পৃষ্ঠা 25)। এটা তোলে, ডাটা গোপনীয়তা বিষয় নিয়ে আলোচনা হিসাবে আমাদের আগে এক করা হয়েছিল আকর্ষণীয় হতে পারে জার্নাল ক্লাব , কিন্তু তার দেখতে প্রতিলিপি । (আমি অবশ্যই স্বীকার করব যে এর সাথে আমি কখনই বেশি বিশদে যাই না))

  4. কিছু অনুপস্থিত মান বা ভ্রান্ত মূল্যবোধ (যা কোনও পরিসংখ্যানবিদদের বাস্তব জীবনে সাধারণ বিষয়) প্রবর্তন করা সহজ, যা (ক) কোডবুকের মাধ্যমে তাদের সনাক্তকরণ ( Hmisc::describeবা স্টাটারের codebook) বা অনুসন্ধানী গ্রাফিক্সের (সর্বদা আপনার ডেটাটিকে প্রথমে প্লট করে!) আলোচনার দিকে পরিচালিত করে , এবং (খ) সম্ভাব্য প্রতিকারমূলক (ডেটা ইমপুটেশন, লিস্টওয়াইজ মুছে ফেলা বা অ্যাসোসিয়েশনের জোড়াওয়ালা পরিমাপ ইত্যাদি)।


+1 একটি অনুকরণীয় উত্তর প্রদানের জন্য আপনাকে ধন্যবাদ যা এই থ্রেডটি কার্যকর হতে পারে এবং অন্যান্য উত্তরগুলি লক্ষ্য করতে পারে (এবং হওয়া উচিত) এমন একটি বিবরণীর মান সরবরাহ করে।
whuber

এটি চমত্কার এবং ঠিক আমি কী জিজ্ঞাসা করার সাথে সন্ধান করছিলাম। আপনি অন্তর্দৃষ্টি মূল্যবান জন্য আমি আপনাকে ধন্যবাদ।
ডিএ

5

অবশ্যই, আনসকম্ব 4 টি ডেটাসেটগুলি শিক্ষার জন্য খুব ভাল - এগুলি দেখতে খুব আলাদা, তবুও অভিন্ন সাধারণ পরিসংখ্যানগত বৈশিষ্ট্য রয়েছে।

আমি কেডিডি কাপের ডেটাসেটগুলিকেও পরামর্শ দিচ্ছি http://www.kdd.org/kddcup/ কারণ তারা ভাল পড়াশোনা করেছে এবং এর অনেকগুলি সমাধান রয়েছে, সুতরাং শিক্ষার্থীরা তাদের ফলাফলগুলির সাথে তুলনা করতে এবং তারা কীভাবে র‌্যাঙ্ক করে তা দেখতে পারে।

আমার ডেটা মাইনিং কোর্সে আমি একটি মাইক্রোয়ারে ডেটাসেট প্রতিযোগিতা সরবরাহ করেছি যা অধ্যাপকরা ব্যবহার করতে পারেন http://www.kdnuggets.com/data_mining_course/


অন্যান্য ডেটা সেটগুলির জন্য যা আনডকম্ব চতুর্মুখীর অনুরূপ প্যাডোগোগিকাল উদ্দেশ্যে ডিজাইন করা হয়েছে, এই প্রশ্নটি দেখুন
সিলভারফিশ

3

ক্যাল পলিতে আমার প্রচুর পরিসংখ্যান বিশ্লেষণ কোর্সগুলি "আইরিস" ডেটাসেট ব্যবহার করেছে যা ইতিমধ্যে আর-এ রয়েছে or


আপনি আপনার শেষ পয়েন্টগুলি প্রসারিত করতে আপত্তি করবেন: এই ডেটাসেট কীভাবে পরিসংখ্যান শিক্ষাদানে সহায়তা করে? (এএএএএএফসিটি, আইরিস ডেটাসেটের কেবল একটি
স্বতন্ত্র

এখানে একটি থ্রেড সম্পূর্ণরূপে শিক্ষায় আইরিস ডেটাসেট ব্যবহারের সাথে সম্পর্কিত ।
সিলভারফিশ

3

টাইটানিক ডেটাসেট হ্যারেল ব্যবহৃত হয়েছিল "রিগ্রেশন মডেলিং স্ট্র্যাটেজিজ" তে। লজিস্টিক রিগ্রেশনকে ব্যাখ্যা করার সময়, লিঙ্গ, শ্রেণি এবং বয়স ব্যবহার করে বেঁচে থাকার ব্যাখ্যা দেওয়ার সময় আমি তাঁর বিশ্লেষণের একটি সরলিকৃত সংস্করণ ব্যবহার করি।

Loyn ডেটা সেটটি "পরীক্ষামূলক ডিজাইন এবং জীববিজ্ঞানীরা এর ডেটা বিশ্লেষণ" গেরি কুইন এবং মিক Keough দ্বারা আলোচনা একাধিক রৈখিক রিগ্রেশনের জন্য রূপান্তর প্রয়োজন চমৎকার সমস্যার ধারণ করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.