কম জন্ম ওজন অধ্যয়ন
এটি প্রয়োগকৃত লজিস্টিক রিগ্রেশন (2000, উইলি, 2 য় সংস্করণ) তে হোসমার এবং লেমশোর পাঠ্যপুস্তকের অন্যতম ডেটাসেট । এই সম্ভাব্য অধ্যয়নের লক্ষ্য হ'ল নিম্ন জন্মের ওজনের বাচ্চা (2,500 গ্রামেরও কম ওজনের) জন্ম দেওয়ার সাথে সম্পর্কিত ঝুঁকির কারণগুলি চিহ্নিত করা। 189 জন মহিলার উপর ডেটা সংগ্রহ করা হয়েছিল, যার মধ্যে 59 টির মধ্যে কম জন্মের ওজন বাচ্চা ছিল এবং তাদের মধ্যে 130 টি জন্মের ওজনের শিশু ছিল। চারটি পরিবর্তনশীল যা গুরুত্ব বিবেচিত হয়েছিল তা হ'ল বয়স, তার শেষ মাসিকের সময় ওজনের ওজন এবং গর্ভাবস্থার প্রথম ত্রৈমাসিকের সময় চিকিত্সকের পরিদর্শন সংখ্যা।
এটি আর হিসাবে data(birthwt, package="MASS")
বা স্টাটা সহ উপলব্ধ webuse lbw
। একটি পাঠ্য সংস্করণ এখানে উপস্থিত হবে: lowbwt.dat ( বিবরণ )। লক্ষণীয়, এই ডেটাসেটের বেশ কয়েকটি সংস্করণ রয়েছে কারণ এটি কেস-নিয়ন্ত্রণ স্টাডিতে (1-1 বা 1-3- বয়সের সাথে মিলিত) প্রসারিত হয়েছিল, যেমন আলেআর অধ্যায় in এর হোসমার এবং লেমশো দ্বারা চিত্রিত।
আমি নিম্নলিখিত কারণে এই ডেটাসেটের উপর ভিত্তি করে প্রাথমিক পাঠ্যক্রম পড়াতাম:
- এটি historicalতিহাসিক এবং মহামারী সংক্রান্ত দৃষ্টিকোণ থেকে আকর্ষণীয় (1986 সালে ডেটা সংগ্রহ করা হয়েছিল); মূল ধারণাগুলি এবং সেই গবেষণা থেকে কোন প্রশ্ন জিজ্ঞাসা করা যেতে পারে তা বোঝার জন্য চিকিত্সা বা পরিসংখ্যানগুলির কোনও পূর্ববর্তী পটভূমি প্রয়োজন নেই।
- χ2
- এটি বিভিন্ন মডেলিং দৃষ্টিভঙ্গি (ব্যাখ্যামূলক বা ভবিষ্যদ্বাণীমূলক পদ্ধতির) এবং মডেলগুলি বিকাশ করার সময় স্যাম্পলিং স্কিমের জড়িত (স্ট্র্যাটিফিকেশন / ম্যাচিং কেস) আলোচনা করতে অনুমতি দেয়।
পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার, বা সাধারণভাবে পরিসংখ্যানগুলির সাথে দক্ষতার স্তর এবং শ্রোতার উপর নির্ভর করে অন্যান্য পয়েন্টগুলিকে জোর দেওয়া যেতে পারে।
আর-তে উপলব্ধ ডেটাসেটের ক্ষেত্রে শ্রেণিবদ্ধ ভবিষ্যদ্বাণীকারীদের পূর্ণসংখ্যা হিসাবে চিহ্নিত করা হয় (উদাহরণস্বরূপ, মায়ের জাতিগততার জন্য আমাদের কাছে '1' = সাদা, '2' = কালো, '3' = অন্যান্য), কিছু ভবিষ্যদ্বাণীকারীদের জন্য প্রাকৃতিক আদেশের বিষয়টি সত্ত্বেও (উদাহরণস্বরূপ, আগের অকাল শ্রমের সংখ্যা বা চিকিত্সকের পরিদর্শনের সংখ্যা) বা স্পষ্ট লেবেলগুলির ব্যবহার (বাইনারি ভেরিয়েবলের জন্য 1/0 এর পরিবর্তে 'হ্যাঁ' / 'না' ব্যবহার করা সর্বদা ভাল ধারণা, যদিও তা না করে ' ডিজাইনের ম্যাট্রিক্সে কোনও পরিবর্তন আনুন!) কেবল অনুপস্থিত। সেই হিসাবে, ডেটা বিশ্লেষণের স্তর বা পরিমাপের এককগুলিকে উপেক্ষা করে কী কী সমস্যা উত্থাপিত হতে পারে তা আলোচনা করা সহজ।
মিশ্র প্রকারের ভেরিয়েবলগুলি আকর্ষণীয় হয় যখন এটি কিছু অনুসন্ধান বিশ্লেষণ করতে আসে এবং অবিবাহিত, দ্বিবিভক্ত বা তুচ্ছ সম্পর্কের সংক্ষিপ্তসার জন্য কোন ধরণের গ্রাফিকাল প্রদর্শনগুলি উপযুক্ত তা নিয়ে আলোচনা করা হয়। তেমনি, দুর্দান্ত সংক্ষিপ্ত টেবিল উত্পাদন করা এবং আরও সাধারণভাবে রিপোর্ট করা এই ডেটাসেটের আরেকটি আকর্ষণীয় দিক (তবে Hmisc::summary.formula
আদেশটি এটি আর এর অধীনে এত সহজ করে তোলে)।
হোসমার এবং লেমশো জানিয়েছে যে বিষয়টির গোপনীয়তা রক্ষার জন্য প্রকৃত তথ্য পরিবর্তন করা হয়েছিল (পৃষ্ঠা 25)। এটা তোলে, ডাটা গোপনীয়তা বিষয় নিয়ে আলোচনা হিসাবে আমাদের আগে এক করা হয়েছিল আকর্ষণীয় হতে পারে জার্নাল ক্লাব , কিন্তু তার দেখতে প্রতিলিপি । (আমি অবশ্যই স্বীকার করব যে এর সাথে আমি কখনই বেশি বিশদে যাই না))
কিছু অনুপস্থিত মান বা ভ্রান্ত মূল্যবোধ (যা কোনও পরিসংখ্যানবিদদের বাস্তব জীবনে সাধারণ বিষয়) প্রবর্তন করা সহজ, যা (ক) কোডবুকের মাধ্যমে তাদের সনাক্তকরণ ( Hmisc::describe
বা স্টাটারের codebook
) বা অনুসন্ধানী গ্রাফিক্সের (সর্বদা আপনার ডেটাটিকে প্রথমে প্লট করে!) আলোচনার দিকে পরিচালিত করে , এবং (খ) সম্ভাব্য প্রতিকারমূলক (ডেটা ইমপুটেশন, লিস্টওয়াইজ মুছে ফেলা বা অ্যাসোসিয়েশনের জোড়াওয়ালা পরিমাপ ইত্যাদি)।