আমি প্রচুর আর ডেটাসেটগুলি, ডিএএসএল এবং অন্য কোথাও পোস্টিংয়ের দিকে নজর রেখেছি এবং পরীক্ষামূলক তথ্যগুলির জন্য কোভারিয়েন্সের বিশ্লেষণ চিত্রিত আকর্ষণীয় ডেটাসেটের খুব ভাল উদাহরণ খুঁজে পাচ্ছি না। স্ট্যাট পাঠ্যপুস্তকে স্বীকৃত ডেটা সহ অসংখ্য "খেলনা" ডেটাসেট রয়েছে।
আমি একটি উদাহরণ পেতে চাই যেখানে:
- একটি আকর্ষণীয় গল্প সহ তথ্যগুলি আসল
- কমপক্ষে একটি চিকিত্সার ফ্যাক্টর এবং দুটি কোভারিয়েট রয়েছে
- কমপক্ষে একটি কোভারিয়েট চিকিত্সার কারণগুলির এক বা একাধিক দ্বারা প্রভাবিত হয় এবং একজন চিকিত্সা দ্বারা প্রভাবিত হয় না।
- অগ্রাধিকার হিসাবে পর্যবেক্ষণের চেয়ে পরীক্ষামূলক
পটভূমি
আমার আসল লক্ষ্য হল আমার আর প্যাকেজটির জন্য ভিগনেটে রাখার জন্য একটি ভাল উদাহরণ খুঁজে পাওয়া। তবে বৃহত্তর লক্ষ্য হ'ল সম্প্রদায় বিশ্লেষণে কিছু গুরুত্বপূর্ণ উদ্বেগের চিত্রিত করার জন্য লোকেরা ভাল উদাহরণ দেখতে হবে। নিম্নলিখিত মেক-আপ দৃশ্যের বিষয়টি বিবেচনা করুন (এবং দয়া করে বুঝতে পারেন যে আমার কৃষিক্ষেত্রের জ্ঞানটি সর্বোপরি পর্যাপ্ত)।
- আমরা একটি পরীক্ষা করি যেখানে সার প্লটগুলিতে এলোমেলোভাবে তৈরি হয় এবং একটি ফসল রোপণ করা হয়। উপযুক্ত ক্রমবর্ধমান সময়ের পরে, আমরা ফসল কাটা এবং কিছু মানের বৈশিষ্ট্য পরিমাপ করি - এটি প্রতিক্রিয়া পরিবর্তনশীল। তবে আমরা ক্রমবর্ধমান সময়কালে মোট বৃষ্টিপাত এবং ফসলের সময় মাটির অম্লতা রেকর্ড করি - এবং অবশ্যই কোন সার ব্যবহার করা হত। এইভাবে আমাদের দুটি সহকারী এবং একটি চিকিত্সা রয়েছে।
ফলস্বরূপ তথ্য বিশ্লেষণের স্বাভাবিক উপায়টি হ'ল ফ্যাক্টর হিসাবে চিকিত্সা সহ একটি লিনিয়ার মডেল ফিট করা এবং কোভেরিয়েটগুলির জন্য সংযোজনমূলক প্রভাব। তারপরে ফলাফলগুলি সংক্ষিপ্ত করতে, একটি গণনা করা "অ্যাডজাস্টেড মানে" (একে একে সর্বনিম্ন-স্কোয়ারের অর্থ), যা প্রতিটি সারের জন্য গড় বৃষ্টিপাত এবং 3 গড় মাটির অম্লতায় মডেল থেকে পূর্বাভাস। এটি সবকিছুকে সমান পদক্ষেপে ফেলেছে, কারণ আমরা যখন এই ফলাফলগুলির সাথে তুলনা করি তখন আমরা বৃষ্টিপাত এবং অম্লতা ধ্রুবক ধারণ করি।
তবে এটি সম্ভবত ভুল কাজ - কারণ সার সম্ভবত মাটির অম্লতা এবং প্রতিক্রিয়াকেও প্রভাবিত করে। এটি সামঞ্জস্য করা মানে বিভ্রান্তিমূলক করে তোলে, কারণ চিকিত্সা প্রভাবটি অম্লতায় তার প্রভাব অন্তর্ভুক্ত করে। এটি পরিচালনা করার একটি উপায় হ'ল মডেলটির বাইরে থেকে অম্লতা আনা, তারপরে বৃষ্টিপাত-সমন্বিত উপায়গুলি একটি ন্যায্য তুলনা সরবরাহ করে। তবে যদি অ্যাসিডিটি গুরুত্বপূর্ণ হয়, তবে এই ন্যায্যতাটি ব্যয়বহুল পরিবর্তনের বৃদ্ধিতে, দুর্দান্ত ব্যয়ে আসে।
মডেলটিতে তার মূল মানগুলির পরিবর্তে অম্লতার একটি সামঞ্জস্যিত সংস্করণ ব্যবহার করে এটিকে ঘিরে কাজ করার উপায় রয়েছে। আমার আর প্যাকেজ lsmeans এর আসন্ন আপডেট এটি একেবারে সহজ করে তুলবে। তবে আমি এটির উদাহরণ দেওয়ার জন্য একটি ভাল উদাহরণ রাখতে চাই। যে কেউ আমাকে কিছু ভাল উদাহরণস্বরূপ ডেটাসেটগুলিতে নির্দেশ করতে পারে আমি তার প্রতি কৃতজ্ঞ, এবং যথাযথভাবে স্বীকৃতি জানাব।