এখানে বেশ কয়েকটি সমস্যা রয়েছে।
সাধারণত, আমরা একটি ন্যূনতম নমুনার আকার নির্ধারণ করতে চাই যাতে পরিসংখ্যানগত শক্তির একটি সর্বনিম্ন গ্রহণযোগ্য স্তর অর্জন করতে পারে । প্রয়োজনীয় নমুনার আকার হ'ল বিভিন্ন কারণের একটি ক্রিয়া, মূলত আপনি যে পরিমাণে প্রভাব 0 (বা আপনি যে নালটি ব্যবহার করছেন তবে 0 সবচেয়ে সাধারণ) থেকে আলাদা করতে সক্ষম হতে চান তার প্রভাব এবং আপনি সেই প্রভাবটি ধরার ন্যূনতম সম্ভাবনা নিতে চাই. এই দৃষ্টিকোণ থেকে কাজ করে, নমুনা আকার একটি শক্তি বিশ্লেষণ দ্বারা নির্ধারিত হয়।
আরেকটি বিবেচনা হ'ল আপনার মডেলের স্থিতিশীলতা (@ কেবিলেট নোট হিসাবে)। মূলত, যেমন ডেটার সংখ্যা আনুমানিক পরামিতি অনুপাত 1 পাসে পায়, আপনার মডেল সম্পৃক্ত হয়ে যাবে, এবং অগত্যা হতে overfit (যদি না আছে, আসলে, সিস্টেমের মধ্যে কোন যদৃচ্ছতা)। থাম্বের 1 থেকে 10 অনুপাতের নিয়মটি এই দৃষ্টিকোণ থেকে আসে। নোট করুন যে পর্যাপ্ত শক্তি থাকা সাধারণত আপনার জন্য এই উদ্বেগটি কভার করবে তবে বিপরীতে নয়।
1 থেকে 10 বিধিটি লিনিয়ার রিগ্রেশন ওয়ার্ল্ড থেকে আসে তবে এটি লজিস্টিক রিগ্রেশনটিতে অতিরিক্ত জটিলতা রয়েছে তা স্বীকৃতি দেওয়া জরুরী। একটি বিষয় হ'ল লজিস্টিক রিগ্রেশন সেরা কাজ করে যখন 1 এবং 0 এর শতাংশগুলি প্রায় 50% / 50% হয় (যেমন @ অ্যান্ড্রিয়া এবং @ পিজেজে উপরের মন্তব্যে আলোচনা হয়েছে)। আরেকটি বিষয় সঙ্গে সংশ্লিষ্ট করা বিচ্ছেদ । এটি হ'ল, আপনি আপনার 1 এর সমস্তগুলি একটি পৃথক ভেরিয়েবলের (বা তাদের কোনও সংমিশ্রণ) এর একটি চূড়ায় এবং 0 এর সমস্তগুলি অন্যান্য চরম আকারে একত্রিত করতে চান না। যদিও এটি একটি ভাল পরিস্থিতির মতো বলে মনে হচ্ছে, কারণ এটি নিখুঁত পূর্বাভাসকে সহজ করে তুলবে, এটি আসলে প্যারামিটারের প্রাক্কলন প্রক্রিয়াটিকে ফুটিয়ে তোলে। (@ স্কোর্টচি এখানে কীভাবে লজিস্টিক রিগ্রেশনটিতে বিচ্ছিন্নতা মোকাবেলা করতে পারেন তার একটি চমৎকার আলোচনা আছে:লজিস্টিক রিগ্রেশন নিখুঁত পৃথকীকরণ মোকাবেলা কিভাবে? ) আরও চতুর্থ এর সাথে, এটি প্রভাবগুলির সত্য মাত্রার ধ্রুবকভাবে ধরে থাকলেও এবং বিশেষত আপনার প্রতিক্রিয়াগুলি ভারসাম্যহীন থাকলেও এটি সম্ভবত আরও বেশি হয়ে যায়। সুতরাং, আপনার প্রতি আইভিতে 10 টিরও বেশি ডেটা প্রয়োজন।
থাম্বের সেই নিয়মটির সাথে একটি শেষ ইস্যুটি হ'ল এটি আপনার চতুর্থ শ্রেণীর অরথোগোনাল । এটি নকশা করা পরীক্ষাগুলির জন্য যুক্তিসঙ্গত, তবে আপনার মতো পর্যবেক্ষণমূলক স্টাডির সাথে আপনার চতুর্থটি মোটামুটি orthogonal কখনও হবে না। এই পরিস্থিতি মোকাবেলার জন্য কৌশল রয়েছে (যেমন, চতুর্থ সংমিশ্রণ বা বাদ দেওয়া, প্রথমে মূল উপাদানগুলির বিশ্লেষণ পরিচালনা করা ইত্যাদি), তবে যদি এটি সমাধান করা না হয় (যা সাধারণ) তবে আপনার আরও ডেটা প্রয়োজন।
তারপরে একটি যুক্তিসঙ্গত প্রশ্ন, আপনার ন্যূনতম এনটি কী হওয়া উচিত, এবং / অথবা আপনার নমুনার আকারটি যথেষ্ট? এর সমাধানের জন্য, আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি @cbeleites আলোচিত পদ্ধতিগুলি ব্যবহার করুন; 1 থেকে 10 রুলের উপর নির্ভর করা অপর্যাপ্ত হবে।
1
গুলি) এবং 90 টি নন-কেস (এর0
গুলি) হয়, তবে বিধিটি বলে "কেবলমাত্র 1 ভবিষ্যদ্বাণী অন্তর্ভুক্ত করুন"। তবে আমি যদি0
এর পরিবর্তে এরগুলির মডেল করি1
এবং তারপরে আমি আনুমানিক প্রতিকূলতার অনুপাতটি গ্রহণ করি? 9 জন ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করার অনুমতি দেওয়া হবে? এটা আমার বোধগম্য হলো না।