ওভার-ফিটিং ডেটা ছাড়াই সেরা ফিট কীভাবে নির্বাচন করবেন? N সাধারণ ফাংশন ইত্যাদির সাথে দ্বিপদ বিতরণকে মডেলিং করা


11

আমার মানগুলির স্পষ্টত দ্বিপদী বিতরণ রয়েছে, যা আমি ফিট করতে চাই। 2 টি স্বাভাবিক ফাংশন (বিমোডাল) বা 3 টি সাধারণ ফাংশন সহ ডেটা ভাল ফিট হতে পারে। অতিরিক্তভাবে, 3 এর সাথে ডেটা ফিট করার জন্য একটি দেহনযোগ্য শারীরিক কারণ রয়েছে।

যত বেশি পরামিতি প্রবর্তন করা হবে ততই যথাযথ ফিট হবে, পর্যাপ্ত ধ্রুবক হিসাবে, কেউ " একটি হাতির সাথে ফিট করতে পারেন "।

এখানে বিতরণটি 3 টি স্বাভাবিক (গাউসিয়ান) কার্ভের যোগফলের সাথে খাপ খায়:

সাথে বিতরণ

এগুলি প্রতিটি ফিটের জন্য ডেটা। ফিট নির্ধারণের জন্য আমার এখানে কোন পরীক্ষার আবেদন করা উচিত তা আমি নিশ্চিত নই। তথ্য 91 পয়েন্ট নিয়ে গঠিত।

1 সাধারণ ফাংশন:

  • আরএসএস: 1.06231
  • এক্স ^ 2: 3.1674
  • এফ টেস্ট: 0.3092

2 সাধারণ কার্যাদি:

  • আরএসএস: 0.010939
  • এক্স ^ 2: 0.053896
  • এফ টেস্ট: 0.97101

3 সাধারণ কার্যাদি:

  • আরএসএস: 0.00536
  • এক্স ^ 2: 0.02794
  • এফ টেস্ট: 0.99249

এই 3 টি ফিটগুলির মধ্যে কোনটি সবচেয়ে ভাল তা নির্ধারণের জন্য সঠিক পরিসংখ্যান পরীক্ষা কী? স্পষ্টতই, 1 টি সাধারণ ফাংশন ফিট যথেষ্ট নয়। তাহলে আমি কীভাবে 2 এবং 3 এর মধ্যে পার্থক্য করতে পারি?

যোগ করার জন্য, আমি বেশিরভাগ ক্ষেত্রে এক্সেল এবং কিছুটা পাইথন দিয়ে এটি করছি; আর বা অন্যান্য পরিসংখ্যানমূলক ভাষার সাথে আমার এখনও পরিচিতি নেই।


এটি প্রস্তাবিত হয়েছে যে আমি হ্রাসযুক্ত চি স্কোয়ারড এক্স ^ 2 / (এনএন -1) ব্যবহার করি যেখানে এন হল ডেটা পয়েন্টের সংখ্যা এবং এন লাগানো পরামিতিগুলির সংখ্যা। তবে ডেটা পয়েন্টের সংখ্যার তুলনায় ছোট পেন্টাল্টি (+/- 3) (91) অন্য গাউসিয়ান যুক্ত করার জন্য স্বজ্ঞাতভাবে বিশেষভাবে খাড়া জরিমানার মতো বলে মনে হচ্ছে না।
মারফিসল্যাব

আপনি এই উত্তরটি চেক করতে চাইতে পারেন (আপনি যদি Rপথে যেতে সিদ্ধান্ত নেবেন )। কিছু মডেল নির্বাচনের মানদণ্ড এই উত্তরে উল্লেখ করা হয়েছে । অবশেষে, আপনি জড়ো পদ্ধতিগুলি বিবেচনা করতে চাইতে পারেন , যা আমি এই উত্তরে সংক্ষেপে কভার করেছি , এতে পাইথন-কেন্দ্রিক তথ্যের লিঙ্কও রয়েছে। আপনি আরো বিস্তারিত জানতে পারেন মডেল নির্বাচন এবং গড় মধ্যে এই উত্তর
আলেকসান্দ্র ব্লেক

উত্তর:


5

আপনার বিতরণ বাছাইয়ের সমস্যাটির কাছে আপনি যে দুটি পদ্ধতির কাছে যেতে পারেন তা এখানে:

  1. মডেল তুলনার জন্য এমন একটি পরিমাপ ব্যবহার করুন যা পরামিতিগুলির সংখ্যার উপর নির্ভর করে মডেলটিকে দণ্ডিত করে। তথ্যের মানদণ্ড এটি করে। কোন মডেলটি ধরে রাখতে হবে তা চয়ন করার জন্য একটি তথ্য মানদণ্ড ব্যবহার করুন, সর্বনিম্ন তথ্যের মানদণ্ডের সাথে মডেলটি চয়ন করুন (উদাহরণস্বরূপ এআইসি)। এআইসির পার্থক্য 2 টির চেয়ে বেশি হলে তুলনামূলকভাবে থাম্বের নিয়মটি হ'ল এটি (কোনও আনুষ্ঠানিক হাইপোথিসিস পরীক্ষা নয়, দুটি নন-নেস্টেড মডেলের এআইসির পার্থক্য পরীক্ষা করে দেখুন )।

    AIC = , যেখানে অনুমান পরামিতিগুলির সংখ্যা এবং সর্বাধিক সম্ভাবনা, এবং হ'ল সম্ভাবনা ফাংশন এবং বন্টন প্যারামিটার condition পর্যবেক্ষণ করা ডেটা শর্তযুক্ত ।2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. আপনি যদি একটি আনুষ্ঠানিক অনুমান পরীক্ষা করতে চান তবে আপনি কমপক্ষে দুটি উপায়ে এগিয়ে যেতে পারেন। তর্কযোগ্যভাবে সহজ হ'ল আপনার নমুনার অংশটি ব্যবহার করে আপনার বিতরণগুলি ফিট করা এবং পরীক্ষার চেয়ে যদি অবশিষ্ট ডেটাতে চি-স্কোয়ার্ড বা কোলগোমোরভ-স্মারনভ পরীক্ষা ব্যবহার করে অবশিষ্টাংশের বিতরণগুলি উল্লেখযোগ্যভাবে আলাদা হয়। মন্তব্যগুলিতে উল্লিখিত অ্যান্ড্রুএমের মতো আপনি আপনার মডেলটিকে ফিট করতে এবং পরীক্ষা করতে একইভাবে ব্যবহার করছেন না।

    নাল ডিস্ট্রিবিউশনের সামঞ্জস্যের সাথে আপনি সম্ভাবনা অনুপাতের পরীক্ষাও করতে পারেন। এর একটি সংস্করণ লো ওয়াই এট এ বর্ণিত হয়েছে। (2013) "সাধারণ মিশ্রণে উপাদানগুলির সংখ্যা পরীক্ষা করা।" বায়োমেট্রিকায় কিন্তু আমার নিবন্ধটিতে অ্যাক্সেস নেই তাই আমি কীভাবে এটি করব তা সম্পর্কে আরও বিশদ সরবরাহ করতে পারছি না।

    যে কোনও উপায়ে, যদি পরীক্ষাটি উল্লেখযোগ্য না হয় তবে প্যারামিটারের কম সংখ্যার সাথে বন্টন বজায় রাখতে সক্ষম হয়, যদি তা উল্লেখযোগ্য হয় তবে পরামিতিগুলির উচ্চতর সংখ্যার সাথে একটিটি বেছে নিন।


@ মোমো ধন্যবাদ, এটিকে পরিবর্তন করেছেন এবং এআইসির জন্য সমীকরণটি যোগ করেছেন
ক্রিস নোভাক

আমি ১০০% নিশ্চিত নই তবে স্ট্যান্ডার্ড এআইসি মিশ্রণ মডেলগুলিতে প্রত্যাশার মতো কাজ করতে পারে না কারণ মিশ্রণের বিভিন্ন কনফিগারেশন একই মডেলটি পেতে পারে।
ক্যাগডাস ওজজেঙ্ক

আমার অর্থ হ'ল আপনি 2 জন গাউসিয়ানকে (প্রথম থেকে দ্বিতীয় এবং দ্বিতীয় তৃতীয়ের গড় / বৈকল্পিকটি সেট করে এবং মিশ্রণটি চালানোর জন্য) পরিবর্তন করতে পারেন এবং এখনও একই মডেলটি পেতে পারেন। আমি যতদূর জানি এআইসি এরকম পরিস্থিতিতে যেমন প্রত্যাশিত কাজ করে না।
ক্যাগডাস ওজজেঙ্ক 27'15

1
@ ক্যাগডাস ওজেগেনেক আমি আপনার বক্তব্যটি দেখতে পাচ্ছি, তবে মনে হচ্ছে গসির মিশ্রণ মডেলগুলিতে মডেল নির্বাচনের জন্য স্ট্যান্ডার্ড এআইসি এবং বিআইসি যথেষ্ট পরিমাণে দেখানো হয়েছিল, উদাহরণস্বরূপ কাগজ প্রজেক্টেক্লিড.আর.ডাউনলোড
ক্রিস নোভাক

1
@ ক্রিসনোভাক হ্যাঁ, সম্ভাবনা অনুপাতের পরীক্ষা ( প্যারামিটার জায়গার মাত্রার পার্থক্যের সমতুল্য থেকে নূন্য নমুনা বিতরণের সামঞ্জস্য সহ) একটি ভাল ধারণা। অ্যাডজাস্টমেন্টগুলি কতটা জটিল তা আমি জানি না তবে এই ক্ষেত্রে এর মিশ্রণগুলি সাধারণ। সামঞ্জস্যগুলি প্রয়োজনীয় কারণ আপনি প্যারামিটার স্পেসের সীমানায় একটি বিন্দুটি পরীক্ষা করছেন। χ2χ2
অ্যান্ড্রু এম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.