একটি লজিস্টিক রিগ্রেশন-ভিত্তিক মডেলের নির্ভুলতা পরিমাপ করা

26

আমার কাছে একটি প্রশিক্ষিত লজিস্টিক রিগ্রেশন মডেল রয়েছে যা আমি পরীক্ষার ডেটা সেটটিতে প্রয়োগ করছি। নির্ভরশীল পরিবর্তনশীল বাইনারি (বুলিয়ান)। পরীক্ষার ডেটা সেটে প্রতিটি নমুনার জন্য, আমি লজিস্টিক রিগ্রেশন মডেলটি প্রয়োগ করে এমন একটি% সম্ভাবনা তৈরি করে যে নির্ভরশীল পরিবর্তনশীলটি সত্য হবে। তারপরে আমি রেকর্ড করি যে একিউটাল মানটি সত্য ছিল বা মিথ্যা। আমি লিনিয়ার রিগ্রেশন মডেল হিসাবে একটি $R^2$ বা অ্যাডজাস্টেড $R^2$ চিত্রটি গণনা করার চেষ্টা করছি ।

এটি আমাকে পরীক্ষার সেটে প্রতিটি নমুনার জন্য একটি রেকর্ড দেয়:

prob_value_is_true         acutal_value
   .34                          0
   .45                          1
   .11                          0
   .84                          0
    ....                        ....

আমি ভাবছি মডেলের যথার্থতা কীভাবে পরীক্ষা করতে হবে। আমার প্রথম প্রয়াসটি ছিল একটি কন্টিনজেন্সি টেবিল ব্যবহার করা এবং "যদি prob_value_is_true> 0.80, অনুমান করুন যে আসল মানটি সত্য" এবং তারপরে সঠিক থেকে ভুল শ্রেণিবিন্যাসের অনুপাতটি পরিমাপ করা হয়েছিল। তবে আমি এটি পছন্দ করি না, কারণ এটি অনুভূত হয় যে আমি কেবল 0.80 কে একটি সীমানা হিসাবে মূল্যায়ন করছি, পুরো মডেলটির যথার্থতা এবং সমস্ত prob_value_is_trueমূল্যবোধ নয় not

তারপরে আমি কেবলমাত্র প্রতিটি প্রোব_ভ্যালু_আইস_ ট্র্যুট পৃথক মানটি দেখার চেষ্টা করেছি, উদাহরণস্বরূপ, সমস্ত নমুনা দেখে যেখানে prob_value_is_true= 0.34 এবং যে সমস্ত নমুনাগুলির একিউটাল মান সত্য তা পরিমাপ করে (এক্ষেত্রে নিখুঁত নির্ভুলতা যদি নমুনার% এটি সত্য ছিল = 34%)। আমি প্রতিটি স্বতন্ত্র মূল্যের পার্থক্যের যোগ করে একটি মডেল নির্ভুলতা স্কোর তৈরি করতে পারি prob_value_is_true। তবে নমুনার আকারগুলি এখানে একটি বিশাল উদ্বেগ, বিশেষত চূড়ান্ততার জন্য (প্রায় 0% বা 100% এর কাছাকাছি), যেমন আকিউটাল মানগুলির গড় যথাযথ নয়, তাই তাদের মডেল যথার্থতা পরিমাপ করতে ব্যবহার করা সঠিক বলে মনে হয় না।

এমনকি পর্যাপ্ত নমুনা আকারগুলি (0-.25, .25-.50, .50-.75, .75-1.0) নিশ্চিত করার জন্য আমি বিশাল ব্যাপ্তি তৈরি করার চেষ্টা করেছি, কিন্তু কীভাবে সত্যিকারের মান% এর "ধার্মিকতা" পরিমাপ করতে পারি? । যেখানে prob_value_is_true0.25 থেকে 0.50 এর মধ্যে রয়েছে সমস্ত নমুনা বলুন গড়ে acutal_value0.45। এর পরিসীমা থেকে এটি কি ভাল? খারাপ যেহেতু এটি 37.5% (রেঞ্জের কেন্দ্র) এর কাছাকাছি নয়?

সুতরাং আমি মনে করি যা সহজ প্রশ্ন হওয়া উচিত তার জন্য আমি আটকে আছি এবং আশা করি যে কেউ আমাকে একটি সংস্থান বা পদ্ধতিতে নির্দেশ করতে পারেন যাতে কোনও লজিস্টিক রিগ্রেশন মডেলের জন্য নির্ভুলতার নির্ভুলতা গণনা করা যায়।

regression logistic r-squared

— জন রিড
সূত্র

আমি মনে করি ব্যাপ্তিগুলির উদাহরণ: (0-.25, .25-.50, .50-.75, .75-1.0) বোধগম্য। আপনি যদি রেঞ্জগুলি সংকীর্ণ করেন তবে এটি কী সহায়ক হবে? যেমন: 0-.03, .03-.06, .06-.09, ..... অর্থাৎ প্রতি .03। এটি অনেক ডেটা পয়েন্ট সহ অঞ্চলগুলির জন্য কার্যকর হতে পারে।

— ম্যাক

18

একটি পরিমাপ যা প্রায়শই লজিস্টিক রিগ্রেশনকে যাচাই করতে ব্যবহৃত হয়, এটি হ'ল আরওসি বক্ররেখার এউসি (1-নির্দিষ্টতার বিরুদ্ধে সংবেদনশীলতার প্লট - প্রয়োজনে কেবল শর্তগুলির জন্য গুগল)। এটি, সংক্ষেপে, প্রান্তিক মানগুলির পুরো পরিসরকে মূল্যায়ন করে।

নেতিবাচক দিক থেকে: প্রান্তিক মানগুলির পুরো পরিসীমাটি মূল্যায়ন করা আপনি যা যা করতে পারেন তা হতে পারে না , কারণ এটিতে (সাধারণত) প্রান্তিক অংশ অন্তর্ভুক্ত থাকে যার ফলস্বরূপ খুব বড় সংখ্যক মিথ্যা নেতিবাচক বা মিথ্যা ধনাত্মক হয়। এটির (আংশিক এওসি) অ্যাকাউন্ট হিসাবে থাকা এইউসির সংস্করণ রয়েছে, সুতরাং যদি এটি আপনার পক্ষে সমস্যা হয় তবে আপনি এটি সন্ধান করতে পারেন।

— নিক সাবে
সূত্র

1

এক মুহুর্তের জন্য এউসিকে আলাদা করে রেখে, আমি কি আরওসি বক্ররেখা নির্মাণের মতো কিছু মনে করে সঠিক করছি? প্রোব_ভ্যালু_আইস_টিরিউজের প্রতিটি স্বতন্ত্র মানের জন্য, পৃথক মানটিকে একটি চৌম্বক হিসাবে ব্যবহার করে একটি কনজিস্টেন্সি টেবিল তৈরি করুন। তারপরে প্রতিটি কন্টিনজেন্সি টেবিলের সত্য পজিটিভ হার এবং মিথ্যা ইতিবাচক হার রেকর্ড করুন। সমস্ত স্ক্রিনপ্লোটে সংযুক্তি টেবিলের জন্য হারগুলি প্লট করুন এবং আপনার আরওসি বক্ররেখাটি দেখতে হবে? এটা ঠিক আছে?

— জন রিড

আমি এটি করার জন্য কিছু কোড একসাথে রেখেছি, কেবল সম্ভাব্যতা এবং আসল মান হিসাবে এলোমেলো মানগুলি খাওয়ানো, এবং এটি একটি সরল রেখা ছিল। আমি ধরে নিই যে এওসি কোনও "মডেল" আবার "রেখা" বা এলোমেলোতার সাথে "বাঁক" এর বিচ্যুতি পরিমাপ করছে?

— জন রেড

আরওসি সম্পর্কিত: হ্যাঁ, এটি প্রায় সঠিক। কিছু ভেরিয়েন্ট রয়েছে (কম-বেশি স্মুথড; আপনার পছন্দসই চৌম্বক বাছাইয়ের জন্য পূর্বাভাস দেওয়া সম্ভাব্যতাগুলি বিবেচনায় নিয়ে)। নোট করুন (আপনার ব্যবহৃত সফ্টওয়্যার / পছন্দের ভাষার উপর নির্ভর করে) সেখানে অগণিত সরঞ্জাম রয়েছে যা ইতিমধ্যে এটি সরবরাহ করে। Wrt AUC: এটি আরওসি বক্ররেখার অধীনে প্রকৃত ক্ষেত্রের চেয়ে কম বা কম নয়। নিখুঁত এলোমেলো ভবিষ্যদ্বাণীযুক্ত নয়, আরওসি বক্ররেখাটি (0,0) থেকে (1,1) পর্যন্ত একটি সরলরেখা হবে, যার ফলস্বরূপ 0.5 এর এউসি হবে। এউসির কিছু দুর্দান্ত ব্যাখ্যা রয়েছে, যদিও (গুগল বা উইকিপিডিয়া এমনকি দেখুন :-))

— নিক সাবে

8

মূলত একটি স্বেচ্ছাচারী সীমারেখার প্রভাব প্রতিফলিত হিসাবে অনুপাতের শ্রেণিবদ্ধ সম্পর্কে সঠিক চিন্তার জন্য আপনি সঠিক। আমি দুটি পদক্ষেপের প্রস্তাব দিই। এক , অভ্যন্তরীণ বৈধতা জন্য একই কাজ overfitting প্রভাব মুছে ফেলার জন্য রীস্যাম্পেলিং ব্যবহার হবে। ইন্ডেক্স বা আরওসি অঞ্চল যেমন অন্যেরা বর্ণনা করেছেন। এটির একটি ব্যাখ্যা আছে যা আরওসি বক্ররেখা সম্পর্কে চিন্তা করার চেয়ে সহজ এবং খাঁটি ভবিষ্যদ্বাণীমূলক বৈষম্যের একটি পরিমাপ। দ্বিতীয়ত, কোনও বিনা ডেটা বিনা ছাড়াই একটি অবিচ্ছিন্ন ক্রমাঙ্কন বক্র অনুমান করুন। যদি পূর্বাভাসগুলি একটি স্বাধীন ডেটাসেটে মূল্যায়ন করা হয়, তবে আপনিপূর্বাভাসযুক্ত এবং প্রকৃত প্রোবের [ওয়াই = 1] এর মধ্যে সম্পর্ক নির্ধারণের জন্য আউটলেট সনাক্তকরণ বন্ধ করেব্যবহার করতে পারেন। আর ফাংশনপ্যাকেজ এসব উভয় চেষ্টা করতে হবে। অন্যান্য ফাংশন $c$ lowessval.probrmsrms

— ফ্র্যাঙ্ক হ্যারেল
সূত্র

6

যদি আপনার ডেটা মান অনুসারে ভাগ করা হয় তবে আপনি মডেলটির পূর্বাভাস করা মান এবং এটি সম্পর্কিত আত্মবিশ্বাসের ব্যবধান গণনা করতে পারেন এবং পর্যবেক্ষণ করা শতাংশটি সেই পরিসরের মধ্যে পড়ে কিনা তা দেখুন। উদাহরণস্বরূপ, যদি আপনি 10 পর্যবেক্ষণ ছিল 10 obs এ 10 obs এ , ইত্যাদি, তারপর , ইত্যাদি শতকরা যে ভবিষ্যৎবাণী তুলনা করা যেতে পারে উত্পাদ হবে। মনে রাখবেন, মডেলটি নিখুঁত হলেও, কিছু পর্যবেক্ষণ শতাংশ ওএলএস রিগ্রেশন-এর মতো 95% সিআই এর বাইরেও লাফিয়ে উঠবে। যদি আপনার ডেটা গোষ্ঠীভুক্ত না হয়, আপনি ব্যাপ্তি অনুসারে ডেটা বিনিন করে নিজের গ্রুপ তৈরি করতে পারেন $x$ $x=10$ $x=20$ $x=30$ mean(y[x==10]==1)mean(y[x==20]==1) $x$ পরিবর্তনশীল, আপনার পরামর্শ অনুসারে। এটি সম্পূর্ণরূপে বৈধ নয়, কারণ এটি বিনের পছন্দের উপর নির্ভর করবে, এটি আপনার মডেল অন্বেষণের উপায় হিসাবে কার্যকর হতে পারে।

সাধারণভাবে, আপনি এখানে নিজেকে যে কাজটি দিয়েছেন তা কঠিন। কারণ লজিস্টিক রিগ্রেশন সহ আপনি দুটি ভিন্ন ধরণের জিনিস নিয়ে কাজ করছেন। মডেলের পূর্বাভাসগুলি একটি সুপ্ত পরিবর্তনশীল, যেখানে আপনার পর্যবেক্ষণের প্রতিক্রিয়া ভেরিয়েবল (সম্ভবত একটি সুপ্ত ভেরিয়েবল দ্বারা উত্পাদিত) নয়। অবশ্যই, লোকেরা প্রায়শই জানতে চান ভবিষ্যদ্বাণী করা প্রতিক্রিয়া কী এবং এটি সম্পূর্ণ যুক্তিসঙ্গত; এটি কেবল সেই ক্ষেত্রে একটি যেখানে জীবন ন্যায্য নয়।

আপনি যদি ফলাফলটি পূর্বাভাস দিতে চান তবে আপনি কী সর্বোচ্চ করতে চান তা সিদ্ধান্ত নেওয়া দরকার to আপনি মাত্র 1 কেস আছে, এবং আপনি আপনার ভবিষ্যদ্বাণী সবচেয়ে সঠিক হতে পারে সম্ভবত হতে চান, তাহলে আপনি ভবিষ্যদ্বাণী করা উচিত , যদি । (এই সব চমত্কার স্বজ্ঞাত।) অন্যদিকে, আপনি যদি আপনার মোট নমুনা উপর সামগ্রিক সঠিকতা (অথবা অন্য কোন গ্রুপ) পূর্ণবিস্তার চান, আপনি ভবিষ্যদ্বাণী করা উচিত , যদি । উদাহরণস্বরূপ, বলে যে আপনার নমুনা এ, সব ক্ষেত্রেই 30% 1 এর হয়, তারপর যদি দিন $y=1$ $\hat y\ge .5$ $y=1$ $\hat y \ge p(y=1)$ $\hat y = .31$ তুমি অনুমান উচিত যে হতে হবে , যদিও এটা । এটি পাল্টা স্বজ্ঞাত, এবং প্রচুর লোক এখানে হোঁচট খায় তবে এই অ্যালগরিদমটি আপনার যথার্থতাটিকে সর্বোচ্চ করে তুলবে। $y$ $1$ $<.5$

আপনার মডেলটিতে কতটা তথ্য রয়েছে তা চিন্তা করার আরও বিস্তৃত উপায় হ'ল আপনাকে প্রতিটি সম্ভাব্য প্রান্তিক কতটা সঠিকভাবে দেওয়া হবে তার সাথে একীকরণ করা । এটি মডেলটির রিসিভার অপারেটিং বৈশিষ্ট্য (আরওসি) এর বক্ররেখার (এউসি) এর আওতাধীন অঞ্চল, @ নিক সাবে দ্বারা আলোচিত। মনে রাখবেন লজিস্টিক রিগ্রেশনের জন্য নেই । তথাকথিত 'সিউডো ' এর তথাকথিত রয়েছে , তবে এইউসি (বা উপসংহার, , একটি প্রতিশব্দ) সম্ভবত এই সমস্যাটি সম্পর্কে চিন্তা করার সেরা উপায়। $(0, 1)$ $R^2$ $R^2$ $c$

— gung - মনিকা পুনরায় স্থাপন করুন
সূত্র

দুর্দান্ত উত্তর! সুতরাং উদাহরণস্বরূপ যে সমস্ত ক্ষেত্রে 30% 1 টির হয়, একটি নির্দিষ্ট মামলার পূর্বাভাসের সম্ভাব্য 0.31 এটি 1 এর নিকটবর্তী হওয়ার সাথে সম্পর্কিত অন্যান্য মামলার তুলনায় এই মামলার "র‌্যাঙ্কিং" এর মতো (আরও বড় যত নিকটে)? এবং এটি পূর্বাভাসের সম্ভাবনা হিসাবে দেখা উচিত নয় যে এই বিশেষ ক্ষেত্রেটি 1?

— ম্যাক

1

{\hat{y}}_{i} = .31

$\hat y_i = .31$

1

$1$

.31

$.31$

.31

$.31$

.25

$.25$

3

আমি মনে করি আপনি একটি প্রান্তিক স্থাপন করতে পারেন (0.5 বলুন), সুতরাং আপনার সম্ভাবনা যখন প্রান্তিকের সমান বা তার বেশি হবে তখন আপনার পূর্বাভাসীকৃত শ্রেণি 1 এবং অন্যথায় 0 হবে। তারপরে, আপনি এইভাবে আপনার নির্ভুলতার একটি পরিমাপ পেতে পারেন:

confusion_matrix <- ftable(actual_value, predicted_value)
accuracy <- sum(diag(confusion_matrix))/number of events*100

আপনার সম্ভাব্যতাটি আপনার ডেটা (এক্স) প্রদত্ত হওয়ার সম্ভাবনা এবং আপনার মডেলটি ব্যবহার করে আপনার শ্রেণীর মান (y) সমান হয়, আপনি কেন সর্বদা 0.5 এর চেয়ে কম মানের সম্ভাবনা পান তা আমি বুঝতে পারি না। আপনার প্রকৃত শ্রেণির ফ্রিকোয়েন্সিটি (আসল_মূল্য) কোনটি?

— ম্যানুয়েল রামন
সূত্র

2

আপনি আমার প্যাকেজটি দেখতে চাইতে পারেন softclassval(সফ্টক্লাসওয়াল.আর-forge.r-project.org এ আপনি প্যাকেজের পিছনে ধারণাগুলি সম্পর্কে দুটি মুখের উপস্থাপনাও পেয়েছি)।

আমি এটি কিছুটা ভিন্ন সমস্যার জন্য লিখেছিলাম, যথা: যদি রেফারেন্স (যেমন প্যাথলজিস্ট) একটি পরিষ্কার ক্লাস দিতে অস্বীকার করে। তবে আপনি এটি "সাধারণ" হার্ড ক্লাস সহ ব্যবহার করতে পারেন এবং এটি মূল ক্রমাগত ভবিষ্যদ্বাণী শক্ত করার জন্য একটি প্রান্তিকের সংজ্ঞা এড়িয়ে চলে - তাই আপনি 0.8 মূল্যায়ন করবেন না।

তবে, আমি এটি একটি আরওসি বা নির্দিষ্টতা-সংবেদনশীলতা-চিত্রের পাশাপাশি ব্যবহার করার পরামর্শ দিচ্ছি: ফলাফলগুলি প্রায়শই বেশ খারাপ দেখায় কারণ "আমার" পদ্ধতিগুলি ইতিমধ্যে সামান্য বিচ্যুতিগুলিকে শাস্তি দেয় (উদাহরণস্বরূপ 1 এর পরিবর্তে 0.9) আমার ব্যবস্থার জন্য 0.1 পার্থক্য দেয় , তবে 0.9 এর নীচের সমস্ত থ্রেশহোল্ডগুলি এটিকে উপেক্ষা করবে)। প্রকৃতপক্ষে আমি বরং এটি একটি সুবিধা বলে মনে করি: এই "সংবেদনশীলতা" যথাযথতা, সংবেদনশীলতা, পুনরুদ্ধার ইত্যাদির মতো কঠোর পদক্ষেপগুলির সাথে সংবেদনশীলতাবাদী ছোট ছোট বিচ্যুতির অভাব সমালোচনার অন্যতম প্রধান বিষয় is

এছাড়াও, গড় পরম ত্রুটি (এমএই) এবং মূল মানে স্কোয়ারড ত্রুটি আরএমএসইয়ের তুলনা করে আপনি জানতে পারবেন যে আপনার অনেকগুলি ছোট ছোট বিচ্যুতি আছে বা আরও কম গুরুতর ভুলযুক্ত নমুনা রয়েছে কিনা।

— সিবিলেটগুলি মনিকাকে সমর্থন করে
সূত্র

1

আমার দ্রুত পরামর্শটি এখানে: আপনার নির্ভরশীল ভেরিয়েবলটি বাইনারি হওয়ার কারণে, আপনি এটি ধরে নিতে পারেন যে এটি লার্জিস্টিক রিগ্রেশন দ্বারা প্রদত্ত সম্ভাবনার সাথে একটি বার্নোল্লি বিতরণ অনুসরণ করেছে $Pr_{i} = invlogit(a + bx_{i})$ ।

এখন, নিম্নলিখিত হিসাবে একটি সিমুলেশন সেট করুন: $y.rep[i] \sim Bernoulli (p[i])$

তারপরে, এই সিমুলেশনটি চালান, বলুন, 100 বার। আপনার কাছে এন সারি (এন বিষয়গুলির সংখ্যা) এবং কে কলাম (এই ক্ষেত্রে, কে = 100, সিমুলেশনগুলির সংখ্যা) সহ একটি ম্যাট্রিক্স থাকবে। আর কোডে:

for (j  in 1:100)
  mat.y.rep[,j] <- Bernoulli ( p) # p is a vector with a probability for each subject

এখন আপনি প্রতিটি অনুকরণে পূর্বাভাস এবং পর্যবেক্ষণের মধ্যে পার্থক্য গণনা করুন। এই পার্থক্যটি গণনার পরে, কেবল প্রতিটি সারি (প্রতিটি বিষয়) এর জন্য সত্য-ধনাত্মক এবং মিথ্যা-পজিটিভের গড় সংখ্যাটি গণনা করুন এবং হিস্টোগ্রামের পরিকল্পনা করুন। অথবা প্রতিটি কলামের জন্য উভয়ই গণনা করুন (সিমুলেশন) এবং হিস্টগ্রাম প্লট করুন (আমি এটি পছন্দ করি)।

আশা করি এটা সাহায্য করবে...

— মানোয়েল গাল্ডিনো
সূত্র

1

এই ধরণের পূর্বাভাসের যথার্থতা অনুমান করার অনেকগুলি উপায় রয়েছে এবং সর্বোত্তম পছন্দটি নির্ভর করে যে অনুমানটি বাস্তবায়িত হবে তার উপর নির্ভর করে।

উদাহরণস্বরূপ, যদি আপনি ব্যয়বহুল ফলো-আপ অধ্যয়নের জন্য কয়েকটি উচ্চ স্কোর হিটগুলি বেছে নেওয়ার পরিকল্পনা করেন তবে আপনি উচ্চতর স্কোরগুলিতে নির্ভুলতাটি সর্বাধিক করতে চাইতে পারেন। অন্যদিকে, যদি ফলো-আপ সমীক্ষাটি সস্তা হয় তবে আপনি কম স্কোরগুলিতে রিক্যাল (সংবেদনশীলতা) সর্বাধিক করতে চাইতে পারেন। আপনি যদি বিভিন্ন পদ্ধতি ইত্যাদির তুলনা করে থাকেন তবে আরওসি এউসি উপযুক্ত হতে পারে etc.

ব্যবহারিক দিক থেকে, Rএর ROCRপ্যাকেজে 2 টি দরকারী কার্যকরী রয়েছে

pred.obj <- prediction(predictions, labels,...)
performance(pred.obj, measure, ...)

একসাথে, এই ফাংশনগুলি বিশ্বব্যাপী স্কেলার মানগুলি (যেমন "অউক" ) এবং স্কোর-নির্ভর ভেক্টরগুলি পুনর্বিবেচনা -নির্ভুলতা এবং আরওসি বক্ররেখার প্লট করার জন্য ( " নির্ভুল " , "রেক" , "টিআরপি" এবং যথাযথতার বিস্তৃত পরিমাপের গণনা করতে পারে "এফআরপি" ইত্যাদি)

— ইটামার
সূত্র

1

"নির্ভুলতা" দ্বারা আপনি কী বোঝাতে চান তা আপনাকে নির্ধারণ করতে হবে। আপনি কী জানতে চান, দয়া করে আপনার মুখে শব্দ রাখার জন্য আমাকে ক্ষমা করুন, আপনার মডেলটি প্রশিক্ষণের ডেটা কতটা ফিট করে এবং আরও গুরুত্বপূর্ণ, এই মডেলটি আপনার প্রশিক্ষণের ডেটাতে না থাকা নমুনাগুলিতে কতটা "জেনারালাইজেশন" করে। যদিও থ্রোসোল্ডের বিভিন্ন মানগুলির জন্য নির্ভুলতা এবং স্মরণগুলির মধ্যে ট্রেড অফকে বিশ্লেষণে আরওসি বক্ররেখা কার্যকর হতে পারে তবে আমি আপনার সরঞ্জামবক্সে গড়-স্কোয়ারড-ত্রুটি বা বারিয়ার স্কোর যুক্ত করার পরামর্শ দিই। এটি গণনা করা সহজ, এবং প্রশিক্ষণের ডেটা প্রয়োগ করার সময়, বৈশিষ্ট্যের পরিবর্তনগুলি মডেলের ফিটকে প্রভাবিত করে কিনা তা আপনি তাত্ক্ষণিকভাবে অনুভূতি পেতে পারেন। যেহেতু ওভারফিটটি এই ক্ষেত্রে সম্ভব, আপনার কাজ এখানে করা হয়নি। জেনারালাইজেশন পারফরম্যান্স মূল্যায়ন করতে, বা আপনি যে ডেটা দেখেননি সে সম্পর্কে আপনি কতটা ভাল করেছেন তা তো নয় ' প্রশিক্ষণের নমুনাগুলিতে আপনার পারফরম্যান্সটি দেখার পর্যাপ্ত পরিমাণ। অবশ্যই আপনার মডেলগুলি সেগুলিতে ভাল, কারণ তারা আপনার লজিস্টিকের সহগগুলি নির্ধারণ করতে ব্যবহৃত মানগুলি। পরীক্ষার ডেটার জন্য আপনাকে কয়েকটি নমুনা আলাদা করতে হবে। এই সেটটিতে আপনার এমএসই পারফরম্যান্স হফফিং বৈষম্য অনুযায়ী আপনার সাধারণীকরণ প্রত্যাশা সেট করা উচিত। আপনার সর্বাধিক সাধারণীকরণ ত্রুটিটি আপনার মডেলের বৈশিষ্ট্যগুলির সংখ্যার পাশাপাশি পরীক্ষার পরিসংখ্যান গণনা করতে ব্যবহৃত নমুনার সংখ্যার উপর নির্ভর করবে। মনে রাখবেন যে পরীক্ষার নমুনাগুলির জন্য আপনার প্রশিক্ষণের কয়েকটি নমুনা চুরি করতে হবে। আমি 10-গুণ ক্রস-বৈধকরণের প্রস্তাব দিচ্ছি, যেখানে আপনি পরিবর্তন করেন, প্রশিক্ষণের জন্য 90%, পরীক্ষার জন্য 10% এবং তারপরে পরিমাপ করুন, পুনরাবৃত্তি করুন এবং তারপরে সমস্ত পরিমাপের গড় করুন। কারণ এগুলি যে মানগুলি আপনি আপনার যৌক্তিকের সহগগুলি নির্ধারণ করতে ব্যবহার করেছিলেন। পরীক্ষার ডেটার জন্য আপনাকে কয়েকটি নমুনা আলাদা করতে হবে। এই সেটটিতে আপনার এমএসই পারফরম্যান্স হফফিং বৈষম্য অনুযায়ী আপনার সাধারণীকরণ প্রত্যাশা সেট করা উচিত। আপনার সর্বাধিক সাধারণীকরণ ত্রুটিটি আপনার মডেলের বৈশিষ্ট্যগুলির সংখ্যার পাশাপাশি পরীক্ষার পরিসংখ্যান গণনা করতে ব্যবহৃত নমুনার সংখ্যার উপর নির্ভর করবে। মনে রাখবেন যে পরীক্ষার নমুনাগুলির জন্য আপনার প্রশিক্ষণের কয়েকটি নমুনা চুরি করতে হবে। আমি 10-গুণ ক্রস-বৈধকরণের প্রস্তাব দিচ্ছি, যেখানে আপনি পরিবর্তন করেন, প্রশিক্ষণের জন্য 90%, পরীক্ষার জন্য 10% এবং তারপরে পরিমাপ করুন, পুনরাবৃত্তি করুন এবং তারপরে সমস্ত পরিমাপের গড় করুন। কারণ এগুলি যে মানগুলি আপনি আপনার যৌক্তিকের সহগগুলি নির্ধারণ করতে ব্যবহার করেছিলেন। পরীক্ষার ডেটার জন্য আপনাকে কয়েকটি নমুনা আলাদা করতে হবে। এই সেটটিতে আপনার এমএসই পারফরম্যান্স হফফিং বৈষম্য অনুযায়ী আপনার সাধারণীকরণ প্রত্যাশা সেট করা উচিত। আপনার সর্বাধিক সাধারণীকরণ ত্রুটিটি আপনার মডেলের বৈশিষ্ট্যগুলির সংখ্যার পাশাপাশি পরীক্ষার পরিসংখ্যান গণনা করতে ব্যবহৃত নমুনার সংখ্যার উপর নির্ভর করবে। মনে রাখবেন যে পরীক্ষার নমুনাগুলির জন্য আপনার প্রশিক্ষণের কয়েকটি নমুনা চুরি করতে হবে। আমি 10-গুণ ক্রস-বৈধকরণের প্রস্তাব দিচ্ছি, যেখানে আপনি পরিবর্তন করেন, প্রশিক্ষণের জন্য 90%, পরীক্ষার জন্য 10% এবং তারপরে পরিমাপ করুন, পুনরাবৃত্তি করুন এবং তারপরে সমস্ত পরিমাপের গড় করুন। এই সেটটিতে আপনার এমএসই পারফরম্যান্স হফফিং বৈষম্য অনুযায়ী আপনার সাধারণীকরণ প্রত্যাশা সেট করা উচিত। আপনার সর্বাধিক সাধারণীকরণ ত্রুটিটি আপনার মডেলের বৈশিষ্ট্যগুলির সংখ্যার পাশাপাশি পরীক্ষার পরিসংখ্যান গণনা করতে ব্যবহৃত নমুনার সংখ্যার উপর নির্ভর করবে। মনে রাখবেন যে পরীক্ষার নমুনাগুলির জন্য আপনার প্রশিক্ষণের কয়েকটি নমুনা চুরি করতে হবে। আমি 10-গুণ ক্রস-বৈধকরণের প্রস্তাব দিচ্ছি, যেখানে আপনি পরিবর্তন করেন, প্রশিক্ষণের জন্য 90%, পরীক্ষার জন্য 10% এবং তারপরে পরিমাপ করুন, পুনরাবৃত্তি করুন এবং তারপরে সমস্ত পরিমাপের গড় করুন। এই সেটটিতে আপনার এমএসই পারফরম্যান্স হফফিং বৈষম্য অনুযায়ী আপনার সাধারণীকরণ প্রত্যাশা সেট করা উচিত। আপনার সর্বাধিক সাধারণীকরণ ত্রুটিটি আপনার মডেলের বৈশিষ্ট্যগুলির সংখ্যার পাশাপাশি পরীক্ষার পরিসংখ্যান গণনা করতে ব্যবহৃত নমুনার সংখ্যার উপর নির্ভর করবে। মনে রাখবেন যে পরীক্ষার নমুনাগুলির জন্য আপনার প্রশিক্ষণের কয়েকটি নমুনা চুরি করতে হবে। আমি 10-গুণ ক্রস-বৈধকরণের প্রস্তাব দিচ্ছি, যেখানে আপনি পরিবর্তন করেন, প্রশিক্ষণের জন্য 90%, পরীক্ষার জন্য 10% এবং তারপরে পরিমাপ করুন, পুনরাবৃত্তি করুন এবং তারপরে সমস্ত পরিমাপের গড় করুন।

— KPickrell
সূত্র

1

আমি ভাবছি আপনি বার্নুল্লি লগ-সম্ভাবনা ফাংশনটি ব্যবহার করছেন না কেন। মূলত, প্রতিটি জন্য $0$ আসল মান, আপনি স্কোর $-\log (1-\hat {p})$ । এটি পরিমাপের পূর্বাভাসের কত কাছে $0$ আপনার মডেল হয়। একইভাবে, প্রত্যেকের জন্য $1$ আসল মান আপনি স্কোর $-\log (\hat {p})$ । এটি পরিমাপের পূর্বাভাসের কত কাছে $1$ আপনার মডেল হয়।

এটি স্বেচ্ছাচারিতার দোরগোড়ায় ভুগছে না। ছোট পরিমাপ আরও ভাল।

— probabilityislogic
সূত্র