বৈশিষ্ট্য নির্বাচন এবং ক্রস-বৈধতা


76

আমি সম্প্রতি এই সাইটে (@ অ্যানিকো, @ ডিকরান মার্সুপিয়াল, @ এরিক) এবং অন্য কোথাও ক্রস বৈধকরণের সাথে অতিরিক্ত মানানসই সমস্যা সম্পর্কে অনেক কিছু পড়ছি - (স্মিওলোস্কি এট আল 2010 বায়োইনফরম্যাটিকস, হ্যাস্টি, স্ট্যাটিস্টিকাল লার্নিং এর উপাদান)। পরামর্শটি হ'ল ক্রস বৈধকরণ (বা বুটস্ট্র্যাপিংয়ের মতো অন্যান্য মডেল অনুমানের পদ্ধতি) ব্যবহার করে মডেল পারফরম্যান্স অনুমানের বাইরে যে কোনও তত্ত্বাবধান করা বৈশিষ্ট্য নির্বাচন (শ্রেণীর লেবেলের সাথে পারস্পরিক সম্পর্ক ব্যবহার করে) সম্পাদনা করার ফলে অতিরিক্ত পোশাকের ফলস্বরূপ হতে পারে।

এটি আমার কাছে অপ্রতিরোধ্য বলে মনে হচ্ছে - অবশ্যই যদি আপনি কোনও বৈশিষ্ট্য সেট নির্বাচন করেন এবং তারপরে ক্রস বৈধতা ব্যবহার করে কেবলমাত্র নির্বাচিত বৈশিষ্ট্যগুলি ব্যবহার করে আপনার মডেলটি মূল্যায়ন করেন তবে আপনি সেই বৈশিষ্ট্যগুলিতে সাধারণীকরণ করা মডেল পারফরম্যান্সের একটি নিরপেক্ষ অনুমান পেয়ে যাচ্ছেন (এটি ধরে নেওয়া হয় যে গবেষণার অধীনে নমুনাটি উপস্থাপনযোগ্য জনগণের)?

এই পদ্ধতিটি দিয়ে কেউ অবশ্যই কোনও সর্বোত্তম বৈশিষ্ট্য সেট দাবি করতে পারে না তবে অদৃশ্য ডেটাতে সেট করা নির্বাচিত বৈশিষ্ট্যটির কার্যকারিতাটি বৈধ হিসাবে কি রিপোর্ট করতে পারে?

আমি স্বীকার করি যে পুরো ডেটা সেটের উপর ভিত্তি করে বৈশিষ্ট্যগুলি নির্বাচন করা পরীক্ষা এবং ট্রেনের সেটগুলির মধ্যে কিছু ডেটা ফাঁস হতে পারে। তবে প্রাথমিক নির্বাচনের পরে যদি বৈশিষ্ট্য সেটটি স্থিতিশীল হয় এবং অন্য কোনও টিউনিং করা হচ্ছে না, তবে অবশ্যই ক্রস-বৈধতাযুক্ত পারফরম্যান্সের মেট্রিকগুলি রিপোর্ট করা বৈধ?

আমার ক্ষেত্রে আমার 56 টি বৈশিষ্ট্য এবং 259 কেস রয়েছে এবং তাই # কেসগুলি> # বৈশিষ্ট্য রয়েছে। বৈশিষ্ট্যগুলি সেন্সর ডেটা থেকে প্রাপ্ত।

দুঃখিত যদি আমার প্রশ্নটি উদ্ভূত মনে হয় তবে এটি স্পষ্ট করার জন্য একটি গুরুত্বপূর্ণ বিষয় বলে মনে হচ্ছে।

সম্পাদনা করুন: উপরে বর্ণিত ডেটা সেটটিতে ক্রস বৈধকরণের মধ্যে বৈশিষ্ট্য নির্বাচন কার্যকর করার সময় (নীচের উত্তরগুলির জন্য ধন্যবাদ), আমি নিশ্চিত করতে পারি যে এই ডেটা সেটে ক্রস-বৈধকরণের আগে বৈশিষ্ট্যগুলি নির্বাচন করা একটি উল্লেখযোগ্য ভূমিকা পালন করেছিলপক্ষপাত। 2-শ্রেণির গঠনের তুলনায় 3-শ্রেণির গঠনের জন্য এই পক্ষপাতিত্ব / ওভারফিটিংটি সর্বাধিক ছিল। আমি মনে করি যে আমি বৈশিষ্ট্য নির্বাচনের জন্য ধাপে ধাপে রিগ্রেশনটি ব্যবহার করেছি তা এই উত্সাহকে বাড়িয়ে তুলেছে; তুলনা উদ্দেশ্যে, ভিন্ন কিন্তু সম্পর্কিত ডেটা সেটে আমি সিভিতে বৈশিষ্ট্য নির্বাচনের সাথে পূর্বে প্রাপ্ত ফলাফলগুলির বিরুদ্ধে ক্রস-বৈধকরণের পূর্বে সম্পাদিত ক্রমবর্ধমান বৈশিষ্ট্য নির্বাচনের রুটিনের তুলনা করেছি। উভয় পদ্ধতির মধ্যে ফলাফল নাটকীয়ভাবে পৃথক হয়নি। এর অর্থ এই হতে পারে যে ধাপে ধাপে রিগ্রেশনটি সিক্যুয়াল এফএসের চেয়ে বেশি মানানসই প্রবণতা বা এই ডেটা সেটটির এক গৌরব হতে পারে।


7
আমি মনে করি না যে এটি (বেশ) কি হাসি, ইত্যাদি। উকিল করছে। সাধারণ যুক্তি হ'ল যদি বৈশিষ্ট্য নির্বাচন প্রতিক্রিয়া ব্যবহার করে তবে আপনার সিভি পদ্ধতির অংশ হিসাবে এটি আরও ভালভাবে অন্তর্ভুক্ত করা উচিত। আপনি যদি ভবিষ্যদ্বাণীকারীর স্ক্রিনিং করেন, উদাহরণস্বরূপ, তাদের নমুনার বৈচিত্রগুলি দেখে এবং ভবিষ্যদ্বাণীকে ছোট প্রকরণ সহ বাদ দিয়ে, এটি একটি শট পদ্ধতি হিসাবে ঠিক।
কার্ডিনাল

3
+1 তবে এই ক্ষেত্রেও ক্রস-বৈধতা বৈশিষ্ট্য নির্বাচন প্রক্রিয়াতে পরিবর্তনের প্রতিনিধিত্ব করে না, যা বৈশিষ্ট্য নির্বাচনটি অস্থির হলে সমস্যা হতে পারে। আপনি যদি প্রথমে স্ক্রিনিং সম্পাদন করেন তবে প্রতিটি ভাগে পারফরম্যান্সের পরিবর্তনশীলতা প্রকৃত পরিবর্তনশীলতার আন্ডার-প্রতিনিধিত্ব করবে। আপনি যদি প্রতিটি ভাঁজটিতে স্ক্রিনিং সম্পাদন করেন তবে এটি প্রতিটি ভাঁজটিতে পারফরম্যান্সে যথাযথভাবে পরিবর্তনশীলতা বৃদ্ধি করবে। আমি যদি এখনও গণ্য ব্যয় করতে পারি তবে আমি সর্বদা প্রতিটি ভাঁজটিতে স্ক্রিনিং করতাম।
ডিকরান মার্শুপিয়াল

1
আমি মনে করি "ক্রস বৈধতা ব্যবহার করে মডেল পারফরম্যান্স অনুমানের পূর্বে যে কোনও বৈশিষ্ট্য নির্বাচন করা বিবৃতিটি ওভারফিটের ফলস্বরূপ হতে পারে" " হ্যাস্টি এবং অন্যান্যরা কী পরামর্শ দেবে তার একটি ভুল প্রশ্ন বা ভুল উপস্থাপনা। যদি আপনি "পূর্ব" শব্দটি "ছাড়াই" পরিবর্তিত করেন তবে এটি আরও অর্থবোধ করে। এছাড়াও বাক্যটি মনে হয় যে ক্রস-বৈধকরণটি বৈধভাবে নির্বাচিত ভেরিয়েবলগুলির যথাযথতা পরীক্ষা করার একমাত্র উপায় example উদাহরণস্বরূপ বুটস্ট্র্যাপ অন্য বৈধ পদ্ধতির হতে পারে ।
মাইকেল চেরনিক 4'12

@ মিশেল চের্নিক - একমত আমি আমার অর্থটি আরও ভালভাবে প্রতিবিম্বিত করতে উপরে সম্পাদনা করেছি।
বিগ্রিন

1
@ গ্রেগ্রেইন: এই ইস্যুতে সাম্প্রতিক আলোচনা হয়েছে যা goo.gl/C8BUa এ পড়তে পারেন ।
আলেক

উত্তর:


68

আপনি যদি সমস্ত ডেটাতে বৈশিষ্ট্য নির্বাচন সম্পাদন করেন এবং তার পরে ক্রস-বৈধতা পরীক্ষা করেন, তবে ক্রস-বৈধকরণ পদ্ধতির প্রতিটি ভাগে পরীক্ষার ডেটাও বৈশিষ্ট্যগুলি বেছে নিতে ব্যবহার করা হয়েছিল এবং এটিই পারফরম্যান্স বিশ্লেষণকে পক্ষপাতদুষ্ট করে।

এই উদাহরণ বিবেচনা করুন। আমরা 10 বার একটি মুদ্রা উল্টিয়ে এবং এটি মাথা বা লেজ হিসাবে নেমে আসে কিনা তা রেকর্ড করে কিছু টার্গেট ডেটা উত্পন্ন করি। এরপরে আমরা প্রতিটি বৈশিষ্ট্যের জন্য 10 বার মুদ্রা উল্টিয়ে 20 টি বৈশিষ্ট্য উত্পন্ন করি এবং যা পাই তা লিখে রাখি। তারপরে আমরা বৈশিষ্ট্যটি বাছাই করে বৈশিষ্ট্যটি নির্বাচন করি যা লক্ষ্যযুক্ত ডেটার সাথে যতটা সম্ভব ঘনিষ্ঠভাবে মেলে এবং আমাদের পূর্বাভাস হিসাবে এটি ব্যবহার করি। তারপরে যদি আমরা ক্রস-বৈধতা পাই তবে আমরা একটি প্রত্যাশিত ত্রুটি হার 0.5 এর থেকে সামান্য কম পেয়ে যাব। এর কারণ আমরা ক্রস-বৈধকরণ পদ্ধতির প্রতিটি ভাগে প্রশিক্ষণ সেট এবং পরীক্ষার সেট উভয়ের মধ্যে পারস্পরিক সম্পর্কের ভিত্তিতে বৈশিষ্ট্যটি বেছে নিয়েছি। তবে টার্গেটের ডাটাটি এলোমেলো হওয়ায় সত্য ত্রুটির হার 0.5 হতে চলেছে। যদি আপনি ক্রস-বৈধকরণের প্রতিটি ভাঁজের মধ্যে আলাদাভাবে বৈশিষ্ট্য নির্বাচন সম্পাদন করেন তবে ত্রুটির হারের প্রত্যাশিত মান 0 হয়।

মূল ধারণাটি হ'ল ক্রস-বৈধকরণ কোনও মডেল তৈরির জন্য কোনও প্রক্রিয়াটির সাধারণকরণের পারফরম্যান্সের অনুমানের একটি উপায় , সুতরাং আপনাকে প্রতিটি ভাঁজে পুরো প্রক্রিয়াটি পুনরাবৃত্তি করতে হবে। অন্যথায় আপনি একটি পক্ষপাতদুষ্ট অনুমান, বা অনুমানের (বা উভয়) তারতম্যের আন্ডার-অ্যাস্টিমেট দিয়ে শেষ করবেন।

আছে HTH

এখানে কিছু ম্যাটল্যাব কোড রয়েছে যা এই উদাহরণটির একটি মন্টে-কার্লো সিমুলেশন সম্পাদন করে, 56 টি বৈশিষ্ট্য এবং 259 কেস দিয়ে, আপনার উদাহরণের সাথে মেলে, এটি দেয় আউটপুটটি:

পক্ষপাতদুষ্ট অনুমানকারী: ইরেট = 0.429210 (0.397683 - 0.451737)

নিরপেক্ষ অনুমানকারী: ইরেট = 0.499689 (0.397683 - 0.590734)

পক্ষপাতদুষ্ট অনুমানকারীটি হ'ল ক্রস-বৈধকরণের আগে বৈশিষ্ট্য নির্বাচন করা হয়, নিরপেক্ষ অনুমানক এমন এক যেখানে বৈশিষ্ট্য নির্বাচন ক্রস-বৈধকরণের প্রতিটি ভাগে স্বাধীনভাবে সঞ্চালিত হয়। এটি পরামর্শ দেয় যে পক্ষপাতটি এই ক্ষেত্রে শেখার কার্যের প্রকৃতির উপর নির্ভর করে বেশ তীব্র হতে পারে।

NF    = 56;
NC    = 259;
NFOLD = 10;
NMC   = 1e+4;

% perform Monte-Carlo simulation of biased estimator

erate = zeros(NMC,1);

for i=1:NMC

   y = randn(NC,1)  >= 0;
   x = randn(NC,NF) >= 0;

   % perform feature selection

   err       = mean(repmat(y,1,NF) ~= x);
   [err,idx] = min(err);

   % perform cross-validation

   partition = mod(1:NC, NFOLD)+1;
   y_xval    = zeros(size(y));

   for j=1:NFOLD

      y_xval(partition==j) = x(partition==j,idx(1));

   end

   erate(i) = mean(y_xval ~= y);

   plot(erate);
   drawnow;

end

erate = sort(erate);

fprintf(1, '  Biased estimator: erate = %f (%f - %f)\n', mean(erate), erate(ceil(0.025*end)), erate(floor(0.975*end)));

% perform Monte-Carlo simulation of unbiased estimator

erate = zeros(NMC,1);

for i=1:NMC

   y = randn(NC,1)  >= 0;
   x = randn(NC,NF) >= 0;

   % perform cross-validation

   partition = mod(1:NC, NFOLD)+1;
   y_xval    = zeros(size(y));

   for j=1:NFOLD

      % perform feature selection

      err       = mean(repmat(y(partition~=j),1,NF) ~= x(partition~=j,:));
      [err,idx] = min(err);

      y_xval(partition==j) = x(partition==j,idx(1));

   end

   erate(i) = mean(y_xval ~= y);

   plot(erate);
   drawnow;

end

erate = sort(erate);

fprintf(1, 'Unbiased estimator: erate = %f (%f - %f)\n', mean(erate), erate(ceil(0.025*end)), erate(floor(0.975*end)));

3
আপনাকে ধন্যবাদ - এটি খুব সহায়ক। যদি আপনি প্রস্তাবিত পন্থা অবলম্বন করেন তবে কীভাবে আপনি আপনার চূড়ান্ত মডেলটি মূল্যায়ন করবেন? আপনার যেমন বৈশিষ্ট্যগুলির একাধিক সেট থাকবে, আপনি কীভাবে চূড়ান্ত বৈশিষ্ট্য সেটটি চয়ন করবেন? Orতিহাসিকভাবে আমি মডেল পরামিতি এবং নির্বাচিত বৈশিষ্ট্যগুলির সাথে একক ক্রস বৈধতার ভিত্তিতে ফলাফলগুলিও প্রতিবেদন করেছি।
বিগ্রিন

15
কোনও মডেলকেই ফিট না করার পরিবর্তে কোনও মডেল ফিট করার পদ্ধতির কার্যকারিতা মূল্যায়ন হিসাবে ক্রস-বৈধকরণটি দেখা ভাল। সর্বোত্তম কাজটি হ'ল সাধারণত উপরের মতো ক্রস-বৈধকরণ সম্পাদন করা এবং তারপরে ক্রস-বৈধকরণ পদ্ধতির প্রতিটি ভাঁজে একই পদ্ধতি ব্যবহার করে সম্পূর্ণ ডেটাসেট ব্যবহার করে আপনার চূড়ান্ত মডেল তৈরি করুন।
ডিকরান মার্সুপিয়াল

2
এই ক্ষেত্রে আমরা তখন ক্রস-বৈধকরণের উপর ভিত্তি করে শ্রেণিবিন্যাসের ফলাফলগুলি প্রতিবেদন করছি (সম্ভাব্য অনেকগুলি বিভিন্ন বৈশিষ্ট্য সেট) তবে এখনও সেই বৈশিষ্ট্য সেটগুলির মধ্যে একটিতে মডেলটির প্রতিবেদন করছি, অর্থাৎ ক্রস-বৈধতাযুক্ত শ্রেণিবিন্যাসের ফলাফলগুলি প্রয়োজনীয়ভাবে বৈশিষ্ট্যটির সাথে মেলে না?
বিগ্রেন

10
মূলত হ্যাঁ, ক্রস-বৈধতা কেবলমাত্র কোনও মডেল বিল্ডিং প্রক্রিয়াটির প্রত্যাশিত পারফরম্যান্সের অনুমান করে, মডেল নিজেই নয়। যদি বৈশিষ্ট্য সেটটি ক্রস-ভ্যালিডিডেশনের এক ভাঁজ থেকে অন্য ভাগে আলাদা হয় তবে এটি একটি ইঙ্গিত দেয় যে বৈশিষ্ট্য নির্বাচনটি অস্থির এবং সম্ভবত খুব অর্থবহ নয় meaning বৈশিষ্ট্য নির্বাচনের চেয়ে নিয়মিতকরণ (উদাহরণস্বরূপ রিজ রিগ্রেশন) ব্যবহার করা সবচেয়ে ভাল, বিশেষত যদি পরবর্তীকালের অস্থিরতা থাকে।
ডিকরান মার্শুপিয়াল

3
এটি একটি গুরুত্বপূর্ণ পোস্ট। অবাক করা কতজন এটি প্রয়োগ করে না।
ক্রিস এ

12

সমস্যার কিছুটা আলাদা এবং আরও সাধারণ বিবরণ যুক্ত করতে:

আপনি যদি কোনও প্রকার ডেটা-চালিত প্রাক-প্রক্রিয়াজাতকরণ করেন , যেমন

  1. পারামিতি অপ্টিমাইজেশান ক্রস বৈধতা / বুটস্ট্র্যাপের বাইরে দ্বারা পরিচালিত
  2. মডেলটির জন্য ইনপুট উত্পাদন করার জন্য পিসিএ বা পিএলএসের মতো কৌশলগুলির সাথে মাত্রিকতা হ্রাস (যেমন পিএলএস-এলডিএ, পিসিএ-এলডিএ)
  3. ...

এবং চূড়ান্ত মডেলটির কার্যকারিতা অনুমান করার জন্য ক্রস বৈধকরণ / আউট-অফ-বুটস্ট্র্যাপ (/ হোল্ড আউট) বৈধতা ব্যবহার করতে চান , ডেটা-চালিত প্রাক-প্রসেসিং সার্োগেট প্রশিক্ষণের ডেটাতে করা উচিত, অর্থাত্ প্রতিটি সরোগেট মডেলের জন্য পৃথকভাবে।

যদি ডেটা-চালিত প্রাক-প্রসেসিং টাইপ 1 হয় তবে এটি "ডাবল" বা "নেস্টেড" ক্রস বৈধকরণের দিকে নিয়ে যায়: প্যারামিটারের অনুমানটি কেবল "বাহ্যিক" ক্রস বৈধতার প্রশিক্ষণ সেট ব্যবহার করে ক্রস বৈধকরণে সম্পন্ন হয়। এলেমস্ট্যাটলার্নের একটি চিত্র রয়েছে ( https://web.stanford.edu/~hastie/Papers/ESLII.pdf মুদ্রণের 5 পৃষ্ঠার 222)।

আপনি বলতে পারেন যে প্রাক-প্রক্রিয়াজাতকরণটি সত্যই মডেলটির বিল্ডিংয়ের অংশ। কেবলমাত্র প্রাক-প্রক্রিয়াজাতকরণ

  • স্বাধীনভাবে প্রতিটি ক্ষেত্রে বা
  • স্বাধীনভাবে প্রকৃত ডেটা সেট

গণনা সংরক্ষণের জন্য বৈধতা লুপের বাইরে নেওয়া যেতে পারে।

সুতরাং অন্য উপায়ে: যদি আপনার মডেলটি নির্দিষ্ট ডেটা সেটের বাহ্যিক জ্ঞানের দ্বারা সম্পূর্ণরূপে নির্মিত হয় (উদাহরণস্বরূপ আপনি আপনার বিশেষজ্ঞের জ্ঞানের দ্বারা আগেই সিদ্ধান্ত নেন যে পরিমাপ চ্যানেলগুলি --৩ - 79৯ সম্ভবত সমস্যা সমাধানে সহায়তা করতে পারে না, তবে অবশ্যই আপনি এই চ্যানেলগুলি বাদ দিতে পারেন) , মডেলটি তৈরি করুন এবং এটি ক্রস-বৈধ করুন same একইভাবে, যদি আপনি কোনও PLS রিগ্রেশন করেন এবং আপনার অভিজ্ঞতার দ্বারা সিদ্ধান্ত নেন যে 3 সুপ্ত ভেরিয়েবলগুলি একটি যুক্তিসঙ্গত পছন্দ (তবে 2 বা 5 এলভি আরও ভাল ফলাফল দেয় কিনা তার আশেপাশে খেলবেন না ) তবে আপনি পারেন একটি সাধারণ আউট-অফ-বুটস্ট্র্যাপ / ক্রস বৈধতা সহ এগিয়ে যান।


দুর্ভাগ্যক্রমে এলিমস্ট্যাটলার্ন বইয়ের 5 মুদ্রণের লিঙ্কটি কাজ করছে না। আমি ভাবছিলাম যে আপনি যে দৃষ্টান্তটি উল্লেখ করছেন তা এখনও একই পৃষ্ঠায় রয়েছে কিনা। ক্যাপশনটি উল্লেখ করুন।
rraadd88

সুতরাং, আমার কাছে যদি দুটি সেট ডেটা থাকে, তবে তার একটিতে বৈশিষ্ট্য নির্বাচন / ইঞ্জিনিয়ারিং এবং অন্যটিতে সিভি থাকলে কোনও সমস্যা হবে না?
মিলোস

1
@ মিলস: না, যতক্ষণ না এই বৈশিষ্ট্যগুলি ক্রস-বৈধকরণের জন্য মডেলগুলির জন্য নির্দিষ্ট পরামিতি হয়ে যায়, ঠিক আছে। এটি একটি যথাযথ হাইপোথিসিস প্রজন্ম (ডেটা সেট এ-তে বৈশিষ্ট্য বিকাশ) / হাইপোথিসিস টেস্টিং (= ডেটা বিয়ের সাথে এখনের নির্দিষ্ট বৈশিষ্ট্যগুলির পরিমাপের পরিমাপের পারফরম্যান্স) সেটআপ হবে।
সিবিলেট

@ কেবেলাইটস হ্যাঁ, আমি যা করতে চেয়েছিলাম সেটাই ছিল। এ-তে বৈশিষ্ট্যগুলি নির্ধারণ করুন, তারপরে সেই বৈশিষ্ট্যগুলি ঠিক করুন এবং বি তে মডেলগুলির জন্য ক্রস-বৈধকরণ করুন Thanks ধন্যবাদ। :)
মিলোস

@ মিলস: তবে মনে রাখবেন যে অর্জনের পারফরম্যান্সের জন্য আপনার যুক্তি আরও ভাল যদি আপনি আপনার মডেলটি এ এর ​​উপর পুরোপুরি প্রশিক্ষণ করেন এবং কেবলমাত্র পরীক্ষার জন্য বি ব্যবহার করেন ।
সিবেলাইট

5

এটিকে কিছুটা স্বজ্ঞাত করার চেষ্টা করি। এই উদাহরণটি বিবেচনা করুন: আপনার কাছে বাইনারি নির্ভর এবং দুটি বাইনারি ভবিষ্যদ্বাণী রয়েছে। আপনি কেবলমাত্র একজন ভবিষ্যদ্বাণী নিয়ে একটি মডেল চান। উভয় ভবিষ্যদ্বাণীকারী নির্ভরতার সমান হতে 95% বলার এবং 5% নির্ভরতার সাথে একমত হওয়ার সম্ভাবনা রাখে।

এখন, আপনার ডেটাতে সুযোগক্রমে একজন ভবিষ্যদ্বাণীকারী সময়ের 97% সময়ের মধ্যে পুরো ডেটার উপর নির্ভরশীল এবং অন্যটি কেবলমাত্র 93% সময়ের মধ্যে সমান। আপনি 97% দিয়ে ভবিষ্যদ্বাণী বেছে নেবেন এবং আপনার মডেলগুলি তৈরি করবেন। ক্রস-বৈধতার প্রতিটি ভাগে আপনার কাছে মডেল নির্ভরশীল = ভবিষ্যদ্বাণীকারী থাকবেন, কারণ এটি প্রায় সর্বদা সঠিক। সুতরাং আপনি 97% এর ক্রস পূর্বাভাসিত পারফরম্যান্স পাবেন।

এখন, আপনি বলতে পারেন, ঠিক আছে এটি কেবল দুর্ভাগ্য। তবে যদি ভবিষ্যদ্বাণীগুলি উপরে হিসাবে নির্মিত হয় তবে আপনার মধ্যে কমপক্ষে 75% এর সম্পূর্ণ ডেটা সেটে> 95% সঠিকতা থাকার সম্ভাবনা রয়েছে এবং এটিই আপনি বেছে নেবেন। সুতরাং আপনার কাছে পারফরম্যান্সকে ওভারসাইট করার 75% সুযোগ রয়েছে of

বাস্তবে, প্রভাবটি অনুমান করা মোটেও তুচ্ছ নয়। এটি সম্পূর্ণভাবে সম্ভব যে আপনার বৈশিষ্ট্য নির্বাচনটি প্রতিটি ভাঁজে একই বৈশিষ্ট্যগুলি বেছে নেবে যেমন আপনি পুরো ডেটা সেটে এটি করেছেন এবং তারপরে কোনও পক্ষপাতিত্ব থাকবে না। আপনার আরও বেশি নমুনা থাকলেও বৈশিষ্ট্যগুলি থাকলে প্রভাবটিও ছোট হয়। আপনার ডেটা দিয়ে উভয় উপায়ে ব্যবহার করা এবং ফলাফল কীভাবে পৃথক হয় তা দেখতে এটি শিক্ষামূলক হতে পারে।

আপনি একটি পরিমাণ পরিমাণ ডেটা (20% বলুন) আলাদা করে রাখতে পারেন, 80% এর উপরে ক্রস যাচাই করে পারফরম্যান্সের অনুমানের জন্য আপনার উপায় এবং সঠিক উপায় উভয়ই ব্যবহার করতে পারেন এবং আপনি যখন 20 এ আপনার মডেল স্থানান্তর করেন তখন কোন পারফরম্যান্সের পূর্বাভাস আরও সঠিক প্রমাণিত হয় তা দেখুন উপাত্তের%% আলাদা করে রেখেছেন। নোট করুন যে এটির জন্য সিভি এর আগে আপনার বৈশিষ্ট্য নির্বাচনটি কাজ করতে হবে কেবলমাত্র 80% ডেটাতে। অন্যথায় এটি আপনার নমুনার বাইরের ডেটাতে আপনার মডেল স্থানান্তর করার অনুকরণ করবে না।


আপনি নিজের স্বজ্ঞাত উদাহরণ দিয়ে বৈশিষ্ট্য নির্বাচন করার সঠিক পদ্ধতি সম্পর্কে আরও বিস্তারিত বলতে পারেন? ধন্যবাদ.
uared1776
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.