মেশিন লার্নিংয়ের ক্রস-বৈধতা সম্পাদন করার সময় "চূড়ান্ত" মডেলের জন্য বৈশিষ্ট্য নির্বাচন


76

বৈশিষ্ট্য নির্বাচন এবং মেশিন লার্নিং সম্পর্কে আমি কিছুটা বিভ্রান্ত হয়ে পড়ছি এবং আমি ভাবছিলাম যে আপনি আমাকে সাহায্য করতে পারেন কিনা। আমার কাছে একটি মাইক্রোআরে ডেটাসেট রয়েছে যা দুটি গ্রুপে শ্রেণিবদ্ধ করা হয়েছে এবং বৈশিষ্ট্যগুলির সংখ্যা রয়েছে। আমার লক্ষ্য হ'ল একটি স্বাক্ষরে স্বল্প সংখ্যক জিন (আমার বৈশিষ্ট্য) (10-20) পাওয়া যে আমি তাত্ত্বিকভাবে সেই নমুনাগুলিকে সর্বোত্তমভাবে শ্রেণিবদ্ধ করতে অন্যান্য ডেটাসেটগুলিতে প্রয়োগ করতে সক্ষম হব will যেহেতু আমার কাছে এতগুলি নমুনা নেই (<100), আমি পরীক্ষা এবং প্রশিক্ষণ সেট ব্যবহার করছি না তবে দৃ determine়তা নির্ধারণে সহায়তা করার জন্য লেভ-ওয়ান-আউট ক্রস-বৈধতা ব্যবহার করছি। আমি পড়েছি যে নমুনার প্রতিটি বিভাজনের জন্য বৈশিষ্ট্য নির্বাচন করা উচিত

  1. পরীক্ষার সেট হিসাবে একটি নমুনা নির্বাচন করুন
  2. বাকি নমুনাগুলিতে বৈশিষ্ট্য নির্বাচন সম্পাদন করে
  3. নির্বাচিত বৈশিষ্ট্যগুলি ব্যবহার করে অবশিষ্ট নমুনাগুলিতে মেশিন লার্নিং অ্যালগরিদম প্রয়োগ করুন
  4. পরীক্ষা সেটটি সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে কিনা তা পরীক্ষা করুন
  5. 1 এ যান।

আপনি যদি এটি করেন তবে আপনি প্রতিবার বিভিন্ন জিন পেতে পারেন, তবে কীভাবে আপনি আপনার "চূড়ান্ত" অনুকূল জিন শ্রেণিবদ্ধ পাবেন? অর্থাত step ষ্ঠ কি।

আমি সর্বোত্তম বলতে যা বোঝাতে চাই তা হ'ল জিনের সংগ্রহ যা পরবর্তী কোনও অধ্যয়ন ব্যবহার করা উচিত। উদাহরণস্বরূপ, বলুন আমার ক্যান্সার / সাধারণ ডাটাसेट রয়েছে এবং আমি শীর্ষ 10 জিনগুলি খুঁজতে চাই যা একটি এসভিএম অনুসারে টিউমার প্রকারকে শ্রেণিবদ্ধ করবে। আমি জিন প্লাস এসভিএম প্যারামিটারগুলির সেটটি জানতে চাই যা পরবর্তী পরীক্ষায় এটি ডায়াগনস্টিক পরীক্ষা হিসাবে ব্যবহার করা যেতে পারে কিনা তা দেখতে ব্যবহার করা যেতে পারে।


আমি পূর্ণ প্রকাশ যে, আমি ইতিমধ্যে bioconductor তালিকা এই পোস্ট তাদের জন্য বলতে হবে
danielsbrewer

দয়া করে এখানে কোনও বায়োকন্ডাক্টর ফলাফল সংক্ষিপ্ত করুন?
শেন

উত্তর:


39

এটি একটি খুব ভাল প্রশ্ন যা এসএনপিএস ডেটার সাথে কাজ করার সময় আমি নিজের মুখোমুখি হয়েছিলাম ... এবং আমি সাহিত্যের মাধ্যমে কোনও সুস্পষ্ট উত্তর খুঁজে পাইনি।

আপনি এলইউ বা কে-ফোল্ড সিভি ব্যবহার করুন না কেন, আপনি বিভিন্ন বৈশিষ্ট্যগুলি শেষ করবেন যেহেতু আপনি যেমন বলেছেন, ক্রস-বৈধকরণের পুনরাবৃত্তি অবশ্যই সবচেয়ে বহিরাগত লুপ হতে হবে। আপনি এমন একধরণের ভোটদানের পরিকল্পনা সম্পর্কে ভাবতে পারেন যা আপনার এলইউ-সিভি থেকে প্রাপ্ত বৈশিষ্ট্যগুলির এন-ভেক্টরকে রেট দেয় (কাগজটি মনে করতে পারে না তবে এটি হ্যারাল্ড বাইদার বা এন্টোইন কর্নেজাজলগুলির কাজ পরীক্ষা করার পক্ষে মূল্যবান )। নতুন পরীক্ষার নমুনার অভাবে, সাধারণত যা করা হয় তা হ'ল এমএমএল অ্যালগরিদমকে পুরো নমুনায় পুনরায় প্রয়োগ করার পরে যখন আপনি তার অনুকূল ক্রস-যাচাই করা প্যারামিটারগুলি খুঁজে পেয়েছেন। তবে এই পথে এগিয়ে যাওয়া, আপনি নিশ্চিত করতে পারবেন না যে ওভারফিটিং নেই (যেহেতু নমুনাটি ইতিমধ্যে মডেল অপ্টিমাইজেশনের জন্য ব্যবহৃত হয়েছিল)।

অথবা, বিকল্পভাবে, আপনি এম্বেড থাকা পদ্ধতিগুলি ব্যবহার করতে পারেন যা আপনাকে পরিবর্তনশীল গুরুত্বের পরিমাপের মাধ্যমে বৈশিষ্ট্যগুলি র‌্যাঙ্কিং সরবরাহ করে, যেমন র‌্যান্ডম অরণ্য (আরএফ) এর মতো। যেহেতু আরএফসগুলিতে ক্রস-বৈধকরণ অন্তর্ভুক্ত রয়েছে, আপনাকে কেস বা মাত্রিকতার অভিশাপ সম্পর্কে চিন্তা করতে হবে না । জিনের এক্সপ্রেশন স্টাডিতে তাদের অ্যাপ্লিকেশনগুলির দুর্দান্ত কাগজপত্র এখানে রয়েছে:np

  1. ক্যাটলার, এ।, ক্যাটলার, ডিআর এবং স্টিভেন্স, জেআর (২০০৯)। ক্যান্সার গবেষণায় হাই-ডাইমেনশনাল ডেটা অ্যানালাইসিসে ট্রি-ভিত্তিক পদ্ধতিগুলি, লি, এক্স এবং এক্স, আর (অ্যাড।), পিপি। 83-101, স্প্রঞ্জার।
  2. সিয়েস, ওয়াই।, ইনজা, আই। এবং ল্যারাগাগা, পি। (2007)। বায়োইনফরম্যাটিক্সে বৈশিষ্ট্য নির্বাচন কৌশলগুলির একটি পর্যালোচনা। বায়োইনফরম্যাটিকস , 23 (19) : 2507-2517।
  3. দাজ-উরিয়ার্তে, আর।, আলভারেজ ডি আন্দ্রেস, এস। (2006) জিন নির্বাচন এবং এলোমেলো বন ব্যবহার করে মাইক্রোরেই ডেটার শ্রেণিবিন্যাস। বিএমসি বায়োইনফরম্যাটিকস , 7 : 3।
  4. ডিয়াজ-উরিয়ার্তে, আর। (2007) জেনএসআরএফ এবং ভার্সেলআরএফ: র্যান্ডম অরণ্য ব্যবহার করে জিন নির্বাচন এবং শ্রেণিবিন্যাসের জন্য একটি ওয়েব-ভিত্তিক সরঞ্জাম এবং আর প্যাকেজ। বিএমসি বায়োইনফরম্যাটিকস , 8 : 328

যেহেতু আপনি এসভিএমের কথা বলছেন, তাই আপনি দণ্ডিত এসভিএমের সন্ধান করতে পারেন ।


তার জন্য ধন্যবাদ. আমি এসভিএমের উপর বিশেষভাবে বিক্রি হচ্ছি না, এটি কেবল উদাহরণ হিসাবে ব্যবহার করে। সুতরাং আপনি যদি এলোমেলো গাছ ব্যবহার করেন তবে আপনাকে ক্রস-বৈধকরণ করতে হবে না? এটা কি সঠিক.
ড্যানিয়েলসব্রুয়ার

7
হ্যাঁ, আরএফগুলিতে গাছের বর্ধনের সময় (সাধারণত ) এলোমেলোভাবে নমুনা অন্তর্ভুক্ত থাকে এবং প্রতিটি গাছ ব্যক্তিদের বুস্ট্রেপ নমুনার ভিত্তিতে থাকে; পরিবর্তনের কৌশলটি তথাকথিত বহি-ব্যাগের নমুনাগুলিতে (সিদ্ধান্ত গাছ তৈরির জন্য ব্যবহৃত হয় না) গণনা করা হয় perm অ্যালগরিদম এম গাছগুলির জন্য পুনরাবৃত্তি হয় (ডিফল্ট এম = 500) এবং ফলগুলি গাছের স্তরে (উত্থাপন) অনিশ্চয়তা ক্ষতিপূরণ হিসাবে গড়ে গড়ে যায়। p
সিলেট

3
এটি গুরুত্বপূর্ণ যে এটিকে র‌্যান্ডম ফরেস্ট নয় র‌্যান্ডম ট্রি বলা হয়; গুগলে আপনার সমস্যা হতে পারে।

1
+1, ভাল উত্তর এবং আমার জন্য নির্মম - কাগজ উল্লেখ, বিশেষত পর্যালোচনা জন্য অনেক ধন্যবাদ।
Ars

পর্যাপ্ত তথ্য সহ, কোনও পরীক্ষার সেট রাখা, মডেল প্যারামিটারগুলি অনুকূল করতে, পুরো ট্রেনের সেটটি ফিট করতে (এবং সেই "চূড়ান্ত" শ্রেণিবদ্ধকারীকে কল করুন), এবং তারপরে চূড়ান্ত মডেলটি মূল্যায়ন করার জন্য কি কোনও পরীক্ষার সেটটি রাখা, প্রশিক্ষণ সেটটিতে লকভিটি করা ভাল নয়? পরীক্ষার সেট এ?
ব্যবহারকারী 0

40

নীতিগতভাবে:

সম্পূর্ণ ডেটাসেটে প্রশিক্ষিত একটি একক মডেল ব্যবহার করে আপনার ভবিষ্যদ্বাণীগুলি করুন (যাতে বৈশিষ্ট্যগুলির মধ্যে কেবল একটি সেট থাকে)। ক্রস-বৈধকরণ কেবলমাত্র পুরো ডেটাসেটে প্রশিক্ষিত একক মডেলের ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স অনুমান করার জন্য ব্যবহৃত হয়। ক্রস-বৈধতা ব্যবহার করা গুরুত্বপূর্ণ যে প্রতিটি ভাগে আপনি প্রাথমিক মডেলের সাথে মানানসই পুরো পদ্ধতিটি পুনরাবৃত্তি করেন, অন্যথায় আপনি পারফরম্যান্সে যথেষ্ট আশাবাদী পক্ষপাতিত্ব দিয়ে শেষ করতে পারেন।

এটি কেন ঘটে তা দেখতে, 1000 বাইনারি বৈশিষ্ট্যযুক্ত কেবল বাইনারি শ্রেণিবিন্যাসের সমস্যাটি বিবেচনা করুন তবে কেবল 100 টি ক্ষেত্রে, যেখানে কেস এবং বৈশিষ্ট্যগুলি সম্পূর্ণরূপে এলোমেলো, তাই বৈশিষ্ট্যগুলি এবং যে কোনও ক্ষেত্রেই এর মধ্যে কোনও পরিসংখ্যানের সম্পর্ক নেই। যদি আমরা সম্পূর্ণ ডেটাসেটে কোনও প্রাথমিক মডেলকে প্রশিক্ষণ দিই, তবে আমরা প্রশিক্ষণ সেটটিতে সর্বদা শূন্য ত্রুটি অর্জন করতে পারি কারণ মামলার চেয়ে আরও বেশি বৈশিষ্ট্য রয়েছে। এমনকি আমরা "তথ্যবহুল" বৈশিষ্ট্যগুলির একটি উপসেটও খুঁজে পেতে পারি (এটি সুযোগের সাথে সম্পর্কিত হতে পারে)। যদি আমরা কেবলমাত্র সেই বৈশিষ্ট্যগুলি ব্যবহার করে ক্রস-বৈধকরণ সম্পাদন করি তবে আমরা পারফরম্যান্সের একটি প্রাক্কলন পাই যা এলোমেলো অনুমানের চেয়ে ভাল। কারণটি হ'ল ক্রস-বৈধকরণ পদ্ধতির প্রতিটি ভাগে পরীক্ষার জন্য ব্যবহৃত আউট-আউট কেসগুলির কিছু তথ্য রয়েছে কারণ বৈশিষ্ট্যগুলি বেছে নেওয়া হয়েছিল কারণ সেগুলি ভবিষ্যদ্বাণী করার পক্ষে ভাল ছিল, সেগুলি সমস্ত, আউট রাখা সহ। অবশ্যই সত্য ত্রুটির হার হবে 0.5।

যদি আমরা যথাযথ পদ্ধতি অবলম্বন করি এবং প্রতিটি ভাগে বৈশিষ্ট্য নির্বাচন সম্পাদন করি, তবে সেই ভাগে ব্যবহৃত বৈশিষ্ট্যগুলির পছন্দের ক্ষেত্রে অনুষ্ঠিত আউট কেসগুলি সম্পর্কে আর কোনও তথ্য নেই। আপনি যদি সঠিক পদ্ধতি ব্যবহার করেন তবে এক্ষেত্রে আপনি প্রায় 0.5 টির একটি ত্রুটি হার পাবেন (যদিও এটি ডেটাসেটের বিভিন্ন উপলব্ধির জন্য কিছুটা আলাদা হবে)।

পড়ার জন্য ভাল কাগজপত্রগুলি হ'ল:

ক্রিস্টোফ অ্যামব্রয়েস, জেফ্রি জে ম্যাকল্যাচলান, "মাইক্রোয়ারে জিন-এক্সপ্রেশন ডেটার ভিত্তিতে জিন উত্তোলনে নির্বাচন পক্ষপাত", পিএনএএস http://www.pnas.org/content/99/10/6562.abstract

যা ওপি এবং অত্যন্ত প্রাসঙ্গিক

গ্যাভিন সি। কাওলি, নিকোলা এলসি টালবট, "পারফরম্যান্স মূল্যায়নের ক্ষেত্রে মডেল নির্বাচনের ওভার-ফিটিং এবং পরবর্তী নির্বাচন বায়াস", জেএমএলআর 11 (জুলাই): 2079−2107, 2010 http://jMLr.csail.mit.edu/papers /v11/cawley10a.html

যা দেখায় যে একই জিনিস সহজেই মডেল নির্বাচনের ক্ষেত্রে ocurr করতে পারে (যেমন একটি এসভিএমের হাইপার-পরামিতিগুলি সুর করে, যা সিভি পদ্ধতির প্রতিটি পুনরাবৃত্তিতে পুনরাবৃত্তি করা প্রয়োজন)।

প্রস্তুতিতে:

পারফরম্যান্স অনুমানের জন্য ব্যাগিং এবং আউট-ব্যাগ ত্রুটি ব্যবহার করার পরামর্শ দেব। আপনি অনেকগুলি বৈশিষ্ট্য ব্যবহার করে একটি কমিটি মডেল পাবেন তবে এটি আসলে একটি ভাল জিনিস। আপনি যদি কেবল একটি একক মডেল ব্যবহার করেন তবে সম্ভবত আপনি বৈশিষ্ট্য নির্বাচনের মানদণ্ডকে বেশি মানিয়ে নেবেন এবং এমন একটি মডেল শেষ করবেন যা আরও বেশি সংখ্যক বৈশিষ্ট্য ব্যবহার করে এমন মডেলের চেয়ে দরিদ্র ভবিষ্যদ্বাণী দেয়।

রিগ্রেশন-এ সাবসেট নির্বাচনের বিষয়ে অ্যালান মিলার্স বই (পরিসংখ্যানগুলির উপর চ্যাপম্যান এবং হল মনোগ্রাফগুলি এবং প্রয়োগিত সম্ভাব্যতা, খণ্ড 95) ভাল পরামর্শ দেয় (পৃষ্ঠা 221) যে যদি ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স সবচেয়ে গুরুত্বপূর্ণ কাজ হয় তবে কোনও বৈশিষ্ট্য নির্বাচন করবেন না পরিবর্তে কেবল রিজ রিগ্রেশন ব্যবহার করুন। এবং এটি সাবসেট নির্বাচনের একটি বইতে আছে !!! ; O)


17

সিএল যোগ করতে: সমর্থন ভেক্টর মেশিনগুলি ব্যবহার করার সময়, একটি অত্যন্ত প্রস্তাবিত শাস্তি পদ্ধতি হ'ল ইলাস্টিক নেট। এই পদ্ধতিটি গুণমানগুলি শূন্যের দিকে সঙ্কুচিত করবে এবং তাত্ত্বিকভাবে মডেলের সবচেয়ে স্থিতিশীল সহগগুলি বজায় রাখবে। প্রথমদিকে এটি একটি রিগ্রেশন ফ্রেমওয়ার্কে ব্যবহৃত হত তবে সমর্থন ভেক্টর মেশিনগুলির সাহায্যে এটি সহজেই প্রসারিত হয়।

আসল প্রকাশনা : চিউ এবং হাসি (2005): ইলাস্টিক নেট এর মাধ্যমে নিয়মিতকরণ এবং পরিবর্তনশীল নির্বাচন। JRStatist.Soc। বি, 67-2, পিপি 301-320

এসভিএম এর জন্য ইলাস্টিক নেট : ঝু ও জুউ (২০০)): সাপোর্ট ভেক্টর মেশিনের জন্য পরিবর্তনশীল নির্বাচন: নিউরাল কম্পিউটেশনের ট্রেন্ডস, ২ য় অধ্যায় (সম্পাদক: চেন এবং ওয়াং)

ইলাস্টিক নেট জুন-টাও এবং ইয়িং-মিনে উন্নতি (2010): ক্যান্সারের শ্রেণিবিন্যাস এবং জিন নির্বাচনের জন্য একটি উন্নত স্থিতিস্থাপক নেট: অ্যাক্টা অটোমেটিকা ​​সিনিকা, 36-7, পিপি 976-981


9

পদক্ষেপ ((বা 0) হিসাবে আপনি সম্পূর্ণ ডেটা সেটটিতে বৈশিষ্ট্য সনাক্তকরণ অ্যালগরিদম চালাচ্ছেন।

যুক্তিটি হ'ল: বৈশিষ্ট্যগুলি নির্বাচন করতে আপনি যে পদ্ধতি ব্যবহার করছেন তার বৈশিষ্ট্যগুলি খুঁজে বের করার পদ্ধতি হিসাবে আপনাকে ক্রস-বৈধকরণের কথা ভাবতে হবে। এটি প্রশ্নের উত্তর দেয়: "যদি আমার কাছে কিছু তথ্য থাকে এবং এই পদ্ধতিটি সম্পাদন করে, তবে নতুন নমুনাকে শ্রেণিবদ্ধ করার জন্য ত্রুটির হার কী?" উত্তরটি জানার পরে আপনি সম্পূর্ণ ডেটা সেটটিতে প্রক্রিয়াটি (বৈশিষ্ট্য নির্বাচন + শ্রেণীবদ্ধের নিয়ম বিকাশ) ব্যবহার করতে পারেন। লোকেরা ছুটি-ওয়ান-আউট পছন্দ করে কারণ ভবিষ্যদ্বাণীপূর্ণ বৈশিষ্ট্যগুলি সাধারণত নমুনার আকারের উপর নির্ভর করে এবং সাধারণত খুব বেশি গুরুত্ব না যথেষ্ট পরিমাণে নিকটবর্তী হয় ।এনn1n


আমি মনে করি যে একই নমুনা (1) ব্যবহার করে শ্রেণিবদ্ধকরণের শ্রেণিবদ্ধকরণ / পূর্বাভাসের পারফরম্যান্সটি পর্যায়ক্রমে যখন তার পরামিতিগুলি (শেষ পর্যন্ত বৈশিষ্ট্য নির্বাচন সহ) টিউন করার জন্য এবং (2) পুরো ডেটা সেটে তার ভবিষ্যদ্বাণীগুলি ব্যবহার করার পরে এখনও সাধারণীকরণের সমস্যা রয়েছে। প্রকৃতপক্ষে, আপনি ক্রম-বৈধতা ব্যবহার করে বিশদযুক্ত ওভারফিটিংয়ের উপর চাপিত নিয়ন্ত্রণকে ভঙ্গ করছেন। হাসিটি এট আল। সিভি অসুবিধাগুলির একটি দুর্দান্ত চিত্র সরবরাহ করুন, এসপিএস। wrt। বৈশিষ্ট্য নির্বাচন, তাদের ESL বইয়ে, দ্বিতীয় সংস্করণে 10 7.10.2।
chl

@ সিএইচএল: পরামিতিগুলির সুরের বিষয়ে কে কিছু বলেছে? অতিরিক্ত জিনিসগুলি সম্পাদন করা হলে ক্রস-বৈধকরণের সময়ও এগুলি পুনরাবৃত্তি করা উচিত। আপনার ক্রস-বৈধতাযুক্ত ত্রুটি হারগুলি "প্রতারণা" না পাওয়া পর্যন্ত আপনার অ্যালগরিদমকে স্পষ্টভাবে সংশোধন করা। বিটিডাব্লু, আমি সম্মত হই যে ক্রস-বৈধকরণ, বিশেষত লেভ-ওয়ান-আউট, এত দুর্দান্ত নয়।
অনিকো

এটি প্রতারণা নয়, যেহেতু সিভি আপনাকে নতুন উপাত্তে অ্যালগরিদম কীভাবে সম্পাদন করবে তার সীমাবদ্ধতা দেখায়। আপনার কেবলমাত্র নিশ্চিত হওয়া দরকার যে আপনি পুরো সেটের উপর ভিত্তি করে কোনও কিছুর উপর ভিত্তি করে বসেননি (এটি পুরো সেটটির কাঠামো সম্পর্কে তথ্য ফাঁস, সুতরাং এটি অবিলম্বে সমস্ত ট্রেনের অংশটিকে পক্ষপাত করতে পারে)।

@ এমবিকিউ - আনকিনো সঠিক, একটি সিভি পরিসংখ্যানকে হ্রাস করতে আপনার মডেলটির সুর করা "প্রতারণা" এবং চূড়ান্ত মডেলের সিভি পরিসংখ্যানটির যথেষ্ট আশাবাদী পক্ষপাতিত্ব থাকবে। এর কারণ হ'ল সিভি পরিসংখ্যানটির একটি অ-উপেক্ষিত বৈকল্পিকতা রয়েছে (যেমন এটি একটি চূড়ান্ত উপাত্তের ডেটাতে মূল্যায়ন করা হয়) এবং সুতরাং আপনি যদি সরাসরি সিভি পরিসংখ্যানকে অনুকূল করেন তবে আপনি এটি অতিরিক্ত ফিট করতে পারেন এবং আপনি একটি মডেল দিয়ে শেষ করতে পারেন যা আপনি শুরু করেছিলেন তার চেয়ে কম সাধারণীকরণ করে। এটি প্রদর্শনের জন্য, একটি মেশিন লার্নিং প্রসঙ্গে jMLr.csail.mit.edu/papers/v11/cawley10a.html সমাধান: নেস্টেড এক্সভিএল ব্যবহার করুন
মার্সুপিয়াল

1

এইভাবে আমি বৈশিষ্ট্যগুলি নির্বাচন করি। মনে করুন নির্দিষ্ট জ্ঞানের উপর ভিত্তি করে তুলনা করার জন্য 2 টি মডেল রয়েছে। মডেল এ বৈশিষ্ট্যগুলি নং 1 থেকে নং ব্যবহার করে। ১০. মডেল বি নং -১১ থেকে নং ব্যবহার করে। 20. আমি নমুনা-এর নমুনা বহির্ভূত কর্মক্ষমতা পেতে মডেল A তে এলইউ সিভি প্রয়োগ করব। বি মডেল করার জন্য একই করুন এবং তারপরে তাদের তুলনা করুন।


-1

আমি শ্রেণিবদ্ধকরণের সমস্যা সম্পর্কে নিশ্চিত নই, তবে রিগ্রেশন সমস্যার জন্য বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে জুন শাও দেখিয়েছিলেন যে লিভ-ওয়ান-আউট সিভি অসম্পূর্ণভাবে বেমানান , অর্থাত্ বৈশিষ্ট্যগুলির সঠিক উপসেটটি বেছে নেওয়ার সম্ভাবনা 1 হিসাবে রূপান্তরিত হয় না নমুনার সংখ্যা বৃদ্ধি পায়। ব্যবহারিক দৃষ্টিকোণ থেকে শাও একটি মন্টে-কার্লো ক্রস-বৈধকরণ, বা ছাড়ার-বহির্ভূত পদ্ধতির প্রস্তাব দেয়।


ওহ আমার, আবারও; আপনি এই নিবন্ধটির শিরোনাম পড়েছেন?

2
ঠিক আছে, পরিষ্কার করে বলুন - আমি বলছি না যে LOOCV একটি বিশাল সংখ্যক অবজেক্টের জন্য ভাল ধারণা; স্পষ্টতই এটি না, তবে শাও এখানে প্রযোজ্য নয়। প্রকৃতপক্ষে বেশিরভাগ ক্ষেত্রে এলএমদের নিয়ম এমএল রাখে না।

1
বিপুল সংখ্যক বৈশিষ্ট্যযুক্ত এবং তুলনামূলকভাবে কয়েকটি নিদর্শন সহ ডেটাসেটগুলি দেখার সময় অ্যাসিম্পটোটিক ফলাফলগুলি ব্যবহারিক ব্যবহারের কিনা তাও সন্দেহজনক। সেক্ষেত্রে প্রক্রিয়াটির বৈচিত্র্য পক্ষপাত বা ধারাবাহিকতার চেয়ে বেশি কার্যকরী গুরুত্বের হতে পারে। এলইউসিভির মূল মানটি হ'ল অনেক মডেলের ক্ষেত্রে এটি উপেক্ষিত গণনা ব্যয়ে প্রয়োগ করা যেতে পারে, সুতরাং এটি বুটস্ট্র্যাপিং বলার চেয়ে উচ্চতর বৈসাদৃশ্য রয়েছে, তবে এটি কেবল তুলনামূলক বাজেটের মধ্যে সম্ভাব্য পন্থা হতে পারে। এজন্য আমি এটি ব্যবহার করি তবে আমি পারফরম্যান্স মূল্যায়নের জন্য অন্য কিছু ব্যবহার করি!
ডিকরান মার্সুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.