বৈশিষ্ট্য সংখ্যা বনাম পর্যবেক্ষণের সংখ্যা


26

"শক্তিশালী" শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য বৈশিষ্ট্য সংখ্যা এবং পর্যবেক্ষণের সংখ্যার মধ্যে সম্পর্ক সম্পর্কে কি কোনও কাগজপত্র / বই / ধারণা রয়েছে?

উদাহরণস্বরূপ, ধরুন আমার কাছে প্রশিক্ষণ সেট হিসাবে দুটি শ্রেণি থেকে 1000 বৈশিষ্ট্য এবং 10 টি পর্যবেক্ষণ রয়েছে এবং পরীক্ষার সেট হিসাবে 10 টি অন্যান্য পর্যবেক্ষণ রয়েছে। আমি কিছু শ্রেণিবদ্ধ এক্সকে প্রশিক্ষণ দিয়েছি এবং এটি আমাকে 90% সংবেদনশীলতা এবং পরীক্ষার সেটটিতে 90% নির্দিষ্টতা দেয়। আসুন আমরা এই নির্ভুলতার সাথে খুশি এবং এর ভিত্তিতে আমি বলতে পারি এটি একটি ভাল শ্রেণিবদ্ধ। অন্যদিকে, আমি কেবলমাত্র 10 পয়েন্ট ব্যবহার করে 1000 ভেরিয়েবলের একটি ফাংশন অনুমান করেছি, যা সম্ভবত খুব শক্তিশালী নয় বলে মনে হচ্ছে?

উত্তর:


20

আপনি এখানে যা আঘাত করেছেন তা হল মাত্রিকতার অভিশাপ বা পি >> এন সমস্যা (যেখানে পি ভবিষ্যদ্বাণীকারী এবং এন পর্যবেক্ষণ)। এই সমস্যাটি সমাধানের জন্য বহু বছর ধরে অনেকগুলি কৌশল তৈরি করা হয়েছে। আপনি আরও ভবিষ্যদ্বাণীকারীদের সাথে মডেলগুলিকে শাস্তি দিতে এআইসি বা বিআইসি ব্যবহার করতে পারেন । আপনি ভেরিয়েবলের এলোমেলো সেট বেছে নিতে পারেন এবং ক্রস-বৈধতা ব্যবহার করে তাদের গুরুত্ব নির্ধারণ করতে পারেন । আপনি নিয়মিতকরণের জন্য রিজ-রিগ্রেশন , লাসো বা ইলাস্টিক নেট ব্যবহার করতে পারেন । অথবা আপনি কোনও কৌশল বেছে নিতে পারেন, যেমন একটি সমর্থন ভেক্টর মেশিন বা এলোমেলো বন যা বিপুল সংখ্যক ভবিষ্যদ্বাণীকের সাথে ভাল আচরণ করে।

সত্যই, সমাধান আপনি যে সমস্যার সমাধান করার চেষ্টা করছেন তার নির্দিষ্ট প্রকৃতির উপর নির্ভর করে।


9

+ +1-10.000001*আমিআমি, কোনও পরিমাণ প্রশিক্ষণ ডেটা আপনাকে একটি দরকারী শ্রেণিবদ্ধ দেবে না। দিনের শেষে, প্রদত্ত সংখ্যক বৈশিষ্ট্যের জন্য আপনার প্রয়োজনীয় পরিমাণ নমুনাগুলি নির্ভর করে যে কীভাবে ডেটা বিতরণ করা হয় তার উপর নির্ভর করে, সাধারণভাবে, আপনার যত বেশি বৈশিষ্ট্য রয়েছে, তত বেশি ডেটা আপনাকে পর্যাপ্ত পরিমাণে ডেটা বন্টন বর্ণনা করতে হবে (আপনি যদি দুর্ভাগ্য হন তবে বৈশিষ্ট্যগুলির সংখ্যায় তাত্পর্যপূর্ণ - জ্যাচের বর্ণিত মাত্রিকতার অভিশাপ দেখুন)।

আপনি যদি নিয়মিতকরণ ব্যবহার করেন তবে মূলত, (একটি উপরের দিকে আবদ্ধ) সাধারণকরণের ত্রুটি বৈশিষ্ট্যগুলির সংখ্যার থেকে পৃথক (সমর্থন ভেক্টর মেশিনে ভ্যাপনিকের কাজ দেখুন)। তবে এটি নিয়মিতকরণ প্যারামিটারের জন্য একটি ভাল মান খুঁজে পাওয়ার সমস্যা ছেড়ে দেয় (ক্রস-বৈধকরণ কার্যকর)।


9

আপনি সম্ভবত ধ্রুপদী মডেলিং থেকে প্রভাব ফেললেন, যা রানেজ প্যারাডক্স- মত সমস্যাগুলির পক্ষে ঝুঁকির মধ্যে রয়েছে এবং পোস্ট-প্রসেসিংয়ে কিছু পার্সিমনি টিউনিং প্রয়োজন require
তবে, মেশিন লার্নিংয়ের ক্ষেত্রে, মডেল অপ্টিমাইজেশনের লক্ষ্য হিসাবে দৃ rob়তা অন্তর্ভুক্ত করার ধারণাটি পুরো ডোমেনের মূল বিষয় (প্রায়শই অদেখা তথ্যের যথাযথতা হিসাবে প্রকাশ করা হয়)। সুতরাং, ভাল, যতক্ষণ না আপনি জানেন যে আপনার মডেলটি ভাল কাজ করে (উদাহরণস্বরূপ সিভি থেকে) বিরক্ত করার কোনও কারণ নেই।

পি»এন


1

বছরের পর বছরগুলিতে আমার একেবারে মূল্যবান বইগুলির একটি হ'ল টিন্সলে এবং ব্রাউন এর হ্যান্ডবুক । বইটিতে অনেকগুলি স্থান রয়েছে যেখানে এই বিষয়টি বিভিন্ন অবদান লেখক দ্বারা আলোচিত হয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.