উদাহরণস্বরূপ সংখ্যার তুলনায় বৈশিষ্ট্যগুলির সংখ্যার উপর কোনও "থাম্বের নিয়ম"? (ছোট ডেটা সেট)


17

আমি ভাবছি, যদি পর্যালোচনার সংখ্যার তুলনায় বৈশিষ্ট্যগুলির সংখ্যার উপর কোনও হুরিস্টিক্স থাকে। স্পষ্টতই, যদি বেশ কয়েকটি বৈশিষ্ট্য পর্যবেক্ষণের সংখ্যার সমান হয়, তবে মডেলটি উপচে পড়বে। স্পার পদ্ধতিতে (লাসো, ইলাস্টিক নেট) ব্যবহার করে আমরা মডেল হ্রাস করতে কয়েকটি বৈশিষ্ট্য সরিয়ে ফেলতে পারি।

আমার প্রশ্নটি (তাত্ত্বিকভাবে): মডেল নির্বাচনের মূল্যায়ন করতে আমরা মেট্রিক ব্যবহার করার আগে পর্যবেক্ষণের সংখ্যার সাথে বৈশিষ্ট্যগুলির সর্বাধিক সংখ্যার সাথে সম্পর্কিত এমন কোন অভিজ্ঞতাগত পর্যবেক্ষণ রয়েছে কি?

উদাহরণস্বরূপ: প্রতিটি বর্গে 20 টি দৃষ্টান্ত সহ বাইনারি শ্রেণিবিন্যাস সমস্যার জন্য, ব্যবহারের জন্য বৈশিষ্ট্যগুলির সংখ্যার কোনও উচ্চতর সীমা আছে?

উত্তর:


13

একাধিক কাগজপত্র যে মতামত আছে

কেবল বিরল ক্ষেত্রেই বৈশিষ্ট্যের সংখ্যা এবং নমুনা আকারের ক্রিয়া হিসাবে ত্রুটির জ্ঞাত বিতরণ রয়েছে।

প্রদত্ত উদাহরণ এবং বৈশিষ্ট্যগুলির একটি সেটের জন্য ত্রুটির তলটি বৈশিষ্ট্যগুলির মধ্যে পারস্পরিক সম্পর্ক (বা অভাব) এর একটি ফাংশন।

এই কাগজ নিম্নলিখিত পরামর্শ দেয়:

  • অসামঞ্জস্যিত বৈশিষ্ট্যগুলির জন্য, অনুকূল বৈশিষ্ট্যটির আকারটি (যেখানে নমুনার আকার হয়)এন-1এন
  • বৈশিষ্ট্যের পারস্পরিক সম্পর্ক বাড়ার সাথে সাথে, সর্বোত্তম বৈশিষ্ট্যের আকারটি উচ্চতর সংযুক্তিযুক্ত বৈশিষ্ট্যগুলির জন্য আনুপাতিক হয়ে যায় ।এন

অন্য একটি (অভিজ্ঞতা) গ্রহণ করা যেতে পারে, একই ডেটাसेट থেকে বিভিন্ন নমুনা আকারের জন্য শেখার বক্ররেখা আঁকা এবং বিভিন্ন নমুনা আকারে শ্রেণিবদ্ধ কর্মক্ষমতা পূর্বাভাস জন্য যে ব্যবহার। কাগজের লিঙ্কটি এখানে ।


2
আমি এই উত্তরটি কিছুটা বিভ্রান্তিকর বলে মনে করি যে হুয়া কাগজের একটি গুরুত্বপূর্ণ ধারণা অনুপস্থিত: হুয়া এট আল বৈশিষ্ট্যগুলি। লিঙ্কযুক্ত কাগজে বিবেচনা করুন সমস্ত তথ্যবহুল, যা আপনি বাস্তবে যা আশা করতে পারেন তা নয়। আইএমএইচও এটি স্পষ্টভাবে বলা উচিত কারণ আইএমএইচও সবচেয়ে সাধারণ ধরণের অনিয়ন্ত্রিত "বৈশিষ্ট্যগুলি" অননুমোদিত পরিমাপ চ্যানেল।
সিবিলেটগুলি 16:09

Wrt। শিক্ষণ কার্ভস: ওপি সম্ভবত তাদের 2 × 20 কেস ব্যবহার করতে সক্ষম হবেনা, কারণ এগুলি খুব কম ক্ষেত্রেই কোনও দরকারী নির্ভুলতার সাথে পরিমাপ করা যায় না। হুয়া সংক্ষেপে এর উল্লেখ করেছে এবং আমি নীচে আমার উত্তরটিতে লিঙ্কিত পেপারে বরং এই সমস্যাটি নিয়ে বিশদ আলোচনা করেছি।
সিবিলেটগুলি

8

আমার নিজের অভিজ্ঞতা থেকে: একটি ক্ষেত্রে, আমি অনেকগুলি ক্লাস সহ অত্যন্ত ছোট (300 চিত্র) এমন সত্যিকারের ডাটাবেস নিয়ে কাজ করেছি, গুরুতর ডেটা ভারসাম্যহীন সমস্যা এবং 9 টি বৈশিষ্ট্য ব্যবহার করে আমি শেষ করেছি: সিফ্ট, এইচওজি, আকারের প্রসঙ্গে, এসএসআইএম, জিএম এবং 4 ডিএনএন-ভিত্তিক বৈশিষ্ট্য। অন্য ক্ষেত্রে, আমি খুব বড় ডাটাবেস (> 1 এম চিত্র) নিয়ে কাজ করেছি এবং কেবলমাত্র এইচওজি বৈশিষ্ট্যটি ব্যবহার করে শেষ করেছি। আমি মনে করি উদাহরণগুলির সংখ্যা এবং উচ্চ নির্ভুলতা অর্জনের জন্য প্রয়োজনীয় বৈশিষ্ট্যগুলির সংখ্যার মধ্যে সরাসরি সম্পর্ক নেই। বাট: ক্লাসের সংখ্যা, একই ক্লাসের মধ্যে ক্লাস এবং প্রকরণের মধ্যে মিল (এই তিনটি পরামিতি) বৈশিষ্ট্যগুলির সংখ্যাকে প্রভাবিত করতে পারে। যখন অনেক ক্লাসের সাথে বৃহত্তর ডাটাবেস থাকে এবং একই শ্রেণীর মধ্যে ক্লাস এবং বৃহত্তর প্রকরণের মধ্যে বৃহত্তর মিল থাকে তখন উচ্চ নির্ভুলতা অর্জনের জন্য আপনার আরও বৈশিষ্ট্য প্রয়োজন। মনে রাখবেন:


@ বাশার হাদ্দাদ: আমি ভুল হলে আমাকে সংশোধন করুন (যেমন আমি কম্পিউটার ভিশন এবং এমএল উভয় ক্ষেত্রেই নতুন), এইচওজি বৈশিষ্ট্যটি আসলে উচ্চ মাত্রিক ভেক্টর নয় (আমার ক্ষেত্রে, আমি 1764-মাত্রিক এইচওজি বৈশিষ্ট্যগুলি পাচ্ছিলাম)। সুতরাং যখন আপনি 9 টি বৈশিষ্ট্য এবং সেগুলির একটি হ'ল HOG, আপনি কি কেবলমাত্র এইচওজি-র জন্য একটি উচ্চ মাত্রিক বৈশিষ্ট্য স্থান পাচ্ছেন না?
ম্যাথমেথ

1
সাহিত্যে তারা বৈশিষ্ট্য শব্দটি ব্যবহার করে হয় বৈশিষ্ট্যের ধরণ বা মাত্রা সূচকটি নির্দেশ করে। সুতরাং যখন আমি বলি যে আমি features টি বৈশিষ্ট্য ব্যবহার করছি, এর অর্থ আমি feature টি বৈশিষ্ট্য প্রকার ব্যবহার করছি, তাদের প্রত্যেকটিই (1 এক্স ডি) ভেক্টর। যদি আমি হোগ বৈশিষ্ট্য প্রকারের কথা বলি তবে প্রতিটি মাত্রা একটি বৈশিষ্ট্য হতে পারে।
বাশার হাদাদ

2

এটি নির্ভর করে ... তবে অবশ্যই উত্তরটি কোথাও পাবেন না।

তিনি মডেল জটিলতার জন্য থাম্বের কিছু নিয়ম: ডেটা থেকে শেখা - ভিসি মাত্রা

"খুব মোটামুটিভাবে" প্রতিটি মডেলের প্যারামিটারের জন্য আপনার 10 ডেটা পয়েন্ট দরকার। এবং মডেল পরামিতিগুলির সংখ্যা বৈশিষ্ট্যের সংখ্যার মতো হতে পারে।


2

দেরিতে পার্টিতে বিট করুন তবে এখানে কিছু হিউরিস্টিকস রয়েছে।

প্রতি বর্গে 20 টি দৃষ্টান্ত সহ বাইনারি শ্রেণিবদ্ধকরণ সমস্যা, ব্যবহারের বৈশিষ্ট্যগুলির সংখ্যার উপর কোনও উচ্চতর সীমা আছে কি?

  • জন্য প্রশিক্ষণ রৈখিক ক্লাসিফায়ার এর 3 - শ্রেণী এবং ফিচার প্রতি 5 স্বাধীন ক্ষেত্রে সুপারিশ করা হয়। এই সীমাটি আপনাকে নির্ভরযোগ্যভাবে স্থিতিশীল মডেলগুলি দেয় , এটি একটি ভাল মডেলের গ্যারান্টি দেয় না (এটি সম্ভব নয়: আপনার কাছে অপ্রয়োজনীয় তথ্য থাকতে পারে যেখানে কোনও মডেল ভাল সাধারণীকরণের কার্য সম্পাদন করতে পারে না)

  • তবে, আপনার দৃশ্যের তুলনায় ছোট আকারের নমুনার জন্য, প্রশিক্ষণের চেয়ে যাচাইকরণ (যাচাইকরণ) হ'ল বাধা, এবং যাচাইকরণ মডেল জটিলতার তুলনায় পরীক্ষার ক্ষেত্রে নিখুঁত সংখ্যার উপর নির্ভর করে: থাম্বের নিয়ম হিসাবে, আপনার প্রয়োজন ≈ 100 পরীক্ষা ডিনোমিনেটরে কেসগুলি 10% পয়েন্টের বেশি প্রশস্ত নয় এমন একটি আত্মবিশ্বাসের ব্যবধানের সাথে অনুপাতটি অনুমান করে।

    দুর্ভাগ্যক্রমে এর অর্থ হ'ল আপনি মূলত আপনার প্রয়োগের জন্য অভিজ্ঞতা অভিজ্ঞতা অর্জন করতে পারবেন না: আপনি এটিকে যথাযথভাবে পরিমাপ করতে পারবেন না এবং অনুশীলনে আপনি যে কোনওভাবেই এটি অতিরিক্ত বহির্ভূত করতে পারেন কারণ প্রশিক্ষণের জন্য আপনি নিজের মডেলকে সীমাবদ্ধ রেখে ছোট নমুনার আকারের প্রতিক্রিয়া দেখান জটিলতা - এবং আপনি নমুনার আকার বৃদ্ধির সাথে এটিকে শিথিল করবেন।

    বিশদগুলির জন্য আমাদের কাগজটি দেখুন: বেলাইট, সি এবং নিউজবাউয়ার, মার্কিন যুক্তরাষ্ট্র এবং বকলিটজ, টি। এবং ক্রাফ্ট, সি এবং পপ, জে .: শ্রেণিবদ্ধকরণের মডেলগুলির জন্য নমুনা আকারের পরিকল্পনা planning পায়খানা চিম অ্যাক্টা, 2013, 760, 25-33।
    ডিওআই: 10.1016 / জে.এ.সি.এ.এল.এল .11.11.007 আরএক্সআইভিতে

    স্বীকৃত পান্ডুলিপি: 1211.1323

  • আমার কাছে এই সুপারিশগুলির কাছাকাছি কিছু ছিল না (চিকিত্সা সংক্রান্ত অ্যাপ্লিকেশনগুলির জন্যও বর্ণালী)) তারপরে আমি যা করি তা হ'ল: আমি মডেলিং এবং যাচাইকরণের অংশ হিসাবে মডেলটির স্থায়িত্ব খুব ঘনিষ্ঠভাবে পরিমাপ করি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.