শ্রেণিবদ্ধের নির্ভুলতা কীভাবে বাড়ানো যায়?


17

আমি এলোমেলো গাছ এবং অন্যান্য শ্রেণিবদ্ধের উপর পরীক্ষার জন্য ওপেনসিভি লেটার_রেকগ। পিপি উদাহরণ ব্যবহার করছি। এই উদাহরণে ছয় শ্রেণিবদ্ধের প্রয়োগ রয়েছে - এলোমেলো গাছ, বুস্টিং, এমএলপি, কেএনএন, নিষ্পাপ বয়েস এবং এসভিএম। 20000 দৃষ্টান্ত এবং 16 টি বৈশিষ্ট্য সহ ইউসিআই লেটার স্বীকৃতি ডেটাসেট ব্যবহার করা হয়েছে, যা আমি প্রশিক্ষণ এবং পরীক্ষার জন্য অর্ধেকে বিভক্ত হয়েছি। এসভিএমের সাথে আমার অভিজ্ঞতা আছে তাই আমি দ্রুত এটির স্বীকৃতি ত্রুটিটি 3.3% এ সেট করলাম। কিছু পরীক্ষার পরে যা পেলাম তা হ'ল:

ইউসিআই চিঠি স্বীকৃতি:

  • আরটিরিস - 5.3%
  • বুস্ট - 13%
  • এমএলপি - 7.9%
  • কেএনএন (কে = 3) - 6.5%
  • বেয়েস - 11.5%
  • এসভিএম - ৩.৩%

ব্যবহৃত পরামিতি:

  • আরটিরিস - সর্বাধিক_সংখ্যক_পক্ষে_তিনি_তিনি_ফ্রেস্ট = ২০০, সর্বোচ্চ_দ্বীপ = 20, মিনিট_ নমুনা_কাউন্ট = 1

  • বুস্ট করুন - বুস্ট_ টাইপ = রিয়েল, দুর্বল_কাউন্ট = 200, ওজন_ট্রিম_রেট = 0.95, সর্বাধিক_ডেপথ = 7

  • এমএলপি - পদ্ধতি = BACKPROP, প্যারাম = 0.001, ম্যাক্স_জিটার = 300 (ডিফল্ট মান - পরীক্ষায় খুব ধীর)

  • কেএনএন (কে = 3) - কে = 3

  • বেয়েস - কোনটিই নয়

  • এসভিএম - আরবিএফ কার্নেল, সি = 10, গামা = 0.01

এর পরে আমি একই পরামিতি ব্যবহার করেছি এবং প্রথমে গ্রেডিয়েন্ট বৈশিষ্ট্যগুলি (ভেক্টরের আকার 200 উপাদানগুলি) বের করে ডিজিট এবং এমএনআইএসটি ডেটাসেটগুলিতে পরীক্ষা করেছি:

সংখ্যা:

  • আরটিরিস - 5.1%
  • বুস্ট - 23.4%
  • এমএলপি - 4.3%
  • কেএনএন (কে = 3) - 7.3%
  • বেয়েস - 17.7%
  • এসভিএম - ৪.২%

MNIST:

  • আরটিরিস - ১.৪%
  • বুস্ট - স্মৃতি বাইরে
  • এমএলপি - 1.0%
  • কেএনএন (কে = 3) - 1.2%
  • বেয়েস - 34.33%
  • এসভিএম - 0.6%

আমি এসভিএম এবং কেএনএন বাদে সমস্ত শ্রেণিবদ্ধের কাছে নতুন, এই দু'জনের জন্যই আমি বলতে পারি ফলাফল ভাল বলে মনে হচ্ছে। অন্যের কী হবে? আমি এলোমেলো গাছ থেকে আরও প্রত্যাশা করেছি, এমএনআইএসটি কেএনএন আরও ভাল নির্ভুলতা দেয়, কোনও ধারণা কীভাবে এটি উচ্চতর হয়? বুস্ট এবং বেয়েস খুব কম নির্ভুলতা দেয়। শেষ পর্যন্ত আমি একাধিক শ্রেণিবদ্ধকারী সিস্টেম তৈরি করতে এই শ্রেণিবদ্ধ ব্যবহার করতে চাই। কোন পরামর্শ?

উত্তর:


9

মাত্রা হ্রাস

আরেকটি গুরুত্বপূর্ণ প্রক্রিয়াটি হ'ল প্রশিক্ষণ এবং টেস্টের ডেটাসেটের ত্রুটির হারগুলি তুলনা করা যাতে আপনি অত্যধিক মানানসই ("মাত্রিকতার অভিশাপ" কারণে)) উদাহরণস্বরূপ, যদি পরীক্ষার ডেটাসেটে আপনার ত্রুটির হার প্রশিক্ষণ ডেটা সেটটিতে ত্রুটির চেয়ে অনেক বড় হয় তবে এটি একটি সূচক হবে।
এই ক্ষেত্রে, আপনি পিসিএ বা এলডিএ এর মতো মাত্রিকতা হ্রাস কৌশলগুলি চেষ্টা করতে পারেন।

আপনি যদি আগ্রহী হন তবে আমি এখানে পিসিএ, এলডিএ এবং অন্যান্য কয়েকটি কৌশল সম্পর্কে লিখেছি: http://sebastianraschka.com/index.html#machine_learning এবং আমার গিটহাব রেপোতে এখানে: https://github.com/rasbt/pattern_classization

ক্রস বৈধতা

আরও শ্রেণীবদ্ধের সাথে আপনার শ্রেণিবদ্ধদের কার্যকারিতা মূল্যায়নের জন্য আপনি ক্রস-বৈধকরণের কৌশলগুলি একবার দেখে নিতে পারেন


হ্যাঁ, প্রকৃতপক্ষে প্রশিক্ষণের ডেটা সেটটিতে ত্রুটির হারগুলি প্রায় 0 টি প্রায় বেশি over আপনি যত তাড়াতাড়ি সম্ভব কৌশলগুলি পর্যবেক্ষণ করব এবং মন্তব্য করব, আপনাকে ধন্যবাদ।
মিকা

প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট বিটিডব্লির আপেক্ষিক অনুপাতগুলি কী কী? 70:30, 60:40 বা 50:50?

প্রথম ডেটাসেট - ইউসিআই বর্ণের স্বীকৃতি 50:50 (10000: 10000) তে সেট করা হয়েছে, অঙ্কগুলি প্রায় 51:49 (1893: 1796) এবং এমএনআইএসটি প্রায় 86:14 (60000: 10000) হয়।
মিকা

আমি পিসিএ নিয়ে পরীক্ষা নিরীক্ষা করেছি, তবুও এলোমেলো ফরেস্টের সাথে ভাল ফলাফল পাইনি, তবে বুস্ট এবং বেয়েস এখন অন্যান্য শ্রেণিবদ্ধদের মতো ফলাফল দেয়। আমি এখানে এলোমেলো ফরেস্ট সম্পর্কে একটি আলোচনা পেয়েছি: stats.stackexchange.com/questions/66543/… এটা সম্ভব যে আমি আসলেই বেশি পারদর্শী নই তবে সেখানে উল্লিখিত অফ-ব্যাগ (ওওবি) পূর্বাভাস ত্রুটিটি খুঁজে পাইনি। নির্ভুলতার উন্নতি হবে কিনা তা দেখার জন্য এখন প্রচুর সংখ্যক গাছ নিয়ে পরীক্ষা চালাচ্ছেন।
মিকা

ঠিক আছে, আপনি কিছুটা অগ্রগতি করছেন বলে মনে হচ্ছে :) একটি তুচ্ছ প্রশ্ন, তবে আপনি কী আপনার বৈশিষ্ট্যগুলি (জেড-স্কোর) প্রমিত করেছেন যাতে এগুলি স্ট্যান্ডার্ড বিচ্যুতির সাথে কেন্দ্রিক হয় = 1?

5

আমি এলোমেলো গাছ থেকে আরও প্রত্যাশা করেছি :

  • এলোমেলো বন সহ, সাধারণত এন বৈশিষ্ট্যগুলির জন্য, প্রতিটি সিদ্ধান্ত গাছের নির্মাণের জন্য স্কয়ার্ট (এন) বৈশিষ্ট্য ব্যবহৃত হয়। যেহেতু আপনার ক্ষেত্রে এন = 20, আপনি ম্যাক্স_ডেপথ (প্রতিটি সিদ্ধান্ত গাছ নির্মানের উপ-বৈশিষ্ট্যগুলির সংখ্যা) 5 এ সেট করার চেষ্টা করতে পারেন ।

  • সিদ্ধান্ত গাছের পরিবর্তে, লিনিয়ার মডেলগুলি এলোমেলো বনাঞ্চলে, বিশেষত বহু বহুবর্ষীয় লজিস্টিক রিগ্রেশন এবং নিষ্পাপ বয়েসে বেস অনুমানকারী হিসাবে প্রস্তাব এবং মূল্যায়ন করা হয়। এটি আপনার নির্ভুলতার উন্নতি করতে পারে।

এমএনআইএসটি-তে কেএনএন আরও ভাল নির্ভুলতা দেয়, কোনও ধারণা কীভাবে এটি উচ্চতর হয়?

  • কে এর উচ্চতর মানের (5 বা 7 বলুন) দিয়ে চেষ্টা করুন। কে এর একটি উচ্চতর মান আপনাকে একটি বিন্দুর শ্রেণি লেবেল সম্পর্কে আরও সহায়ক প্রমাণ দেয়।
  • কে-নিকটতম প্রতিবেশী চালানোর আগে আপনি পিসিএ বা ফিশারের লিনিয়ার বৈষম্য বিশ্লেষণ চালাতে পারেন। এটির মাধ্যমে আপনি পয়েন্টগুলির মধ্যে দূরত্ব গণনার সময় পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি থেকে মুক্তি পেতে পারেন এবং তাই আপনার কে প্রতিবেশীরা আরও দৃ rob় হবে।
  • কে প্রতিবেশীদের মধ্যে দূরত্বের বৈচিত্রের ভিত্তিতে বিভিন্ন পয়েন্টের জন্য বিভিন্ন কে মান ব্যবহার করে দেখুন।

আমি বিশ্বাস করি যে আপনি ওপেনসিভি নে্যাকটিভ_ভার্স প্যারামিটারের (ম্যাক্স_ডেপথ নয়) উল্লেখ করছেন, যা আমি ডিফল্ট স্কয়ার্ট (এন) মানকে সেট করেছি, এটি প্রথম ডাটাবেসের জন্য nactive_vars = sqrt (16) এবং অন্য দু'জনের জন্য sqrt (200)। সর্বোচ্চ_পথটি নির্ধারণ করে যে গাছগুলি পূর্ণ গভীরতায় বৃদ্ধি পাবে (25 এটির সর্বাধিক মান) এবং আন্ডারফিটিং এবং অতিরিক্ত ফিটের মধ্যে ভারসাম্য, এ সম্পর্কে আরও এখানে: stats.stackexchange.com/questions/66209/… মিনি_সাম্পল_কাউন্ট সম্পর্কে নিশ্চিত না তবে আমি বিভিন্ন মান চেষ্টা করেছি এবং সেট করেছি থেকে 1 সেরা কাজ করেছেন।
মিকা

ওপেনসিভি ডকুমেন্টেশন প্যারামিটারগুলির সংক্ষিপ্ত ব্যাখ্যা দেয়: ডকস.ওপেনকভি.আর.ডিউস / মডুলস / এমএল / ডক /… আপাতত আমি এলোমেলো গাছগুলি যুক্তিসঙ্গতভাবে ভালভাবে তৈরি করতে এবং জিনিসগুলি সহজ রাখতে চাই কারণ আমি একাধিক শ্রেণিবদ্ধ সিস্টেমের সাথে কাজ করতে ফোকাস করতে চাই।
মিকা

কেএনএন সম্পর্কে - এগুলি আসলেই বেশ ভাল পরামর্শ, তবে আমি যা বলতে চাইছিলাম তা হল কেএনএন এলোমেলো গাছের শ্রেণিবদ্ধের চেয়ে ভাল পারফর্ম করেছে এবং আমি মনে করি এলোমেলো গাছের সাথে উন্নতির জন্য অনেকগুলি জায়গা আছে।
মিকা

হ্যাঁ, আমি নিশ্চিত না কেন সরল কে-এনএন পদ্ধতির চেয়ে এলোমেলো বন ভাল (বা আরও ভাল) কাজ করছে না ... এটি কেবলমাত্র কার্নেল ভিত্তিক পদ্ধতির যেখানে আপনি সরাসরি পি (y |) অনুমান করার চেষ্টা করছেন ডি) (আউটপুট প্রদত্ত ডেটা) যেমন পি-থেটা | ডি) (প্রচ্ছন্ন মডেল প্রদত্ত ডেটা) যেমন প্যারামেট্রিক মডেলগুলিতে অনুমান করেই কে-এনএন-তে থাকে।
দেবাসিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.