একটি ভাল সংস্থান যা বিভিন্ন শ্রেণিবদ্ধের উপকারিতা এবং কনসের তুলনা অন্তর্ভুক্ত?


15

বাক্সের বাইরে 2-শ্রেণির শ্রেণিবদ্ধের কী? হ্যাঁ, আমি অনুমান করি এটি মিলিয়ন ডলারের প্রশ্ন, এবং হ্যাঁ, আমি কোনও নিখরচায় মধ্যাহ্নভিত্তিক উপপাদ্য সম্পর্কে সচেতন এবং আমি পূর্ববর্তী প্রশ্নগুলিও পড়েছি:

তবুও, আমি এই বিষয়ে আরও পড়তে আগ্রহী।

বিভিন্ন শ্রেণিবদ্ধের বৈশিষ্ট্য, সুবিধা এবং বৈশিষ্ট্যগুলির একটি সাধারণ তুলনা অন্তর্ভুক্ত করে এমন একটি উত্তম উত্স কী?


+ দয়া করে আমাকে ক্ষমা করুন যে আমি কোনও স্থানীয় ইংরেজী স্পিকার নই :)
ডভ

উত্তর:


9

ইএসএল , যেমন ইতিমধ্যে পিটার Flom উল্লেখ, (যে আমার লিংক লেখকের হোমপেজে যেখানে বই বিনামূল্যে জন্য একটি পিডিএফ ফাইল হিসাবে প্রাপ্ত করা যাবে হয় নোট) একটি চমৎকার প্রস্তাব। বইটিতে সন্ধান করার জন্য আমাকে আরও কয়েকটি নির্দিষ্ট জিনিস যুক্ত করতে দিন:

  • সারণী 10.1 (পৃষ্ঠা 351) লেখককে নিউরাল নেট, এসভিএম, গাছ, MARS, এবং কে-এনএন কার্নেলের নির্দিষ্ট বৈশিষ্ট্যগুলির মূল্যায়ন দেয়, যা কোনওভাবে সেই পদ্ধতিগুলির মধ্যে প্রদর্শিত হয় যা লেখকরা "অফ-দ্য- এর তালিকায় অন্তর্ভুক্ত করতে চান methods তাক "পদ্ধতি।
  • দশম অধ্যায়ে ওপি দ্বারা উদ্ধৃত জরিপে পদ্ধতির তালিকায় আমি অনুপস্থিত খুঁজে পেয়েছি, যা উত্সাহদান করে। গ্রেডিয়েন্ট বুস্টিং বেশ কয়েকটি উদাহরণের মধ্যে আরও ভাল পারফরম্যান্স পদ্ধতি বলে মনে হচ্ছে।
  • অধ্যায় 9 সাধারণীকরণযোগ্য মডেলগুলি (জিএএম) ব্যবহার করে, যা লজিস্টিক রিগ্রেশন মডেলকে ( পোলে শীর্ষে র‌্যাঙ্কড) যোগ করে ভবিষ্যদ্বাণীকারীদের অ-রৈখিক অ্যাডেটিভ প্রভাবগুলির নমনীয়তা। Gams আছে যদি এটা আর প্যাকেজের মধ্যে এক মত চমৎকার বাস্তবায়নের জন্য ছিল না নির্বাচন করা যেতে সব মসৃণকরণ পরামিতি সঙ্গে পণ্য সরবরাহ সংশ্লেষণ হিসাবে ব্যবহার করার জন্য প্রায় হিসাবে সহজ হবে না mgcv

আর এর জন্য মেশিন লার্নিং টাস্ক ভিউ বইটিতে যুক্ত করুন , যা অনেকগুলি মেশিন লার্নিং প্যাকেজগুলি আসলে কী করতে পারে তার কিছুটা ধারণা দেয় যদিও সত্যিকারের তুলনা নেই। পাইথন ব্যবহারকারীদের জন্য আমি কল্পনা করেছি যে সাইকিট.লার্টন দেখতে ভাল জায়গা। "বাক্সের বাইরে" বা "অফ-দ্য শেল্ফ" পদ্ধতিটি কতটুকু তা নির্ধারিত হয়, ব্যবহারকারীর কাছে বিস্তারিত টিউনিং রেখে বনাম ডেটা পরিস্থিতির সাথে স্বয়ংক্রিয়ভাবে অভিযোজনকে কতটা কার্যকর করে তা বাস্তবায়িত হয়। আমার মনে, আর এর জন্য এমজিসিভি একটি উত্তম উদাহরণ যা যুক্তিসঙ্গতভাবে ভাল জেনারেলাইজড অ্যাডিটিভ মডেলটির ফিটিংটিকে সহজতর এবং মূলত ব্যবহারকারীর "হ্যান্ড-সুর" কোনও প্রয়োজন ছাড়াই তৈরি করে তোলে।


8

অন্যদের দ্বারা তালিকাভুক্ত সংস্থানগুলি অবশ্যই কার্যকরভাবে ব্যবহারযোগ্য তবে আমি এইগুলিকে চিমে রেখে সংযোজন করব: "সেরা" শ্রেণিবদ্ধকারী সম্ভবত প্রসঙ্গ এবং ডেটা সুনির্দিষ্ট হতে পারে। বিভিন্ন বাইনারি শ্রেণিবদ্ধকারীদের মূল্যায়নের সাম্প্রতিক প্রবণতায় আমি আমার কাছে অ্যাক্সেস করা অন্যান্য পদ্ধতির চেয়ে ধারাবাহিকভাবে আরও ভালভাবে কাজ করার জন্য একটি বুস্টেড রিগ্রেশন ট্রি পেয়েছি। আমার জন্য মূল বিষয়টি ছিল কীভাবে কমলা ডেটা মাইনিং সরঞ্জামগুলি ব্যবহার করতে হয় তা শিখছি । এই পদ্ধতিগুলির সাথে অন্বেষণ শুরু করার জন্য তাদের কাছে কিছু দুর্দান্ত ডকুমেন্টেশন রয়েছেআপনার ডেটা । উদাহরণস্বরূপ, কে-ফোল্ড ক্রস বৈধতা ব্যবহার করে নির্ভুলতার একাধিক ব্যবস্থা জুড়ে একাধিক শ্রেণিবদ্ধের মানের মূল্যায়ন করতে আমি এখানে একটি ছোট পাইথন স্ক্রিপ্ট লিখেছি।

import orange, orngTest, orngStat, orngTree , orngEnsemble, orngSVM, orngLR
import numpy as np

data = orange.ExampleTable("performance_orange_2.tab")
bayes = orange.BayesLearner(name="Naive Bayes")
svm = orngSVM.SVMLearner(name="SVM")
tree = orngTree.TreeLearner(mForPruning=2, name="Regression Tree")
bs = orngEnsemble.BoostedLearner(tree, name="Boosted Tree")
bg = orngEnsemble.BaggedLearner(tree, name="Bagged Tree")
forest = orngEnsemble.RandomForestLearner(trees=100, name="Random Forest")
learners = [bayes, svm, tree, bs, bg, forest]
results = orngTest.crossValidation(learners, data, folds=10)
cm = orngStat.computeConfusionMatrices(results,
                             classIndex=data.domain.classVar.values.index('1'))

stat = (('ClsAcc', 'CA(results)'),
        ('Sens', 'sens(cm)'),
        ('Spec', 'spec(cm)'),
        ('AUC', 'AUC(results)'),
        ('Info', 'IS(results)'),
        ('Brier', 'BrierScore(results)'))
scores = [eval("orngStat." + s[1]) for s in stat]
print "Learner        " + "".join(["%-9s" % s[0] for s in stat])
print "-----------------------------------------------------------------"
for (i, L) in enumerate(learners):
    print "%-15s " % L.name + "".join(["%5.3f   " % s[i] for s in scores])

print "\n\n"
measure = orngEnsemble.MeasureAttribute_randomForests(trees=100)
print "Random Forest Variable Importance"
print "---------------------------------"
imps = measure.importances(data)
for i,imp in enumerate(imps):
    print "%-20s %6.2f" % (data.domain.attributes[i].name, imp)

print '\n\n'
print 'Predictions on new data...'
bs_classifier = bs(data)
new_data = orange.ExampleTable('performance_orange_new.tab')
for obs in new_data:
    print bs_classifier(obs, orange.GetBoth)

আমি যখন আমার ডেটাতে এই কোডটি চালিত করি তখন আমি আউটপুট পছন্দ করি

In [1]: %run binary_predict.py
Learner        ClsAcc   Sens     Spec     AUC      Info     Brier
-----------------------------------------------------------------
Naive Bayes     0.556   0.444   0.643   0.756   0.516   0.613
SVM             0.611   0.667   0.714   0.851   0.264   0.582
Regression Tree 0.736   0.778   0.786   0.836   0.945   0.527
Boosted Tree    0.778   0.778   0.857   0.911   1.074   0.444
Bagged Tree     0.653   0.667   0.786   0.816   0.564   0.547
Random Forest   0.736   0.667   0.929   0.940   0.455   0.512


Random Forest Variable Importance
---------------------------------
Mileage            2.34
Trade_Area_QI      2.82
Site_Score         8.76

পারফরম্যান্সকে আত্মবিশ্বাসিত করতে এবং তুলনা করার জন্য কমলা রঙের জিনিসগুলি নিয়ে আপনি আরও অনেক কিছু করতে পারেন। আমি এই প্যাকেজটি একটি সামঞ্জস্যপূর্ণ এপিআই এবং সমস্যা বিমূর্ততার সাথে আমার ডেটাতে পদ্ধতি প্রয়োগ করতে খুব অল্প পরিমাণে কোড লেখার ক্ষেত্রে অত্যন্ত সহায়ক বলে মনে করেছি (যেমন, আমার নিজের ছয়টি আলাদা লেখকের ছয়টি আলাদা প্যাকেজ ব্যবহার করার দরকার নেই) এপিআই ডিজাইন এবং ডকুমেন্টেশন ইত্যাদির কাছে যান)।


4

statweb.stanford.edu/~tibs/ElemStatLearn সেখানে আপনি বইটির একটি অনলাইন সংস্করণ খুঁজে পেতে পারেন।
ম্যানুয়েল

4

এটি সম্পর্কিত অন্যান্য সংস্থানগুলি আমি পেয়েছি (বিনামূল্যে পিডিএফ উপলভ্য):


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.