নেস্টেড ক্রস-বৈধতা ব্যবহার


14

মডেল নির্বাচনের সাইকিট লার্নের পৃষ্ঠাতে নেস্টেড ক্রস-বৈধকরণের ব্যবহারের কথা উল্লেখ করা হয়েছে:

>>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas),
  ...                    n_jobs=-1)  
>>> cross_validation.cross_val_score(clf, X_digits, y_digits)

সমান্তরালভাবে দুটি ক্রস-বৈধকরণ লুপগুলি সঞ্চালিত হয়: একটি গ্রামা সেট সিডির গ্রিড সার্চসিভি অনুমানকারী দ্বারা এবং অন্যটি অনুমানের পূর্বাভাস কর্মক্ষমতা পরিমাপ করতে ক্রস_ওয়াল_স্কোর দ্বারা ore ফলাফল প্রাপ্ত স্কোরগুলি নতুন ডেটাতে পূর্বাভাস স্কোরের পক্ষপাতহীন অনুমান।

আমি যা বুঝি সে থেকে clf.fitসর্বোত্তম গামা নির্ধারণের জন্য স্থানীয়ভাবে ক্রস-বৈধতা ব্যবহার করা হবে। সেক্ষেত্রে উপরে বর্ণিতভাবে আমাদের কেন নেস্টেড সিভি ব্যবহার করা দরকার? নোটটিতে উল্লেখ করা হয়েছে যে নেভিস্টেড সিভি পূর্বাভাস স্কোরের "নিরপেক্ষ অনুমান" উত্পাদন করে। তাও কি তাই না clf.fit?

এছাড়াও, আমি cross_validation.cross_val_score(clf, X_digits, y_digits)পদ্ধতি থেকে সিএলএফ সেরা অনুমান পেতে অক্ষম ছিল । আপনি কিভাবে দয়া করে পরামর্শ দিতে পারেন?

উত্তর:


18

সি

জিসি কাওলি এবং এনএলসি টালবট, মডেল নির্বাচনের ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়নে পরবর্তী নির্বাচনের পক্ষপাত, মেশিন লার্নিং রিসার্চ জার্নাল, ২০১০। গবেষণা, খন্ড 11, পৃষ্ঠা 2079-2107, জুলাই 2010. ( http://jmlr.org/papers/volume11/cawley10a/cawley10a.pdf )

অর্থবোধক উদাহরণ এবং পরীক্ষামূলক মূল্যায়ন সঙ্গে পক্ষপাত কারণ কাগজ খুঁজে পাওয়া যেতে পারে, কিন্তু মূলত বিন্দু যে যদি কর্মক্ষমতা মূল্যায়ন নির্ণায়ক ব্যবহার করা হয় হয় কোন মডেল সম্পর্কে পছন্দ করতে পথে, তাহলে এইসব বিকল্পগুলির উপর ভিত্তি করে (ঝ) জেনারালাইজেশন পারফরম্যান্সে আসল উন্নতি এবং (ii) যে নির্দিষ্ট তথ্যের উপর পারফরম্যান্স মূল্যায়নের মানদণ্ডটি মূল্যায়ন করা হয় তার নির্দিষ্ট নমুনার পরিসংখ্যান বিশেষত্ব। অন্য কথায়, পক্ষপাতটি উত্থাপিত হয় কারণ হাইপার-প্যারামিটারগুলি সুর করার সময় ক্রস-বৈধতা ত্রুটিটি অতিরিক্ত-ফিট করা সম্ভব (সমস্ত খুব সহজ)।


5

উইথ আ অনুষ্ঠিত আউট টেস্ট সেট clf.fitউত্পাদন করে এক নিরপেক্ষ অনুমান যখন সঙ্গে নেস্টেড ক্রস বৈধতা cross_val_scoreউৎপন্ন বিভিন্ন পক্ষপাতিত্বহীন অনুমান। নেস্টেড ক্রস-বৈধকরণের সুবিধা হ'ল অ্যালগরিদম এখনও দেখেনি এমন ডেটা ব্যবহার করে সত্য পারফরম্যান্সের আরও ভাল মূল্যায়ন। আরও ভাল মূল্যায়ন কারণ আপনি পান, যেমন, কেবল একটির পরিবর্তে নেস্টেড সিভি সহ তিনটি পরীক্ষার স্কোর।

সেরা অনুমানের বিষয়ে আপনার দ্বিতীয় প্রশ্নের উত্তরটি হ'ল বর্তমানে (v0.14) নেস্টেড সিভি ব্যবহার করে লাগানো মডেলগুলির পরামিতিগুলি পাওয়া সম্ভব নয় cross_val_score। আমার উত্তরটি এখানে একটি উদাহরণ সহ দেখুন ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.