ক্রস-বৈধকরণের পূর্বে সাধারণকরণ


17

বারবার কে-ফোল্ড ক্রস-বৈধকরণ সম্পাদনের পূর্বে ডেটা (শূন্যের গড় এবং unityক্যের মানক বিচ্যুতি থাকা) স্বাভাবিক করার ক্ষেত্রে কী ওভারফিটিংয়ের মতো কোনও নেতিবাচক বিজয় রয়েছে?

দ্রষ্টব্য: এটি এমন একটি পরিস্থিতির জন্য যেখানে # কেসগুলি> মোট # বৈশিষ্ট্য

আমি লগ ট্রান্সফর্ম ব্যবহার করে আমার কিছু ডেটা রুপান্তর করছি, তারপরে উপরের মত সমস্ত ডেটা স্বাভাবিক করে তুলছি। আমি তখন বৈশিষ্ট্য নির্বাচন সম্পাদন করছি। পরবর্তী আমি সাধারণ শ্রেণিবদ্ধের পারফরম্যান্সটি চেষ্টা করতে এবং অনুমান করার জন্য বারবার 10-গুণ ক্রস-বৈধকরণের জন্য নির্বাচিত বৈশিষ্ট্যগুলি এবং সাধারণকরণের ডেটা প্রয়োগ করি এবং উদ্বিগ্ন যে সমস্ত ডেটা স্বাভাবিক করার জন্য ব্যবহার করা উপযুক্ত না। সেই ভাঁজটির জন্য প্রশিক্ষণ ডেটা থেকে প্রাপ্ত তথ্যকে নরমালাইজ করে আমি কি প্রতিটি ভাঁজের জন্য পরীক্ষার ডেটা স্বাভাবিক করতে পারি?

কৃতজ্ঞভাবে কোনও মতামত গৃহীত হয়েছে! এই প্রশ্নটি যদি সুস্পষ্ট মনে হয় তবে ক্ষমা চাই।

সম্পাদনা: এটি পরীক্ষা করার সময় (নীচের পরামর্শের সাথে মিল রেখে) আমি দেখতে পেয়েছি যে সিভির পূর্বে স্বাভাবিককরণ সিভিতে স্বাভাবিকীকরণের তুলনায় পারফরম্যান্স-ভিত্তিতে খুব বেশি পার্থক্য করে না।

উত্তর:


14

আপনার মূল প্রশ্নের উত্তর দেওয়ার জন্য, এটি সিভির মধ্যে স্কেল করার জন্য অনুকূল এবং আরও বেশি পরিমাণে অনুমোদন করা হবে। তবে সম্ভবত এটি খুব বেশি গুরুত্ব পাবে না এবং আপনার শ্রেণিবদ্ধকারী ডেটা পুনর্বিবেচনা করে যা কিছুটা (কমপক্ষে আর তে) উপস্থাপন করা মোটেই গুরুত্বপূর্ণ নাও হতে পারে।

যাইহোক, ক্রস যাচাইকরণের আগে বৈশিষ্ট্য নির্বাচন করা একটি বড় সংখ্যা নয় এবং অত্যধিক মানায় নেতৃত্ব দেবে, যেহেতু আপনি কীভাবে তারা পুরো ডেটা সেটটিতে পারফর্ম করেন তার ভিত্তিতে আপনি সেগুলি নির্বাচন করবেন। লগ-রূপান্তরটি বাইরে সম্পাদন করার জন্য ঠিক আছে, যেহেতু রূপান্তরটি প্রকৃত ডেটার উপর নির্ভর করে না (আরও তথ্যের ধরণের উপর নির্ভর করে) এবং এটি এমন কিছু নয় যা আপনার যদি 100% এর পরিবর্তে কেবল 90% ডেটা রাখেন এবং তথ্য অনুযায়ী টুইট করা হয় না।

আপনার মন্তব্যের জবাব দিতে, অবশ্যই এটি অতিরিক্ত বৈশিষ্ট্যযুক্ত কিনা তা আপনার বৈশিষ্ট্য নির্বাচনের পদ্ধতির উপর নির্ভর করবে। যদি আপনি এগুলিকে চান্সে বাছাই করেন (আপনি কেন এটি করবেন?) বা কোনও অগ্রাধিকার তাত্ত্বিক বিবেচনার কারণে (অন্যান্য সাহিত্যের) কিছু আসে যায় না। তবে এটি যদি আপনার ডেটা সেটের উপর নির্ভর করে তবে তা হবে। পরিসংখ্যানগত শিক্ষার উপাদানগুলির একটি ভাল ব্যাখ্যা রয়েছে। আপনি নিখরচায় এবং আইনত এখানে একটি .pdf ডাউনলোড করতে পারেন http://www-stat.stanford.edu/~tibs/ElemStatLearn/

আপনার সম্পর্কে বিষয়টি পঞ্চম মুদ্রণের 245 পৃষ্ঠায় on.10.2 বিভাগে রয়েছে। এটির শিরোনাম "ক্রস-বৈধকরণের সঠিক ও সঠিক উপায়"।


ধন্যবাদ - নিশ্চয় যদি প্রতিবেদনে কেবল ফলাফলগুলি প্রতিটি ভাঁজে নির্বাচিত মডেল (বৈশিষ্ট্য) ব্যবহার করে প্রাপ্ত আনুমানিক পারফরম্যান্সের জন্য হয় তবে এটি অত্যধিক ফিটনেস পেতে পারে না? সামগ্রিকভাবে আপনি কেবলমাত্র একটি প্রদত্ত বৈশিষ্ট্য সাবসেটের সাধারণ সম্পাদনা রিপোর্ট করছেন।
বিগ্রেন

আমি আপনার মন্তব্যটি সম্বোধন করতে আমার উত্তর প্রসারিত করেছি। আমি মনে করি লিঙ্কে ব্যাখ্যাটি আমি এখনই কী রান্না করতে পারি তার চেয়ে ভাল the
এরিক

ধন্যবাদ. এটি প্রস্তাব দেয় যে স্ট্যান্ডার্ড ফিল্টার ভিত্তিক বৈশিষ্ট্য নির্বাচন কখনও ব্যবহার করা উচিত নয় এবং পরিবর্তে সেই মোড়ক ভিত্তিক বৈশিষ্ট্য নির্বাচন বা সমতুল্য ব্যবহার করা উচিত। এটি কি এখনও # পরিস্থিতি> # বৈশিষ্ট্যগুলির ক্ষেত্রে সত্য? (আমার কাছে মোট 259 টি বৈশিষ্ট্য রয়েছে)। আমি কি এখানে ভুলের সম্ভাবনা কম মনে করব?
বিগ্রেইন

5

পরিসংখ্যানগত পদ্ধতির কর্মক্ষমতা অনুমানের জন্য একটি পরিসংখ্যানের মডেলের চেয়ে ক্রস-বৈধকরণকে সর্বোত্তম পদ্ধতি হিসাবে দেখা হয়। সুতরাং নিরপেক্ষ পারফরম্যান্সের অনুমানের জন্য, আপনাকে ক্রস-বৈধকরণের প্রতিটি ভাগে পৃথকভাবে সেই পদ্ধতির প্রতিটি উপাদান পুনরাবৃত্তি করতে হবে , যার মধ্যে সাধারণীকরণ অন্তর্ভুক্ত থাকবে। সুতরাং আমি বলব প্রতিটি ভাঁজকে স্বাভাবিক করুন।

কেবলমাত্র এটির প্রয়োজন হবে না যদি পরিসংখ্যানগত পদ্ধতি ডেটাটির স্কেলিং এবং গড় মূল্য সম্পর্কে সম্পূর্ণ সংবেদনশীল ছিল।


আমি মনে করি এটি একটি উত্তরের উত্তর, যদিও এটি কঠোর নয় তবে এটি পয়েন্টটি পেয়ে যায়। আমি মনে করি যে এর অর্থ হ'ল যদি আপনি প্রতিটি ভাঁজকে স্বাভাবিক করেন তবে এটি গ্যারান্টিযুক্ত যে স্বাভাবিককরণটি পারফরম্যান্সকে পক্ষপাতিত্ব করে না। এটি যেভাবে লেখা হয়েছিল তা দেখে মনে হয়েছিল পক্ষপাত এড়ানোর আর কোনও উপায় ছিল না, যদিও ডিকরান শেষ পংক্তিতে উল্লেখ করেছিলেন যে অন্যান্য উপায়ও রয়েছে। আপনি যদি সিভির অভ্যন্তরে সাধারণীকরণ করেন তবে এটি বাইরের বাইরে যাওয়ার বিপরীতে পক্ষপাত বাড়ায় না which অন্য উত্তরে যেমন উল্লেখ করা হয়েছে তেমনি পক্ষপাতটি খুব বেশি প্রভাব ফেলতে পারে না।
টম অ্যান্ডারসন

1

আমি মনে করি যে যদি স্বাভাবিককরণটিতে কেবলমাত্র দুটি পরামিতি জড়িত থাকে এবং আপনার কাছে একটি ভাল আকারের নমুনা থাকে যা কোনও সমস্যা হবে না। আমি রূপান্তর এবং পরিবর্তনশীল নির্বাচন প্রক্রিয়া সম্পর্কে আরও উদ্বিগ্ন হবে। 10 ভাঁজ ক্রস-বৈধতা আজ রাগ বলে মনে হচ্ছে। জাসা-এ ইফ্রন (1983) প্রথমে পরামর্শ অনুসারে শ্রেণিবদ্ধ ত্রুটি হার অনুমানের জন্য কি বুটস্ট্র্যাপ 632 বা 632+ ব্যবহার করে না এবং পরে ইফ্রন এবং তিবশিরানী একটি কাগজে paper৩২+ এর সাথে অনুসরণ করে?


0

আমি ব্যক্তিগতভাবে .632 পদ্ধতিটি পছন্দ করি। যা মূলত প্রতিস্থাপনের সাথে বাড়াচ্ছে। যদি আপনি এটি করেন এবং সদৃশগুলি সরিয়ে ফেলেন তবে আপনি 1000 এর ইনপুট সেট থেকে 632 এন্ট্রি পাবেন K ঝরঝরে of


0
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.