শ্রেণিবদ্ধকরণের জন্য প্রশিক্ষণ সেট থেকে সদৃশ সরিয়ে ফেলুন


9

আমাদের বলি যে একটি শ্রেণিবিন্যাস সমস্যার জন্য আমার কাছে একগুচ্ছ সারি রয়েছে:

এক্স1,এক্সএন,ওয়াই

কোথায় এক্স1,,এক্সএন বৈশিষ্ট্য / ভবিষ্যদ্বাণীকারী এবং ওয়াই সারিটির বৈশিষ্ট্য সংমিশ্রণটি শ্রেণীর সাথে সম্পর্কিত।

অনেক বৈশিষ্ট্য সমন্বয় এবং তাদের ক্লাসগুলি ডেটাসেটে পুনরাবৃত্তি হয়, যা আমি কোনও শ্রেণিবদ্ধের সাথে ফিট করার জন্য ব্যবহার করছি। আমি কেবল ভাবছি যে এটি নকলগুলি সরিয়ে নেওয়া গ্রহণযোগ্য কিনা (আমি মূলত group by X1 ... XN Yএসকিউএল এ একটি সম্পাদন করি )? ধন্যবাদ।

পুনশ্চ:

এটি কেবল বাইনারি উপস্থিতির জন্য যেখানে ডেটাসেট থাকে যেখানে ক্লাস প্রিয়াররা যথেষ্ট স্কিউড থাকে

উত্তর:


13

না, এটি গ্রহণযোগ্য নয়। পুনরাবৃত্তিগুলি প্রমাণের ওজন সরবরাহ করে।

আপনি যদি নিজের অনুলিপিগুলি সরিয়ে ফেলেন তবে একটি চার-পাতার ক্লোভার নিয়মিত, তিন-পাতার ক্লোভারের মতো তাত্পর্যপূর্ণ, যেহেতু প্রতিটি একবারে ঘটবে, অন্যদিকে বাস্তব জীবনে প্রতি 10,000 নিয়মিত ক্লোভারের জন্য একটি চার পাতার ক্লোভার রয়েছে।

এমনকি আপনার প্রিভিয়াররা "যথেষ্ট স্কিউড" হলেও, যেমনটি আপনি বলেছেন, প্রশিক্ষণের সেটটির উদ্দেশ্য হ'ল বাস্তব জীবনের অভিজ্ঞতা সংগ্রহ করা, যা আপনি ফ্রিকোয়েন্সি তথ্য হারাতে পারলে তা অর্জন করতে পারবেন না।


1

আমি আগের উত্তরের সাথে একমত তবে এখানে আমার রিজার্ভেশন রয়েছে। সিদ্ধান্ত গাছের মতো নির্দিষ্ট শ্রেণিবদ্ধদের জন্য প্রশিক্ষণের জন্য এবং পরীক্ষার জন্য নমুনাগুলি আলাদা করার সময় সদৃশগুলি সরিয়ে ফেলা বাঞ্ছনীয় । বলুন, আপনার ডেটাগুলির 20% কোনও নির্দিষ্ট শ্রেণির এবং14টিযাঁরা পরীক্ষায় অংশ নেওয়া হয়েছে, তারপরে সিদ্ধান্ত গাছের মতো অ্যালগরিদমগুলি নকল নমুনাগুলির সাহায্যে সেই শ্রেণীর প্রবেশপথ তৈরি করবে । এটি পরীক্ষার সেটটিতে বিভ্রান্তিমূলক ফলাফল সরবরাহ করতে পারে কারণ মূলত সঠিক আউটপুটটির খুব নির্দিষ্ট গেটওয়ে রয়েছে

আপনি যখন এই শ্রেণিবদ্ধটিকে সম্পূর্ণ নতুন ডেটাতে মোতায়েন করেন, উপরোক্ত 20% নমুনার অনুরূপ কোনও নমুনা না থাকলে এটি আশ্চর্যজনকভাবে খারাপ হতে পারে।

আর্গুমেন্ট এক তর্ক হতে পারে একটি ভ্রান্ত ডেটা সেটটি এই অবস্থা পয়েন্ট কিন্তু আমি মনে করি যে এই বাস্তব জীবনে অ্যাপ্লিকেশনের জন্য সত্য।

নিউরাল নেটওয়ার্ক, বায়সিয়ান মডেল ইত্যাদির জন্য সদৃশ সরিয়ে নেওয়া গ্রহণযোগ্য নয়।


আর একটি সম্ভাব্য সমাধান হ'ল ডুপ্লিকেটগুলি সংঘটিত হওয়ার ঘনত্বের উপর নির্ভর করে ওজন করা।
রক্ষিত কোঠারি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.