পাঠ্য শ্রেণিবিন্যাসের জন্য কেন রিজ রিগ্রেশন শ্রেণিবদ্ধকারী বেশ ভাল কাজ করে?


18

পাঠ্য শ্রেণীবদ্ধকরণের জন্য একটি পরীক্ষার সময়, আমি রিজ শ্রেণিবদ্ধকারী ফলাফলগুলি পেয়েছি যা এই শ্রেণিবদ্ধদের মধ্যে নিয়মিত পরীক্ষাগুলি শীর্ষ করে থাকে যা সাধারণত দেখা হয় এবং এসভিএম, এনবি, কেএনএন ইত্যাদির মতো পাঠ্য খনির কাজগুলির জন্য প্রয়োগ করা হয় যদিও আমি বিশদ বিবরণ দিইনি প্যারামিটারগুলি সম্পর্কে কিছু সাধারণ টুইট বাদে এই নির্দিষ্ট পাঠ্য শ্রেণিবদ্ধকরণ কার্যে প্রতিটি শ্রেণিবদ্ধকে অনুকূলকরণ করার বিষয়ে।

এ জাতীয় ফলাফলটি ডিকরান মার্সুপিয়ালেরও উল্লেখ করা হয়েছিল ।

পরিসংখ্যানের পটভূমি থেকে আগত না, অনলাইনে কিছু উপকরণ পড়ার পরেও আমি এর মূল কারণগুলি খুঁজে বের করতে পারি না। কেউ কি এই জাতীয় ফলাফল সম্পর্কে কিছু অন্তর্দৃষ্টি দিতে পারে?

উত্তর:


16

পাঠ্য শ্রেণিবিন্যাসের সমস্যাগুলি বেশ উচ্চ মাত্রিক (অনেকগুলি বৈশিষ্ট্য) হতে থাকে এবং উচ্চ মাত্রিক সমস্যাগুলি সম্ভবত লাইনীয়ভাবে পৃথক হওয়ার সম্ভাবনা থাকে (যেমন আপনি পয়েন্টগুলি নির্বিশেষে লিনিয়ার শ্রেণিবদ্ধের সাথে কোনও ডি-ডাইমেনশনাল স্পেসে কোনও ডি + 1 পয়েন্ট আলাদা করতে পারবেন) লেবেলযুক্ত)। সুতরাং লিনিয়ার শ্রেণিবদ্ধীরা, রিজ রিগ্রেশন বা লিনিয়ার কার্নেল সহ এসভিএম, ভাল করার সম্ভাবনা রয়েছে। উভয় ক্ষেত্রেই, এসভিএমের জন্য রিজ প্যারামিটার বা সি (যেমন টিডিসি +1 উল্লেখ করেছেন) শ্রেণিবদ্ধের জটিলতা নিয়ন্ত্রণ করে এবং প্রতিটি শ্রেণির নিদর্শনগুলিকে বড় মার্জিন দ্বারা পৃথক করে ওভার-ফিটিং এড়াতে সহায়তা করে (যেমন সিদ্ধান্তের পৃষ্ঠটি নীচে চলে যায়) দুটি পয়েন্টের সংগ্রহের মধ্যে ব্যবধানের মাঝামাঝি)। তবে ভাল পারফরম্যান্স পেতে রিজ / নিয়মিতকরণের প্যারামিটারগুলি সঠিকভাবে সুর করা দরকার (আমি সস্তা হিসাবে লিভ-ওয়ান-আউট ক্রস-বৈধতা ব্যবহার করি)।

তবে, যে কারণে রিজ রিগ্রেশনটি ভালভাবে কাজ করে তা হ'ল অ-রৈখিক পদ্ধতিগুলি খুব শক্তিশালী এবং ওভার-ফিটিং এড়ানো কঠিন। একটি লিনিয়ার শ্রেণিবদ্ধ থাকতে পারে যা সর্বোত্তম রৈখিক মডেলের চেয়ে আরও সাধারণীকরণের কর্মক্ষমতা দেয় তবে আমাদের যে প্রশিক্ষণ ডেটা রয়েছে তার সীমাবদ্ধ নমুনা ব্যবহার করে সেই পরামিতিগুলি অনুমান করা খুব কঠিন। অনুশীলনে, মডেলটি যত সহজ, পরামিতিগুলি অনুমান করার ক্ষেত্রে আমাদের যত কম সমস্যা রয়েছে তাই ওভার-ফিটের প্রবণতা কম থাকে, সুতরাং আমরা অনুশীলনে আরও ভাল ফলাফল পাই।

আর একটি সমস্যা বৈশিষ্ট্য নির্বাচন, রিজ রিগ্রেশন ওজন ছোট রাখার জন্য নিয়মিত করে ওভার-ফিটিং এড়িয়ে চলে এবং মডেল নির্বাচনটি সরাসরি এগিয়ে থাকে কারণ আপনাকে কেবলমাত্র একটি একক রিগ্রেশন প্যারামিটারের মানটি বেছে নিতে হবে। যদি আপনি বৈশিষ্ট্যগুলির সর্বোত্তম সেটটি বাছাই করে অতিরিক্ত ফিটনেস এড়াতে চেষ্টা করেন, তবে প্রতিটি বৈশিষ্ট্যের জন্য একটি ডিগ্রি স্বাধীনতা (সাজানো) থাকায় মডেল নির্বাচন করা কঠিন হয়ে পড়ে, যা বৈশিষ্ট্য নির্বাচনের মানদণ্ডকে ওভার-ফিট করা সম্ভব করে এবং আপনি ডেটাগুলির এই নির্দিষ্ট নমুনার জন্য অনুকূল যে বৈশিষ্ট্যগুলির একটি সেট দিয়ে শেষ করুন, তবে যা দুর্বল সাধারণীকরণের কর্মক্ষমতা দেয়। তাই বৈশিষ্ট্য নির্বাচন সম্পাদন না করা এবং নিয়মিতকরণ ব্যবহার করা প্রায়শই আরও ভাল ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা দিতে পারে।

আমি প্রায়শই ব্যাগিং (প্রশিক্ষণ সেট থেকে বুটস্ট্র্যাপযুক্ত নমুনাগুলির উপর প্রশিক্ষিত মডেলগুলির একটি কমিটি গঠন) ব্যবহার করি যা প্রায়শই পারফরম্যান্সে উন্নতি করে এবং সমস্ত মডেল লিনিয়ার হিসাবে আপনি তাদের একত্রিত করে একটি একক রৈখিক মডেল গঠন করতে পারেন , সুতরাং অপারেশন কোনও পারফরম্যান্স হিট নেই।


আপনি কোন মানে? -1 পয়েন্ট এ মাত্রিক স্থান? উদাহরণস্বরূপ, যদি আপনার 2 ডি-ডি স্পেসে 3 পয়েন্ট থাকে, দুটি ক্লাস 1 এবং দুটি ক্লাস 2 এর সাথে দুটিই একটি লাইনে পড়ে থাকে, ক্লাস 2 এর পয়েন্টটি অন্য দুটির মধ্যে থাকে, তবে এগুলি দিয়ে আলাদা করা যাবে না একটি লাইন (1-ডি হাইপারপ্লেন)
tdc

সাধারণত এটি ধরে নেওয়া হয় যে পয়েন্টগুলি "সাধারণ অবস্থানে" রয়েছে, যাতে (উদাহরণস্বরূপ) তারা সরলরেখায় মিথ্যা থাকে না, এই ক্ষেত্রে 2-ডি স্পেসে আপনি যে কোনও 3 পয়েন্ট আলাদা করতে পারবেন। যদি সমস্ত পয়েন্টগুলি একটি সরলরেখায় থাকে তবে সত্যিকার অর্থে তারা 2-ডি স্পেসে এমবেড থাকা 1-ডি উপসর্গটিতে বাস করে।
ডিকরান মার্সুপিয়াল

উপর উইকিপিডিয়া সেখানে বিবৃতি "পদ্ধতি গড় বিভিন্ন ভবিষ্যতবক্তা যেহেতু, এটা মডেলের রৈখিক আরও উন্নত করার জন্য দরকারী নয়" যদিও আমি নই নিশ্চিত কেন এই সত্য হতে হবে?
tdc

কেন এটি সত্য হওয়া উচিত তা আমি দেখছি না। আমি সন্দেহ করি যে ব্যাগযুক্ত লিনিয়ার মডেলটি একক লিনিয়ার মডেল দ্বারা ঠিক উপস্থাপন করা যেতে পারে, তবে ইস্যুটি একক মডেলের পরামিতিগুলির অনুমান, মডেলের রূপ নয়। আমি পেয়েছি ব্যাগিং সাধারণকরণের উন্নতি সাধন করে, তবে পর্যবেক্ষণের তুলনায় আপনার আরও অনেকগুলি বৈশিষ্ট্য না থাকলে লাভটি সাধারণত ছোট হয় (যাতে মডেলটির প্রাক্কলনটি অস্থির হয় এবং ডেটারে একটি ছোট পরিবর্তনই মডেলটিতে একটি বৃহত পরিবর্তন আনতে পারে)।
ডিকরান মার্সুপিয়াল

আপনার উইকিপিডিয়া পৃষ্ঠা আপডেট করা উচিত! আপনি এই বিষয়ে
জ্ঞানজনক

6

নাম অনুসারে রিজ রিগ্রেশন হ'ল শ্রেণিবিন্যাসের পরিবর্তে রিগ্রেশনের একটি পদ্ধতি। সম্ভবত আপনি এটি একটি শ্রেণিবদ্ধে পরিণত করার জন্য একটি প্রান্তিক ব্যবহার করছেন। যে কোনও ক্ষেত্রে, আপনি কেবল একটি হাইপারপ্লেন দ্বারা সংজ্ঞায়িত একটি লিনিয়ার শ্রেণিবদ্ধকারী শিখছেন। এটি কাজ করার কারণটি হ'ল হাতের কাজটি মূলত রৈখিকভাবে পৃথকযোগ্য - অর্থাত ক্লাসগুলি পৃথক করার জন্য একটি সাধারণ হাইপারপ্লেন প্রয়োজন। "রিজ" পরামিতি এটি এমন ক্ষেত্রে কাজ করতে দেয় যা সম্পূর্ণরূপে রৈখিক বিভাজ্য নয় বা সমস্যাগুলি যা র‌্যাঙ্কের ঘাটতি রয়েছে (এই ক্ষেত্রে অপ্টিমাইজেশনটি অধঃপতন হতে পারে)।

এই ক্ষেত্রে, অন্যান্য শ্রেণিবদ্ধকারীদেরও ঠিকঠাক প্রয়োগ করা উচিত নয় এমনটা ধরে নেওয়ার কোনও কারণ নেই। উদাহরণস্বরূপ, এসভিএম "সর্বোত্তম বিভাজন হাইপারপ্লেন" আবিষ্কার করে (অর্থাত হাইপারপ্লেন যা শ্রেণীর মধ্যে মার্জিন বা গ্যাপকে সর্বাধিক করে তোলে)। CSVM এর প্যারামিটার শৈলশিরা পরামিতি, যা কিছু misclassifications (outliers) জন্য করতে পারবেন করার জন্য একটি ধারণক্ষমতা নিয়ন্ত্রণ প্যারামিটার অনুরূপ। প্যারামিটার নির্বাচনের প্রক্রিয়াটি নিবিড়ভাবে সম্পন্ন হয়েছে বলে ধরে নিচ্ছি, আমি আশা করব যে দুটি পদ্ধতিতে এই জাতীয় ডেটাসেটে প্রায় একই ফলাফল পাওয়া যাবে।


2
আমার মনে আছে এটি পড়তে দেখা যায় যে এলএস-এসভিএম বাইনারি শ্রেণিবিন্যাস -1,1 লেবেলে রিজ রিগ্রেশন সমতুল্য, তাদের গঠন একই the
ফায়ারব্যাগ

ভাবেন আপনি ঠিক ঠিক থাকতে পারেন
tdc
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.