লিনিয়ার এসভিএম শ্রেণিবিন্যাসের জন্য কেন স্কেলিং গুরুত্বপূর্ণ?


15

লিনিয়ার এসভিএম শ্রেণিবিন্যাস সম্পাদন করার সময়, প্রশিক্ষণ ডেটা স্বাভাবিক করার জন্য এটি প্রায়শই সহায়ক example এই প্রক্রিয়া কেন নাটকীয়ভাবে শ্রেণিবিন্যাসের কার্য সম্পাদন করে?


1
এই প্রশ্নের ইতিমধ্যে উত্তর দেওয়া হয়েছে stackoverflow.com/questions/15436367/svm-scaling-input-values
jpmuc

ধন্যবাদ, জাম্পা! তবে, আমি এখনও পুরোপুরি পরিষ্কার নই যে কেন পরীক্ষার সেটটিকে তার পরিবর্তে প্রশিক্ষণের সেটটির গড় এবং স্ট্যান্ড দিয়ে স্কেল করা দরকার? কিছু ক্ষেত্রে, পরে দুটি বিভাগের নমুনা পরীক্ষার সেটে ভালভাবে ভারসাম্য বজায় থাকলে পরে ইউক্লি ভাল বা আরও ভাল সঞ্চালিত হয় বলে মনে হয়।
কিংহুয়া

1
কারণ আপনি যদি সামঞ্জস্যপূর্ণ হন না। আপনি বিভিন্ন ডেটা পরীক্ষা করছেন। কল্পনা করুন আপনি কোনও গাউসিয়ান এন (মিউ, সিগমা) থেকে নমুনাগুলি আঁকেন। আপনি এন (0,1) দিয়ে প্রশিক্ষণ দিয়েছিলেন (কেন্দ্রীকরণ এবং স্কেলিংয়ের পরে) তবে এন (মিউ, সিগমা) এর সাথে পরীক্ষা করেছেন
জেএমপিউচ

উত্তর:


12

আমি মনে করি এটি একটি উদাহরণের মাধ্যমে আরও পরিষ্কার করা যেতে পারে। ধরা যাক আপনার কাছে দুটি ইনপুট ভেক্টর রয়েছে: এক্স 1 এবং এক্স 2। এবং ধরা যাক এক্স 1 এর ব্যাপ্তি (0.1 থেকে 0.8) এবং এক্স 2 এর ব্যাপ্তি রয়েছে (3000 থেকে 50000)। এখন আপনার এসভিএম ক্লাসিফায়ারটি এক্স 1-এক্স 2 বিমানে থাকা একটি লিনিয়ার সীমানা হবে। আমার দাবিটি হ'ল লিনিয়ার সিদ্ধান্ত সীমানার opeাল X1 এবং X2 এর পরিসরের উপর নির্ভর করে না, পরিবর্তে পয়েন্ট বিতরণের উপর নির্ভর করে।

এবার বিন্দু (0.1, 4000) এবং (0.8, 4000) নিয়ে ভবিষ্যদ্বাণী করা যাক। ফাংশনের মানটিতে খুব কমই পার্থক্য থাকবে, সুতরাং এসভিএমকে কম নির্ভুল করে তুলবে কারণ এটি এক্স 1 দিকের পয়েন্টগুলির সাথে সংবেদনশীলতা কম রাখবে।


7

এসভিএম পৃথককারী বিমান এবং সমর্থন ভেক্টরগুলির মধ্যে দূরত্ব সর্বাধিক করার চেষ্টা করে। যদি কোনও বৈশিষ্ট্যের (যেমন এই জায়গার একটি মাত্রা) খুব বড় মান থাকে তবে দূরত্ব গণনার সময় এটি অন্যান্য বৈশিষ্ট্যগুলিকে প্রাধান্য দেয়। আপনি যদি সমস্ত বৈশিষ্ট্য পুনরুদ্ধার করেন (যেমন [0, 1]), তবে তাদের দূরত্বের মেট্রিকের উপরে একই প্রভাব রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.