কেন আপনাকে কেএনএন-তে ডেটা স্কেল করতে হবে


15

কেউ দয়া করে আমাকে ব্যাখ্যা করতে পারেন যে কে নিকটস্থ প্রতিবেশীদের ব্যবহার করার সময় আপনার কেন ডেটা স্বাভাবিক করতে হবে।

আমি এটি দেখার চেষ্টা করেছি, তবে আমি এখনও এটি বুঝতে পারি না।

আমি নিম্নলিখিত লিঙ্কটি পেয়েছি:

https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715

তবে এই ব্যাখ্যায়, আমি বুঝতে পারি না যে বৈশিষ্ট্যগুলির মধ্যে একটিতে একটি বৃহত্তর পরিসীমা পূর্বাভাসকে কীভাবে প্রভাবিত করে।


আমি মনে করি সাধারণকরণকে বিষয়-বিবেচনার দিক থেকে ন্যায়সঙ্গত করতে হবে। মূলত, কোন বিষয়টি পয়েন্টগুলির মধ্যে দূরত্ব নির্ধারণ করে। আপনাকে দূরত্বের একটি সুবিধাজনক গাণিতিক সংজ্ঞাটি খুঁজে পেতে হবে যা দূরত্বের বিষয়-বিষয় সংজ্ঞা প্রতিফলিত করে। আমার সীমিত অভিজ্ঞতায় আমি কিছু বিষয়গুলিকে স্বাভাবিক করেছি তবে বিষয় সম্পর্কিত বিবেচনার ভিত্তিতে সমস্ত দিকনির্দেশই নয়।
রিচার্ড হার্ডি

1
শিক্ষণীয় উদাহরণের জন্য, দয়া করে দেখুন stats.stackexchange.com/questions/140711
হোবার

উত্তর:


27

কে-নিকটতম প্রতিবেশী অ্যালগরিদম নির্দিষ্ট পরীক্ষার পয়েন্টের জন্য নিকটতম নমুনার 'কে' শ্রেণীর সদস্যতার ভিত্তিতে সংখ্যাগরিষ্ঠ ভোটের উপর নির্ভর করে। নমুনাগুলির ঘনিষ্ঠতা সাধারণত ইউক্লিডিয়ান দূরত্বের উপর ভিত্তি করে।

একটি সাধারণ দুটি শ্রেণির শ্রেণিবদ্ধকরণ সমস্যাটি বিবেচনা করুন, যেখানে 10-নিকটবর্তী প্রতিবেশী (ভরা সবুজ) সহ 1 ম শ্রেণির নমুনা বেছে নেওয়া (কালো) করা হয়েছে। প্রথম চিত্রটিতে, ডেটা স্বাভাবিক করা হয় না, অন্যদিকে এটি হয়।

সাধারণকরণ ছাড়াই ডেটা নরমালাইজেশন সহ ডেটা

x1

সাধারণীকরণ এই সমস্যার সমাধান করে!


1
এই উত্তরটি ঠিক সঠিক, তবে আমি আশঙ্কা করছি যে চিত্রগুলি বিভ্রান্তির সাথে জড়িত থাকার কারণে বিভ্রান্তিকর হতে পারে। উভয়টি অঙ্কন করে পয়েন্টটি আরও ভালভাবে তৈরি করা যেতে পারে যাতে প্রতিটি দুটি অক্ষ একই স্কেলে থাকে।
হোবার

1
আমি উভয় চিত্রের জন্য একই স্কেলে সমস্ত ডেটা পয়েন্ট ফিট করতে অসুবিধা পেয়েছি। অতএব, আমি একটি নোটে উল্লেখ করেছি যে অক্ষের স্কেলগুলি আলাদা।
কেদার্পস

1
সেই অসুবিধাটি আসলে আপনার প্রতিক্রিয়ার মূল বিষয়! এটিকে কাটিয়ে ওঠার একটি উপায় হ'ল এ জাতীয় চূড়ান্ত আকারের আঁশ ব্যবহার করা নয়। স্কেলগুলিতে একটি 5: 1 পার্থক্যের পরিবর্তে 1000: 1 পার্থক্যটি এখনও আপনার পয়েন্টটি সুন্দরভাবে তৈরি করবে। আর একটি উপায় হ'ল বিশ্বস্তভাবে ছবি আঁকুন: শীর্ষস্থানীয় স্ক্যাটারপ্লটটি পয়েন্টগুলির একটি উল্লম্ব রেখা বলে মনে হবে।
হোবার

2
@ হুবুহু, আমি আপনার প্রথম মন্তব্যটি ভুল বুঝেছি। প্লট স্থির করা, আশা করি এখন এটি আরও ভাল!
কেদার্পস

1
পছন্দ করুন
কেদার্পস

6

ধরুন আপনার কাছে একটি ডেটাসেট রয়েছে (এন "বৈশিষ্ট্যগুলি" দ্বারা "m" উদাহরণগুলি) এবং একটি বৈশিষ্ট্য মাত্রা ব্যতীত সমস্ত মান 0 এবং 1 এর মধ্যে কঠোরভাবে মান রয়েছে, যখন একক বৈশিষ্ট্যের মাত্রার মান -1000000 থেকে 1000000 পর্যন্ত রয়েছে the ইউক্যালিডিয়ান দূরত্ব গ্রহণের সময় "উদাহরণগুলির" জুটির মধ্যে, 0 থেকে 1 এর মধ্যে বিস্তৃত বৈশিষ্ট্যের মাত্রাগুলির মানগুলি অবজ্ঞাত হতে পারে এবং অ্যালগরিদম মূলত একক মাত্রায় নির্ভর করবে যার মানগুলি যথেষ্ট বড় values কেবল কিছু ইউক্যালিডিয়ান দূরত্ব গণনার জন্য কাজ করুন এবং আপনি বুঝতে পারবেন কীভাবে স্কেলটি নিকটবর্তী প্রতিবেশী গণনে প্রভাব ফেলে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.