কেএনএন দিয়ে কোন ধরণের ডেটা স্বাভাবিককরণ ব্যবহার করা উচিত?


9

আমি জানি যে স্বাভাবিককরণের চেয়ে আরও বেশি ধরণের রয়েছে।

উদাহরণ স্বরূপ,

1- একটি জেড-স্কোর বা টি-স্কোর ব্যবহার করে ডেটা ট্রান্সফর্ম করা। এটিকে সাধারণত মানক বলা হয়।

2- 0 এবং 1 এর মধ্যে মান থাকতে ডেটা পুনরায় উদ্ধার করে।

আমার যদি স্বাভাবিক হওয়ার দরকার হয় এখন প্রশ্ন question

কেএনএন দিয়ে কোন ধরণের ডেটা স্বাভাবিককরণ ব্যবহার করা উচিত? এবং কেন?

উত্তর:


11

কে-এনএন-এর জন্য আমি এবং মধ্যে ডেটা স্বাভাবিক করার পরামর্শ দেব ।01

কে-এনএন উদাহরণগুলির তুলনা করার মাধ্যম হিসাবে ইউক্লিডিয়ান দূরত্ব ব্যবহার করে । দুটি পয়েন্টের মধ্যে দূরত্ব গণনা করতে এবং , যেখানে এর তম বৈশিষ্ট্যের মান :x1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1iix1

d(x1,x2)=(f11f21)2+(f12f22)2+...+(f1Mf2M)2

আদেশের জন্য এ সব বৈশিষ্ট্য হতে সমান যখন দূরত্ব গণক গুরুত্ব, বৈশিষ্ট্য আবশ্যক মান একই পরিসীমা আছে। এটি কেবলমাত্র সাধারণীকরণের মাধ্যমেই অর্জনযোগ্য।

যদি সেগুলি স্বাভাবিক না করা হয় এবং উদাহরণস্বরূপ বৈশিষ্ট্যটি এর ) এর মানগুলির একটি ব্যাপ্তি ছিল , যখন এর এর মানগুলির একটি সীমা ছিল । দূরত্ব গণনা করার সময়, দ্বিতীয় শব্দটি প্রথমটির চেয়ে গুণ গুরুত্বপূর্ণ হবে, কে-এনএন প্রথমের চেয়ে দ্বিতীয় বৈশিষ্ট্যের উপর বেশি নির্ভর করবে। সাধারনকরণ নিশ্চিত করে যে সমস্ত বৈশিষ্ট্য একই মানের সীমাতে ম্যাপ করা আছে ।f1[0,1f2[1,10)10

অন্যদিকে, মানককরণের অনেকগুলি দরকারী বৈশিষ্ট্য রয়েছে তবে বৈশিষ্ট্যগুলি একই পরিসরে ম্যাপ করা হয়েছে তা নিশ্চিত করতে পারে না । মানককরণ অন্যান্য শ্রেণিবদ্ধদের জন্য সবচেয়ে উপযুক্ত হতে পারে তবে কে-এনএন বা অন্য কোনও দূরত্ব-ভিত্তিক শ্রেণিবদ্ধের ক্ষেত্রে এটি নয়।


4
যদি আমি ইউক্লিডিয়ান দূরত্বের (যেমন ম্যানহাটনের দূরত্ব বা অন্যান্য দূরত্ব এমনকি ভগ্নাংশ দূরত্ব) এর পরিবর্তে বিভিন্ন দূরত্ব ব্যবহার করি তবে আপনার উত্তর কি একই হবে? এছাড়াও চলকগুলির পরিসীমা যদি একে অপরের কাছাকাছি থাকে।
জিজা

7
হ্যাঁ আমি উদাহরণ হিসাবে কেবল ইউক্লিডিয়ান দূরত্ব দেখিয়েছি, তবে সমস্ত দূরত্বের মেট্রিকগুলি একই জিনিস থেকে ভোগে। রেঞ্জ পরস্পর কাছাকাছি তাহলে এটি মেট্রিক হিসাব প্রভাব পড়বে না যে কত , কিন্তু এটি এখনও would। উদাহরণস্বরূপ যদি and ,, এখনও চেয়ে বেশি গুরুত্বপূর্ণ হবে । একটি জিনিস যা আমি উল্লেখ করতে ভুলে গিয়েছিলাম তা হ'ল মানককরণ, স্পষ্টতই, কোনও বৈশিষ্ট্য স্কেলিং না করানোর চেয়ে অনেক ভাল; এটি সাধারণীকরণের চেয়ে কেবল খারাপ। f1[0,1)f2[0,1.2)f220%f1
ডিজিব2011

আহ আমি দেখি. "এটি সাধারণীকরণের চেয়েও খারাপ" !?
জিজা 13
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.