কেনএনএন "মডেল ভিত্তিক" নয়?


10

ইএসএল অধ্যায় ২.৪ লিনিয়ার রিগ্রেশনটিকে "মডেল ভিত্তিক" হিসাবে শ্রেণিবদ্ধ বলে মনে হচ্ছে, কারণ এটি , অন্যদিকে কে-নিকটবর্তী প্রতিবেশীদের জন্য অনুরূপ অনুরূপ বর্ণিত হয়নি। তবে উভয় পদ্ধতিই সম্পর্কে অনুমান করা যায় না ?(এক্স)এক্সβ(এক্স)

পরে ২.৪-এ এটি আরও বলেছেন:

  • সর্বনিম্ন স্কোয়ারগুলি ধরে নেওয়া বিশ্বব্যাপী রৈখিক ক্রিয়াকলাপ দ্বারা ভালভাবে সন্নিবিষ্ট।(এক্স)
  • কে-নিকটতম প্রতিবেশীরা ধরে নিচ্ছেন স্থানীয়ভাবে ধ্রুবক ক্রিয়াকলাপের দ্বারা খুব ভাল।(এক্স)

KNN ধৃষ্টতা দেখে মনে হচ্ছে এটি বিধিবদ্ধ করা যেতে পারে (যদিও নিশ্চিত যদি এমনটি হতো নেতৃত্ব পথ অভিমানী মধ্যে KNN অ্যালগরিদম রৈখিক রিগ্রেশনের থেকে রৈখিক বিশালাকার যায়)।

সুতরাং যদি কেএনএন আসলে মডেল-ভিত্তিক না হয় তবে কেন? নাকি আমি ইএসএলটি ভুলভাবে পড়ছি?

উত্তর:


8

কেএনএন এবং লিনিয়ার রিগ্রেশনকে সরাসরি তুলনা করা বেশ কঠিন কারণ এগুলি খুব আলাদা জিনিস, তবে আমি মনে করি এখানে মূল বিষয়টি হল "মডেলিং " এবং " সম্পর্কে অনুমান করা" এর মধ্যে পার্থক্য ।(এক্স)(এক্স)

লিনিয়ার রিগ্রেশন করার সময়, একটি বিশেষত মডেল করে , প্রায়শই এর লাইনের মধ্যে এমন কিছু যেখানে একটি গাউসিয়ান শব্দ শব্দ। আপনি এটি ব্যবহার করতে পারেন যে সর্বাধিক সম্ভাবনার মডেলটি ন্যূনতম যোগফলের স্কোয়ার ত্রুটির মডেলের সমতুল্য।(এক্স)(এক্স)=Wএক্স+ +εε

অন্যদিকে, কেএনএন, যেমনটি আপনার দ্বিতীয় পয়েন্টের পরামর্শ অনুসারে, ধরে নেওয়া হয়েছে যে আপনি স্থানীয়ভাবে ধ্রুবক ফাংশন দ্বারা সেই ফাংশনটি আনুমানিক করতে পারেন - পুরো ডিস্ট্রিবিউশনটির বিশেষভাবে মডেলিং না করে সিএসের মধ্যে কিছু দূরত্ব পরিমাপ ।এক্স

অন্য কথায়, রৈখিক রিগ্রেশনের প্রায়ই মূল্য একটি ভাল ধারণা হবে জন্য কিছু অদেখা শুধু মান থেকে , যেহেতু kNN কিছু অন্যান্য তথ্য (যেমন ট প্রতিবেশীদের) প্রয়োজন হবে প্রায় ভবিষ্যৎবাণী করার কারণ মান , এবং শুধুমাত্র নিজেই মান, কোন তথ্য দিতে হবে না সেখানে কোন মডেল ।(এক্স)এক্সএক্স(এক্স)এক্স(এক্স)

সম্পাদনা করুন: এই পরিষ্কারভাবে পুনরায় প্রকাশ করতে নীচে পুনরাবৃত্তি করুন (মন্তব্য দেখুন)

এটি স্পষ্ট যে লিনিয়ার রিগ্রেশন এবং নিকটতম প্রতিবেশী উভয় পদ্ধতিই নতুন জন্য এর পূর্বাভাস দেওয়ার লক্ষ্য । এখন দুটি পন্থা আছে। লিনিয়ার রিগ্রেশন ধরেই ধরে নেওয়া যায় যে ডেটা একটি সরলরেখায় পড়েছে (প্লাস বিয়োগ কিছু শব্দ) এবং তাই y এর মান রেখার opeালু সমান হয় । অন্য কথায়, লিনিয়ার এক্সপ্রেশন তথ্যকে একটি সরলরেখা হিসাবে মডেল করে।Y=(এক্স)এক্স(এক্স)

এখন নিকটবর্তী প্রতিবেশী পদ্ধতিগুলি ডেটা কেমন দেখাচ্ছে (ডেটা মডেল করে না) সে বিষয়ে চিন্তা করে না, অর্থাত এটি লাইন, প্যারাবোলা, একটি চেনাশোনা, ইত্যাদি সেগুলি বিবেচনা করে না, যা এগুলি ধরে নিয়েছে, তা কি এবং একই হবে, যদি এবং একই হয়। মনে রাখবেন যে এই ধারণাটি আমি উপরে উল্লিখিত সমস্তগুলি সহ মোটামুটি কোনও মডেলের জন্য সত্য। তবে, একটি এনএন পদ্ধতি কীভাবে এর সাথে সাথে সম্পর্কিত (এটি কোনও লাইন, প্যারোবোলাসহ, ইত্যাদি) এর সাথে সম্পর্কিত তা বলতে পারে না , কারণ এটির এই সম্পর্কের কোনও মডেল নেই, এটি কেবল ধরে নিয়েছে যে এটি দ্বারা প্রায় অনুমান করা যায় কাছাকাছি পয়েন্ট মধ্যে সন্ধান।(এক্স1)(এক্স2)এক্স1এক্স2(এক্স)এক্স


"একটি নির্দিষ্টভাবে মডেল এফ (এক্স)" এর অর্থ কী? দেখে মনে হচ্ছে যে কেউ স্থানীয়ভাবে ধ্রুবক এই অনুমানকে আনুষ্ঠানিক রূপ দিতে পারে। কেএনএন কেবল এই জাতীয় কোনও আনুষ্ঠানিকতা দ্বারা প্রাপ্ত করা যায় না?
অ্যালেক

"লিনিয়ার রিগ্রেশন প্রায়শই কেবলমাত্র এক্স এর মান থেকে কিছু অদেখা এক্স এর জন্য f (x) এর মান সম্পর্কে ভাল ধারণা রাখে" আপনি এটির অর্থ কী তা নিশ্চিত হন না ... আপনার এখনও লিনিয়ার মডেলের প্যারামিটারগুলি দরকার যেমন আপনার কেএনএন-এর জন্য প্যারামিটারগুলির প্রয়োজন হবে (যদিও এর পরামিতিগুলি আরও জড়িত)
অ্যালেক

ভাল পয়েন্টস, আমি আমার উত্তরটি আরও স্পষ্ট করে তুলতে সম্পাদনা করার চেষ্টা করেছি এবং আশা করি আপনার পয়েন্টগুলির উত্তর দিতে হবে (মন্তব্যের জন্য চরিত্রের সীমাটি কম)।
সাওলিয়াস লুকাসকাস

+1, এটি ভালভাবে ব্যাখ্যা করা হয়েছে। '"মডেলিং এফ (এক্স)" এবং "এফ (এক্স) সম্পর্কে অনুমান থাকা" "এর মধ্যে পার্থক্য, ধারণাটি খুব ভালভাবে ধারণ করে, আইএমও। সম্ভবত এটি দেওয়ার অন্য একটি উপায় হ'ল মডেলিং-এর (x) তথ্য উত্পন্নকরণ প্রক্রিয়া সম্পর্কে অনুমান করা সমান, তবে জ্ঞানটি এটি করে না, তবে কেবলমাত্র এই চিত্রটি দেওয়া হয়েছে যে প্রদত্ত ডেটামের মানটি কাছের মানের সাথে মিল থাকতে পারে might ডেটা।
গাং - মনিকা পুনরায়

হুম, ঠিক আছে। আপনার সম্পাদনাটি অবশ্যই এটি আরও স্পষ্ট করে তোলে তবে আনুষ্ঠানিক পার্থক্যটি দেখতে সত্যিই আমার সমস্যা হচ্ছে। দেখে মনে হচ্ছে "মডেলিং" করার অর্থ আপনি "বিশ্বব্যাপী চ এর আকারের জন্য একটি ভাল ধারণা পেয়েছেন", তবে কেএনএন কেবল স্থানীয় আচরণ সম্পর্কেই চিন্তা করে। সুতরাং এটি বৈশ্বিক বনাম স্থানীয় মধ্যে এই পার্থক্য যা লিনিয়ার রিগ্রেশন মডেলিং এবং কেএনএন করে না?
আলেক

5

লিনিয়ার রিগ্রেশন মডেল-ভিত্তিক কারণ এটি কোনও মডেল তৈরি করতে তথ্যের কাঠামো সম্পর্কে ধারণা তৈরি করে। আপনি যখন একটি পরিসংখ্যান প্রোগ্রামে কোনও ডেটা সেট লোড করেন এবং লিনিয়ার রিগ্রেশন চালানোর জন্য এটি ব্যবহার করেন বাস্তবে আউটপুট আসলে একটি মডেল:^(এক্স)=β^এক্স। আপনি এই মডেলটিতে নতুন ডেটা ফিড করতে পারেন এবং পূর্বাভাসের আউটপুট পেতে পারেন কারণ আউটপুট ভেরিয়েবলটি আসলে কীভাবে উত্পন্ন হয় সে সম্পর্কে আপনি অনুমান করেছিলেন।

কেএনএন দিয়ে আসলেই কোনও মডেল নেই - কেবলমাত্র একটি অনুমান যে পর্যবেক্ষণগুলি একে অপরের নিকটে রয়েছে এক্সস্পেস সম্ভবত আউটপুট ভেরিয়েবলের ক্ষেত্রে একই রকম আচরণ করবে। আপনি কোনও 'কেএনএন মডেল'-তে কোনও নতুন পর্যবেক্ষণ খাওয়াবেন না, আপনি কেবলমাত্র বিদ্যমান পর্যবেক্ষণগুলি একটি নতুন পর্যবেক্ষণের সাথে সাদৃশ্যপূর্ণ তা নির্ধারণ করুন এবং প্রশিক্ষণের ডেটা থেকে নতুন পর্যবেক্ষণের জন্য আউটপুট পরিবর্তনশীলটির পূর্বাভাস দিন।


স্বজ্ঞাতভাবে আমি আপনার অর্থটি বুঝতে পেরেছি, তবুও এই পার্থক্যটি আমার কাছে নড়বড়ে লাগছে ... আপনি কি কেএনএনকে পার্টিশনের জন্য নির্ধারিত আর ডি এবং ওয়েটের বিভাজন দ্বারা প্যারামিটারাইজড হিসাবে দেখতে পাচ্ছেন না?
অ্যালেক

1
যদি কেউ আপনাকে আপনার পূর্বাভাসকে ন্যায়সঙ্গত করতে বলে তবে আপনি যদি তা করতে পারেন তবে আপনি যদি মডেলটিকে ধরে রাখে এবং আউটপুটগুলির মধ্যে সম্পর্কগুলি ব্যাখ্যা করে লিনিয়ার রিগ্রেশন ব্যবহার করেন। একটি মডেল সম্পর্ক বি / ডাব্লু ইনপুট এবং ফলাফলগুলি ব্যাখ্যা করার চেষ্টা করে। কেএনএন সম্পর্কের বি / ডাব্লু ইনপুট এবং ফলাফলগুলি ব্যাখ্যা করার চেষ্টা করে না, সুতরাং এর কোনও মডেল নেই।
tjnel

4

ক্লাস্টারিং পদ্ধতিগুলির বিষয়ে আলোচনা করার সময় মডেল-ভিত্তিক শব্দটি "বিতরণ ভিত্তিক" সমার্থক। লিনিয়ার রিগ্রেশন বিতরণের অনুমান করে (ত্রুটিগুলি গাউসিয়ান হয়)। কেএনএন কোনও বন্টনমূলক অনুমান করে না। এটাই পার্থক্য।


1
এটি আমার কাছে আনুষ্ঠানিক পার্থক্যের দিক থেকে এখন পর্যন্ত সর্বাধিক জ্ঞান অর্জন করে, যদিও ইএসএল সত্যিই এভাবে লিনিয়ার রিগ্রেশন উপস্থাপন করেনি। তারা প্রথমে স্কোয়ার-ত্রুটি ব্যয়ের ফাংশনটি প্রবর্তন করেছিল, এক ধরণের নির্বিচারে (কোনও গাউসির জন্য এমএলই করার পরিবর্তে) এটি ব্যবহার করে আমাদের f (x) = E (Y | X = x) ভবিষ্যদ্বাণী করা উচিত, কেএনএন কীভাবে অনুমান করা যায় তা ব্যাখ্যা করেছিল এটি নির্দিষ্ট অনুমানের অধীনে, এবং তারপরে ধরে নিল চ রৈখিক রিগ্রেশন পাওয়ার জন্য লিনিয়ার ছিল।
অ্যালেক

আকর্ষণীয় প্রস্তাব, তবে এটি সম্পর্কে আমাদের কিছু উল্লেখ থাকলে এটি আরও ভাল better
ivanmp

0

কেএনএন হ'ল উদাহরণ ভিত্তিক

নতুন পর্যবেক্ষণের জন্য ভবিষ্যদ্বাণী করার জন্য আপনাকে সমস্ত প্রশিক্ষণ ডেটাसेट রাখতে হবে, কারণ, ডেটাসেট সম্পর্কে কোনও মডেল নেই ।

কেএনএন এইভাবে কাজ করে: একটি নতুন পর্যবেক্ষণ দেওয়া হলে, আমরা এই নতুন পর্যবেক্ষণ এবং প্রশিক্ষণ ডেটাসেটের অন্যান্য সমস্ত পর্যবেক্ষণের মধ্যে দূরত্ব গণনা করব। তারপরে আপনি প্রতিবেশী (নতুন পর্যবেক্ষণের সবচেয়ে নিকটতম) পাবেন।

যদি =5, তারপরে আমরা 5 নিকটতম পর্যবেক্ষণগুলিতে লক্ষ্য করি। "একটি স্থানীয়ভাবে ধ্রুবক ফাংশন" এর অর্থ এই 5 টি পর্যবেক্ষণ চয়ন করার পরে, আমরা দূরত্বগুলি সম্পর্কে চিন্তা করি না। তারা একই, পূর্বাভাসের জন্য তাদেরও একই গুরুত্ব রয়েছে।

কিভাবে একটি মডেল খুঁজে পেতে পারেন?

এখন, যদি আমরা এমন কোনও ফাংশন সন্ধানের চেষ্টা করি যা "স্থানীয়ভাবে ধ্রুবক" নয়, এটি একটি সাধারণ বিতরণ হবে। এই ক্ষেত্রে, আপনি একটি অ্যালগরিদম কল লিনিয়ার ডিসক্রিমেন্ট্যান্ট অ্যানালাইসিস বা নাইভ বেইস পাবেন (কিছু অন্যান্য অনুমানের উপর নির্ভর করে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.