কেএনএন-এ বন্ধন, ওজন এবং ভোটদানের সাথে সম্পর্কিত

14

আমি একটি কেএনএন অ্যালগরিদম প্রোগ্রাম করছি এবং নিম্নলিখিতগুলি জানতে চাই:

টাই-বিরতি:

সংখ্যাগরিষ্ঠ ভোটে সুস্পষ্ট বিজয়ী না থাকলে কী হবে? উদাহরণস্বরূপ, সকল কে নিকটস্থ প্রতিবেশী বিভিন্ন শ্রেণীর, বা কে = 4 এর জন্য ক্লাস এ থেকে 2 এবং বি শ্রেণিতে 2 প্রতিবেশী আছেন?
যদি খুব কাছের প্রতিবেশীদের ঠিক নির্ধারণ করা সম্ভব না হয় তবে সেখানে আরও অনেক প্রতিবেশী একইরকম দূরত্ব রয়েছে কি না? উদাহরণস্বরূপ দূরত্বের তালিকার জন্য (x1;2), (x2;3.5), (x3;4.8), (x4;4.8), (x5;4.8), (x6;9.2)কে = 3 বা কে = 4 নিকটতম প্রতিবেশী নির্ধারণ করা সম্ভব হবে না, কারণ তৃতীয় থেকে 5 তম প্রতিবেশীর সকলেরই একই দূরত্ব রয়েছে।

ওজন:

আমি পড়েছি বিজয়ী শ্রেণি নির্বাচনের আগে কে-নিকটতম প্রতিবেশীদের ওজন করা ভাল। ওটা কিভাবে কাজ করে? অর্থাত্ প্রতিবেশীরা কীভাবে ভারিত হয় এবং কীভাবে শ্রেণি নির্ধারিত হয়?

সংখ্যাগরিষ্ঠ ভোটের বিকল্প:

সংখ্যাগরিষ্ঠ ভোট ব্যতীত বিজয়ী শ্রেণি নির্ধারণের জন্য কি অন্যান্য নিয়ম / কৌশল আছে?

k-nearest-neighbour weights ties

— ফ্লেচার দুরান
সূত্র

7

আমার দৃষ্টিতে নিকটতম প্রতিবেশীর জন্য টাই ভাঙার আদর্শ উপায় হ'ল আপনি টাই ভাঙা না হওয়া অবধি কে দ্বারা 1 কে কমিয়ে আনতে হবে । ভোট ওজন স্কীম নির্বিশেষে এটি সর্বদা কাজ করবে, যেহেতু কে = ১. টাই টাই করা অসম্ভব, যদি আপনি কে বাড়াতে থাকেন , আপনার ওজন স্কিম এবং বিভাগের সংখ্যা মুলতুবি রেখেছেন , আপনি টাই বিরতির গ্যারান্টি দিতে সক্ষম হবেন না।

— আলী
সূত্র

11

কেন টাই অসম্ভব যখন কে = 1, যদি দুটি দূরত্বে একই দূরত্ব সহ বিভিন্ন শ্রেণীর অন্তর্ভুক্ত থাকে তবে আপনি কে = 1 দিয়ে নিকটতম প্রতিবেশীকে কীভাবে নির্ধারণ করবেন?

— j5shi

6

কেএনএন করার সময় আপনার একটি জিনিস মনে রাখা দরকার, এটি কোনও কঠোরভাবে নয়, গাণিতিকভাবে উত্পন্ন অ্যালগরিদম নয়, বরং একটি স্বজ্ঞাততার উপর ভিত্তি করে একটি সাধারণ শ্রেণিবদ্ধ / রেজিস্টার - যুক্তিগুলি পরিবর্তিত না হলে অন্তর্নিহিত ফাংশনটি খুব বেশি পরিবর্তন হয় না অনেক। বা অন্য কথায় অন্তর্নিহিত ফাংশন স্থানীয়ভাবে কাছাকাছি-ধ্রুবক। এই অনুমানের সাহায্যে, আপনি নিকটস্থ কে পয়েন্টগুলির মানগুলির (সম্ভবত ওজনযুক্ত) দ্বারা কোনও নির্দিষ্ট বিন্দুতে অন্তর্নিহিত ফাংশনের মান অনুমান করতে পারেন।

এটিকে মাথায় রেখে, আপনি বুঝতে পারবেন যে যখন সংখ্যাগরিষ্ঠ ভোটে সুস্পষ্ট বিজয়ী নেই তখন কী করা উচিত সে সম্পর্কে কোনও স্পষ্ট আবশ্যকতা নেই। আপনি হয় সর্বদা একটি বিজোড় কে ব্যবহার করতে পারেন, বা কিছু ইনজেকশন ওজন ব্যবহার করতে পারেন।

প্রতিবেশীদের ক্ষেত্রে 3 থেকে 5 জন আগ্রহের দিক থেকে একই দূরত্বে রয়েছে, আপনি কেবল দুটি ব্যবহার করতে পারেন, বা সমস্ত ব্যবহার করতে পারেন 5 আবার, মনে রাখবেন কেএনএন জটিল গাণিতিক বিশ্লেষণ থেকে প্রাপ্ত কিছু অ্যালগরিদম নয়, তবে কেবল একটি সাধারণ অন্তর্দৃষ্টি আপনি কীভাবে এই বিশেষ ক্ষেত্রে মোকাবেলা করতে চান তা আপনার বিষয়।

যখন এটি ওজনে আসে তখন আপনি নিজের অ্যালগরিদমকে স্বজ্ঞাততার উপর ভিত্তি করে থাকেন যে যুক্তিগুলি খুব বেশি পরিবর্তন হয় না তখন ফাংশনটি খুব বেশি পরিবর্তন হয় না। সুতরাং আপনি আগ্রহের পয়েন্টের নিকটে থাকা পয়েন্টগুলিতে আরও বড় ওজন দিতে চান। উদাহরণস্বরূপ , বা অন্য যে কোনও তুলনামূলকভাবে বড় যখন দূরত্ব ছোট হয় এবং অপেক্ষাকৃত ছোট হয় যখন পয়েন্টগুলির মধ্যে দূরত্ব বড় হয় (তাই সম্ভবত কিছুটির বিপরীত হয় অবিচ্ছিন্ন মেট্রিক ফাংশন)। $\frac{1}{||x-y||^2}$

সঠিক ওজন খুঁজে পাওয়ার বিষয়টি নিয়ে এনআইপিএসের স্পর্শে সামোরি কপোটুফ এবং আবদেসলাম বোয়ালারিয়াসের একটি চমৎকার কাগজও এ বছর ছিল। তাদের সাধারণ স্বজ্ঞাততাটি হ'ল অন্তর্নিহিত ফাংশনটি বিভিন্ন দিকে পৃথকভাবে পরিবর্তিত হয় (অর্থাত্ এর বিভিন্ন আংশিক ডেরাইভেটিভস বিভিন্ন মাত্রার হয়), তাই এই স্বীকৃতি অনুসারে কিছুটা ক্ষেত্রে মেট্রিক / ওজন পরিবর্তন করা বুদ্ধিমানের কাজ। তারা দাবি করে যে এই কৌশলটি সাধারণত কেএনএন এবং কার্নেল রিগ্রেশনগুলির কার্যকারিতা উন্নত করে এবং আমি মনে করি তারা এই দাবির ব্যাক আপ করার জন্য কিছু তাত্ত্বিক ফলাফলও পেয়েছে (যদিও আমি নিশ্চিত নই যে এই তাত্ত্বিক ফলাফলগুলি আসলে কী দাবি করে, আমার কাছে যাওয়ার সময় ছিল না) পুরো কাগজের মাধ্যমে এখনও)। কাগজগুলি তাদের সাইটগুলি থেকে বিনামূল্যে ডাউনলোড করা যায় বা গুগলিংয়ের পরে "গ্রেডিয়েন্ট ওয়েটস ননপ্যারামেট্রিক রেজিস্ট্রারদের সহায়তা করে" after

এখন, আপনি সম্ভবত জানতে চাইবেন যে আপনি কীভাবে সঠিক কে, মেট্রিক, ওজন, ড্র করার সময় সম্পাদন করার পদক্ষেপ এবং এই জাতীয় কিছু পেতে পারেন। দুঃখজনক বিষয়টি হ'ল, গভীর গভীর চিন্তাভাবনার পরে ডান হাইপারপ্যারামিটারগুলিতে পৌঁছানো মূলত শক্ত, আপনার সম্ভবত হাইপারপ্যারামিটারগুলির বিভিন্ন গোছা পরীক্ষা করতে হবে এবং কোনটি বৈধতার সেটগুলিতে কোনটি ভালভাবে কাজ করছে তা দেখতে হবে। যদি আপনার কাছে কয়েকটি গণনামূলক সংস্থান থাকে এবং হাইপারপ্যারামিটারগুলির একটি ভাল সেটে স্বয়ংক্রিয়ভাবে ডান প্যারামিটারে পৌঁছতে চান তবে সেই সেটিংটিতে গেরুয়া প্রক্রিয়াগুলি ডেরাইভেটিভ-মুক্ত অপ্টিমাইজেশনের জন্য ব্যবহার করার জন্য একটি সাম্প্রতিক ধারণা রয়েছে (যা আমি খুব পছন্দ করি)।

আমাকে বিশদভাবে বলতে দাও - হাইপারপ্যারামিটারগুলির সেট সন্ধান করা (যেমন, যাচাইকরণের ডেটাতে ত্রুটি হ্রাস করে) একটি অপ্টিমাইজেশন সমস্যা হিসাবে দেখা যেতে পারে। দুর্ভাগ্যক্রমে, এই সেটিংটিতে আমরা যে ফাংশনটি অপ্টিমাইজ করার চেষ্টা করি তার গ্রেডিয়েন্টটি আমরা পাই না (যা আমরা সাধারণত যা করতে চাই, গ্রেডিয়েন্ট বংশোদ্ভূত বা কিছু আরও উন্নত পদ্ধতি সম্পাদন করতে পারি)। হাইপ্যারামিটারের সেটগুলি সন্ধানের জন্য, আমরা এই পয়েন্ট অবধি সর্বাধিক প্রাপ্ত সেরা মানের চেয়ে আরও ভাল সম্পাদন করার জন্য গাউসিয়ান প্রক্রিয়াগুলি এই সেটিংটিতে ব্যবহার করা যেতে পারে। অতএব, আপনি হাইপারপ্যারামিটারগুলির কয়েকটি সেট দিয়ে পুনরাবৃত্তভাবে অ্যালগরিদম চালাতে পারেন, তারপরে গাউসিয়ান প্রক্রিয়াটি জিজ্ঞাসা করুন যার জন্য পরবর্তীগুলি চেষ্টা করা ভাল those সেগুলি চেষ্টা করে দেখুন ইত্যাদি।

বিশদ তথ্যের জন্য, জ্যাস্পার স্নেক, হুগো ল্যারোচেল এবং রায়ান পি অ্যাডামস (তাদের ওয়েবসাইটগুলিতে বা গুগলের মাধ্যমেও পাওয়া যাবে) "প্র্যাকটিকাল বায়েসিয়ান অপটিমাইজেশন অফ মেশিন লার্নিং অ্যালগরিদম" পত্রিকাটি দেখুন।

— sjm.majewski
সূত্র

2

সতর্কতা: বৈধতা সেটটিতে সর্বোত্তম নির্ভুলতার জন্য হাইপারপ্যারামিটারগুলি অনুকূল করা হ'ল অতিমাত্রায় বিস্মৃত হওয়ার সহজ উপায়। আপনি নেস্টেড সিভি চান

একটি দ্রুত নোট করুন যে "অদ্ভুত কে" টাইয়ের সমস্যাটি অগত্যা সমাধান করবে না ... যেমন তিন গ্রুপকে শ্রেণিবদ্ধ করার সময় কে = 3 class তা ছাড়া আমিও একমত। সুন্দর ব্যাখ্যা।

— পাইল

1

এই টাই অংশ সম্পর্কে, সম্পর্কের জন্য সর্বোত্তম বেসলাইন ধারণাটি সাধারণত এলোমেলোভাবে বিরতি হয়, সুতরাং ভোটের জয়ের সমস্ত র্যান্ডম ক্লাস নির্বাচন করা এবং এলোমেলোভাবে কে পূরণ করার জন্য যথেষ্ট বড় বাঁধা বস্তুর একটি উপসেট নির্বাচন করা।

এই জাতীয় সমাধানটি এই প্যাথলজিকাল কেস যা কেবল কেএনএন শাসন ব্যবস্থায় সিদ্ধান্ত নেওয়ার জন্য পর্যাপ্ত তথ্য সরবরাহ করে না তা জোর দেয়। বিটিডাব্লু যদি সেগুলি আপনার ডেটাতে সাধারণ হয়, তবে আপনার আরও কিছু দূরত্বের চেষ্টা করা উচিত?

0

একটি সম্ভাব্য উপায় হ'ল অ্যালগরিদম স্বয়ংক্রিয়ভাবে কে বা কমিয়ে দেওয়া যতক্ষণ না আপনি স্পষ্ট বিজয়ী পান।

— gamerx
সূত্র