আমি কখন নিকটতম প্রতিবেশী অতিক্রম করা উচিত


9

আমরা করি এমন অনেকগুলি মেশিন লার্নিং প্রকল্পের জন্য, আমরা কে নিকটবর্তী নিকটবর্তী শ্রেণিবদ্ধের সাথে শুরু করি। এটি একটি আদর্শ প্রারম্ভিক শ্রেণিবদ্ধকারী হিসাবে আমাদের কাছে সাধারণত সমস্ত দূরত্ব গণনা করার জন্য পর্যাপ্ত সময় থাকে এবং প্যারামিটারের সংখ্যা সীমিত হয় (কে, দূরত্বের মেট্রিক এবং ওজন)

যাইহোক, এটি প্রায়শই প্রভাব ফেলে যে আমরা পরবর্তী শ্রেণীর শ্রেণিবদ্ধে স্যুইচ করার কোনও সুযোগ নেই বলে পরের প্রকল্পে আমরা জড়িত শ্রেণিবদ্ধের সাথে লেগে আছি। নতুন শ্রেণিবদ্ধার চেষ্টা করার ভাল কারণ কী হবে। স্পষ্টত এগুলি হ'ল মেমরি এবং সময় প্রতিরোধক, কিন্তু এমন কি কিছু ক্ষেত্রে রয়েছে যখন অন্য শ্রেণিবদ্ধকারী প্রকৃতপক্ষে নির্ভুলতার উন্নতি করতে পারে?


এটি কি খাঁটি একাডেমিক না এটি শিল্পে ব্যবহার করা উচিত?
ডাঃ রব ল্যাং

1
আমাদের বেশিরভাগ অ্যাপ্লিকেশন শিল্পে মোতায়েন রয়েছে (সুতরাং মেমরির পদচিহ্ন এবং গণনার সময় ইস্যু)

উত্তর:


3

কে-এনএন খুব সীমাবদ্ধ অর্থে জেনারেলাইজ করে। এটি কেবল মসৃণতা প্রিয়ারগুলি (বা ধারাবাহিকতা অনুমান) ব্যবহার করে। এই অনুমানটি বোঝায় যে বৈশিষ্ট্য জায়গার নিকটে থাকা নিদর্শনগুলি সম্ভবত একই বর্গের অন্তর্গত। প্যাটার্ন বিতরণে কোনও কার্যকরী নিয়মিততা কে-এনএন দ্বারা পুনরুদ্ধার করা যাবে না।

সুতরাং এটির জন্য প্রতিনিধি প্রশিক্ষণের নমুনাগুলি প্রয়োজন যা বিশেষত অত্যন্ত মাত্রিক বৈশিষ্ট্যযুক্ত জায়গাগুলির ক্ষেত্রে অত্যন্ত বড় হতে পারে। সবচেয়ে খারাপ, এই নমুনাগুলি অনুপলব্ধ হতে পারে। ফলস্বরূপ, এটি আক্রমণকারীদের শিখতে পারে না। যদি নিদর্শনগুলি তাদের লেবেলগুলি পরিবর্তন না করেই কিছু রূপান্তরের শিকার হতে পারে এবং প্রশিক্ষণের নমুনায় সমস্ত গ্রহণযোগ্য উপায়ে রূপান্তরিত প্যাটার্ন থাকে না, তবে কে-এনএন প্রশিক্ষণ চলাকালীন উপস্থাপন করা হয়নি এমন রূপান্তরিত নিদর্শনগুলিকে কখনই স্বীকৃতি জানাতে পারে না। এটি সত্য, উদাহরণস্বরূপ, স্থানান্তরিত বা ঘোরানো চিত্রগুলির জন্য, যদি সেগুলি কে-এনএন চালানোর আগে কোনও আক্রমণকারী আকারে প্রতিনিধিত্ব না করে। k-NN এমনকি অপ্রাসঙ্গিক বৈশিষ্ট্যগুলি থেকে বিমূর্ত করতে পারে না।

আরও কিছুটা কৃত্রিম উদাহরণ অনুসরণ করা হচ্ছে। কল্পনা করুন যে বিভিন্ন শ্রেণীর অন্তর্গত প্যাটার্নগুলি পর্যায়ক্রমে বিতরণ করা হয় (উদাহরণস্বরূপ সাইন অনুসারে - যদি এটি 0 এর চেয়ে কম হয় তবে নিদর্শনগুলি একটি শ্রেণীর অন্তর্গত, এবং এটি আরও বেশি, তবে নিদর্শনগুলি অন্য শ্রেণীর অন্তর্গত)। প্রশিক্ষণ সেট সীমাবদ্ধ। সুতরাং, এটি একটি সীমাবদ্ধ অঞ্চলে অবস্থিত হবে। এই অঞ্চলের বাইরে স্বীকৃতি ত্রুটি 50% হবে। পর্যায় ভিত্তিক ফাংশনগুলির সাথে লজিস্টিক রিগ্রেশনটি কল্পনা করা যায় যা এই ক্ষেত্রে আরও ভাল সম্পাদন করবে। অন্যান্য পদ্ধতিগুলি প্যাটার্ন বিতরণ এবং এক্সট্রোপোলেটে অন্যান্য নিয়মিততাগুলি জানতে সক্ষম হবে।

সুতরাং, যদি কেউ সন্দেহ করে যে উপলব্ধ ডেটা সেটটি প্রতিনিধিত্বমূলক নয়, এবং নিদর্শনগুলির কিছু রূপান্তরের আগ্রাসন অর্জন করা উচিত, তবে এটি কেস-এনএন ছাড়িয়ে যাওয়া উচিত।


আপনার উত্তরের জন্য আপনাকে ধন্যবাদ (এবং বারোটোসকেপিকে এটির উন্নতি করার চেষ্টা করার জন্য ধন্যবাদ) এটি সত্য যে নিটগুলি রূপান্তর প্রয়োজন এমন নিদর্শনগুলি খুঁজে পাবে না (যদি না আপনি একটি অদ্ভুত (এবং ভুল) দূরত্বের মেট্রিক ব্যবহার শুরু করেন)। অন্য ক্লাসিফায়ার চেষ্টা করার এটি একটি ভাল কারণ, আমার ধারণা এসভিএম তখন একটি সুস্পষ্ট পছন্দ। আমি এসএমএম বলতে যথেষ্ট পরিমাণে পরিচিত নই, তবে কার্নেলটি সংজ্ঞায়িত করার জন্য আপনি যে প্যাটার্নটি খুঁজছেন তা সম্পর্কে কি নির্দিষ্ট জ্ঞানের প্রয়োজন হবে না?

হ্যাঁ. কার্নেলের পছন্দ নিদর্শনগুলির উপর নির্ভর করবে। গাউসিয়ান কার্নেলের কে-এনএন পদ্ধতির মতো বৈশিষ্ট্য থাকবে। অন্যান্য স্ট্যান্ডার্ড কার্নেলগুলিও অনুপযুক্ত বলে মনে হতে পারে। তবে কমপক্ষে, কেউ এগুলি ব্যবহার করে দেখতে পারেন।

@ নেক্রো0x0 দ্বারা বোঝানো হয়েছে এই লাইনগুলির সাথে যে কোনও উন্নতি প্যারামিট্রাইজেশনের জন্য প্রাকৃতিক হওয়া প্যাটার্নের (সাইন উদাহরণে, পর্যায়ক্রমের) উপর নির্ভর করবে। তা হ'ল প্যারামিট্রাইজেশন (কার্নেল পছন্দ) উপস্থাপনের জায়গার কাঠামো (কার্যকরভাবে, মেট্রিক) সংজ্ঞায়িত করে। যদি আপনি কোনও উপায়ে কিছু উপযুক্ত কাঠামো নির্ধারণ করতে পারেন (সম্ভবত শিক্ষিত অনুমান দ্বারা) তবে সেই অনুযায়ী প্যাটার্নটি প্যারাম্যাট্রাইজ করার চেষ্টা করুন। মনে রাখবেন শেষ পর্যন্ত, এটি আপনার শ্রেণিবদ্ধকারীকে কিছু প্রাসঙ্গিক বৈশিষ্ট্যগুলি সহজেই সন্ধান করতে দেয়।

3

যদি আপনি গণনামূলক জটিলতায় সীমাবদ্ধ থাকেন তবে সিদ্ধান্তের গাছগুলি (কুইনাল, 1986) বীট করা শক্ত হয় (বিশেষত যখন কোনও কাঠামো একচেটিয়াif বিবৃতিতে ডিটি মডেলকে সরাসরি রূপান্তর দেয় - যেমন অ্যাকর্ড.নেট )।

উচ্চ মাত্রিক তথ্যের জন্য দূরত্বের ধারণাটি, যার ভিত্তিতে কে-এনএন ভিত্তিক, অকেজো হয়ে যায় (ক্রিগেল, ক্রিগার, জিমেক, ২০০৯) (এছাড়াও: উইকিপিডিয়া নিবন্ধ )। সুতরাং অন্যান্য শ্রেণিবদ্ধীরা যেমন এসভিএম (কর্টার, ভ্যাপনিক, 1995) বা র্যান্ডম ফরেস্টস (ব্রেইম্যান, 2001) আরও ভাল পারফর্ম করতে পারে।

তথ্যসূত্র:


উচ্চ মাত্রা অবশ্যই একটি নির্দিষ্ট সীমা নয়, বেশিরভাগ ক্ষেত্রে আমাদের বৈশিষ্ট্যগুলি দূরত্বের কাজ করে এমন পর্যাপ্ত পরিমাণে প্রকাশ করে। অবশ্যই এটি একটি গুরুত্বপূর্ণ বিষয় হতে পারে। সম্ভবত আমার একটি উদাহরণ দিয়ে স্পষ্ট করা উচিত ছিল। বলুন যে আমাদের একটি শ্রেণিবদ্ধ রয়েছে যার যথার্থতা আছে 93%, এটি গ্রহণযোগ্য তবে এখন আমরা হয় শ্রেণিবদ্ধকে উন্নত করতে বা নতুন বৈশিষ্ট্যগুলি খুঁজে পেতে চেষ্টা করতে পারি। এটি সমস্ত নতুন সম্ভাব্য বৈশিষ্ট্য এবং ডেটার উপর নির্ভর করে, তবে আমি এই সিদ্ধান্তের জন্য দিকনির্দেশ খুঁজছিলাম।

@ রান্ড আমার কাছে মনে হচ্ছে এটি একটি প্রকল্প পরিচালনা স্তর সিদ্ধান্ত decision যদি বর্তমান সমাধান গ্রহণযোগ্য হয় তবে কেন এটির সাথে টিঙ্কার? এটা সময় নষ্ট। যদি এটি গ্রহণযোগ্য না হয় তবে আপনি কী উন্নতি করতে চান তা আরও স্পষ্টভাবে সংজ্ঞা দিন (গতি, নির্ভুলতা ইত্যাদি) ine
বার্তোসকেপিপি

এটি কেবলমাত্র প্রকল্প পরিচালনাই নয়, সর্বাধিক নির্ভুলতা কীভাবে পাওয়া যায় তা (এটি আমার প্রশ্নে রয়েছে) এবং কোন দিকনির্দেশনা সবচেয়ে ভাল। আপনি এসএমএম এবং এলোমেলো বন হিসাবে পরামর্শ দিচ্ছেন কারণ মাত্রিক মাত্রা খুব বেশি হতে পারে, নির্ভুলতার উন্নতি হয় কিনা তা দেখার জন্য আমি পরীক্ষা করতে পারলাম এবং এটিই আমি যে ধরণের উত্তর খুঁজছিলাম।

ঠিক আছে, অন্যদিকে এটি খুব বিস্তৃত প্রশ্ন। কোন সাধারণ নিয়ম যে ক্লাসিফায়ার এক্স চেয়ে ওয়াই আপনি শুধু ক্লাসিফায়ার কিছু সংখ্যা চেষ্টা করা উচিত এবং তারপর সঞ্চালন হয় ক্রস বৈধতা জন্য মডেল নির্বাচন উদাহরণস্বরূপ।
বার্তোসকেপিপি

3

কেএনএন বড় ডেটা নমুনার জন্য দরকারী

তবে এর অসুবিধাগুলি হ'ল:

  1. কে এর মান দ্বারা পক্ষপাতদুষ্ট।
  2. গণনা জটিলতা
  3. স্মৃতি সীমাবদ্ধতা
  4. অলস অ্যালগরিদমের তত্ত্বাবধানে থাকা শেখা
  5. অপ্রাসঙ্গিক গুণাবলী দ্বারা সহজে বোকা।
  6. পূর্বাভাসের নির্ভুলতা যখন বিশিষ্টতার সংখ্যা বৃদ্ধি পায় তখন দ্রুত হ্রাস করতে পারে।

প্রশিক্ষণ ডেটা বড় হলে এটি সাধারণত কার্যকর হয় এবং প্রশিক্ষণ খুব দ্রুত হয়।


আমি ক্লাস্টারিংয়ের দিকে লক্ষ্য করছি না, তবে শ্রেণিবিন্যাসে করছি

ইলেকসফ্লী
ইয়ানকোভিচি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.