হাই-ডাইমেনশনাল ফিচার স্পেসে কে-নিকটস্থ-প্রতিবেশীদের মতো প্যারামিমেটিক পদ্ধতি নয়


11

এর মূল ধারণা K-নিকটবর্তী-নেইবার একাউন্টে লাগে পয়েন্ট নিকটতম এবং সংখ্যাগরিষ্ঠ ভোটে ডেটার শ্রেণীবিন্যাস সিদ্ধান্ত নেয়। যদি তা হয় তবে এর উচ্চতর মাত্রিক ডেটাতে সমস্যা হওয়া উচিত নয় কারণ লোকালটিটিটিভ সংবেদনশীল হ্যাশিংয়ের মতো পদ্ধতিগুলি দক্ষতার সাথে নিকটবর্তী প্রতিবেশীদের সন্ধান করতে পারে।k

এছাড়াও, বায়েশিয়ান নেটওয়ার্কগুলির সাথে বৈশিষ্ট্য নির্বাচন ডেটাগুলির মাত্রা হ্রাস করতে এবং শেখাটিকে আরও সহজ করে তুলতে পারে।

তবে, স্ট্যাটিস্টিকাল লার্নিংয়ে জন লাফার্টির এই রিভিউ পেপারটি উল্লেখ করেছে যে উচ্চ মাত্রিক বৈশিষ্ট্যযুক্ত জায়গাগুলিতে অ-প্যারাম্যাট্রিক শিখন এখনও একটি চ্যালেঞ্জ এবং অমীমাংসিত।

কি ভুল হচ্ছে?


1
কাগজের জন্য দয়া করে একটি সম্পূর্ণ রেফারেন্স দিন; লেখকরা এতে (বিশিষ্টভাবে) উপস্থিত বলে মনে হচ্ছে না।
রাফেল

উত্তর:


5

এই সমস্যাটি মাত্রিকতার অভিশাপ হিসাবে পরিচিত । মূলত, আপনি মাত্রা সংখ্যা বৃদ্ধি করার সাথে সাথে, , স্পেসের পয়েন্টগুলি সাধারণত অন্য সমস্ত পয়েন্ট থেকে অনেক দূরে হয়ে যায়। এটি স্থানকে ভাগ করা (যেমন শ্রেণিবদ্ধকরণ বা ক্লাস্টারিংয়ের জন্য প্রয়োজনীয়) খুব কঠিন করে তোলে।d

আপনি নিজের জন্য এটি খুব সহজেই দেখতে পাবেন। আমি উত্পন্ন র্যান্ডম 20 সমানভাবে নির্বাচিত মানের এ ইউনিট hypercube মধ্যে -dimensional পয়েন্ট থেকে 1..1000D এর প্রতিটি মানের জন্য আমি প্রথম বিন্দু থেকে অন্য সকলের সাথে দূরত্বটি গণনা করেছি এবং এই দূরত্বগুলির গড় নিয়েছি। এটিকে প্লট করে, আমরা দেখতে পাচ্ছি যে পরিমাপের সাথে গড় দূরত্ব বাড়ছে যদিও প্রতিটি জায়গাতে আমরা যে পয়েন্টগুলি তৈরি করছি সেই স্থান একই রয়ে গেছে।50dd1..1000d

গড় দূরত্ব বনাম মাত্রিকতা


অবশ্যই. আপনি মাত্রিক মাত্রায় তাত্ক্ষণিকভাবে নির্ধারিত ব্যাসার্ধের হাইপারস্পিয়ারে পয়েন্টের সংখ্যা বৃদ্ধি করেন, তাই আপনি যদি এলোমেলোভাবে 50 পয়েন্ট অভিন্নভাবে চয়ন করেন তবে এটি ঘটতে হবে। অতএব, যদি আপনার যুক্তি সঠিক হয় তবে আমার কাছে অনেকগুলি নমুনা থাকলে পার্টিশন করা সহজ হওয়া উচিত; তা কি তাই?
রাফেল

আমি বিশ্বাস করি আপনি এটি বিপরীত হয়েছে। মাত্রিকতা বাড়িয়ে আমি হাইপারস্পিয়ারের মধ্যে পয়েন্টের সংখ্যা কমিয়ে দিয়েছি। বিভাজন আরও কঠিন হয়ে যায় কারণ দূরত্বের পরিমাপটি মূলত তার অর্থ হারিয়ে ফেলে (উদাহরণস্বরূপ সবকিছুই খুব দূরের।
নিক

আমি বোঝানো: POINTS মোট সংখ্যা ব্যাসার্ধ একটি hypersphere মধ্যে বলে এ এন এন , অর্থাত্ | এন এনএস এন ( কে ) | n এর সাথে বৃদ্ধি পায় । kNn|NnSn(k)|n
রাফেল

এছাড়াও মনে রাখবেন মানুষ মানে যখন তারা উচ্চ-মাত্রিক বৈশিষ্ট্য স্থান পড়ুন নমুনা সংখ্যা হয়, যে , অনেক প্রতিটি বিন্দুতে, এর মাত্রা কম , ( এন < < )। সুতরাং এই সমস্যাগুলিতে আপনি ধরে নিয়েছেন যে আপনার কাছে 'অনেকগুলি নমুনা' নেই। ndn<<d
নিক

আমি দেখতে পাই না যে এটি সংজ্ঞা অনুসারে ধারণ করে; যদিও এটি অভিজ্ঞতার ভিত্তিতে একটি সম্মেলন বলে মনে হচ্ছে।
রাফেল

3

একটি সম্পূর্ণ উত্তর নয়, তবে আপনি উদ্ধৃত উইকিপিডিয়া পৃষ্ঠাতে বলা হয়েছে:

কে-এনএন অ্যালগরিদমের যথার্থতা কোলাহলপূর্ণ বা অপ্রাসঙ্গিক বৈশিষ্ট্যগুলির উপস্থিতি দ্বারা বা মারাত্মক অবনতি হতে পারে বা যদি বৈশিষ্ট্যের স্কেলগুলি তাদের গুরুত্বের সাথে সামঞ্জস্য না করে।

উচ্চতর মাত্রিক বৈশিষ্ট্যযুক্ত জায়গাগুলির উপস্থিতিতে এটির সম্ভাবনা বেড়ে যায়।


তবে আমি মনে করি পিসিএ (নীতি উপাদান উপাদান বিশ্লেষণ) বা মাত্রিকতা হ্রাস এবং অপ্রাসঙ্গিক ডেটা অপসারণের জন্য অন্য কোনও পদ্ধতির সাহায্যে কে-এনএন এখনও কাজ করতে পারে। এবং উইকিপিডিয়া পৃষ্ঠাগুলি বলতে যা বোঝায় তা হ'ল নিষ্ক্রিয় কে-এনএন ব্যর্থ হবে। সুতরাং এটি পর্যালোচনা কাগজটি ব্যাখ্যা করে না।
স্ট্রিন

পিসিএ অবশ্যই কাজ করতে পারে, তবে সব পরিস্থিতিতে নয়।
ডেভ ক্লার্ক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.