মাত্রিকতার অভিশাপ বুঝতে আমার সমস্যা হচ্ছে। বিশেষত, scikit-learn
পাইথনের টিউটোরিয়াল করার সময় আমি এটি পেরিয়ে এসেছি। কেউ দয়া করে নীচে সহজ পদ্ধতিতে ব্যাখ্যা করতে পারেন? দুঃখিত আমি দীর্ঘকাল ধরে বোঝার চেষ্টা করে যাচ্ছি এবং বুঝতে পারছি না কীভাবে তারা দক্ষ কেএনএন অনুমানক অর্জনের জন্য প্রশিক্ষণের কয়েকটি সংখ্যার গণনা নিয়ে এসেছিল?
এখানে ব্যাখ্যা:
একটি অনুমানকারী কার্যকর হওয়ার জন্য, প্রতিবেশী পয়েন্টগুলির মধ্যে দূরত্বের দরকার কিছু মান ডি থেকে কম হওয়া, যা সমস্যার উপর নির্ভর করে। একটি মাত্রায় এটির জন্য গড়ে n ~ 1 / d পয়েন্ট প্রয়োজন। উপরের কেএনএন উদাহরণের প্রসঙ্গে, যদি ডেটা 0 থেকে 1 অবধি এবং n প্রশিক্ষণ পর্যবেক্ষণ সহ মানগুলির একটি মাত্র বৈশিষ্ট্য দ্বারা বর্ণনা করা হয়, তবে নতুন ডেটা 1 / n এর বাইরে আর থাকবে না। অতএব, নিকটবর্তী প্রতিবেশী সিদ্ধান্তের নিয়মটি ক্লাসের বৈশিষ্ট্যটির বৈচিত্রের পরিবর্তনের স্কেলের তুলনায় 1 / এন ছোট হওয়ার সাথে সাথে কার্যকর হবে।
যদি বৈশিষ্ট্যের সংখ্যা পি হয় তবে আপনার এখন n ~ 1 / d ^ p পয়েন্ট প্রয়োজন। ধরা যাক যে আমাদের এক মাত্রায় 10 পয়েন্ট প্রয়োজন: [0, 1] স্থান প্রশস্ত করার জন্য এখন 10 ^ p পয়েন্টের প্রয়োজন। পি বড় হওয়ার সাথে সাথে, একটি ভাল অনুমানকারীগুলির জন্য প্রয়োজনীয় প্রশিক্ষণের পয়েন্টগুলির সংখ্যা দ্রুত বৃদ্ধি পায় grows
সম্পাদনা: এছাড়াও টিলড ( ~
) যে উদাহরণটিতে আনুমানিক উপস্থাপন করে? বা পাইথন টিল্ড অপারেটর?