মাত্রিকতা অভিশাপগুলি কিছু মডেলকে অন্যের চেয়ে বেশি প্রভাবিত করে?


15

আমি মাত্রাগুলি অভিশাপ সম্পর্কে যে জায়গাগুলি পড়ছি সেগুলি প্রাথমিকভাবে কেএনএন এবং সাধারণভাবে রৈখিক মডেলগুলির সাথে একত্রে এটি ব্যাখ্যা করে। আমি নিয়মিত ক্যাগলে শীর্ষস্থানীয় র‌্যাটার্সকে ডেটাসেটে এমন হাজার হাজার বৈশিষ্ট্য ব্যবহার করে দেখি যা খুব কমই 100 কে ডেটা পয়েন্ট থাকে। এগুলি সাধারণত অন্যদের মধ্যে বুস্টেড গাছ এবং এনএন ব্যবহার করে। এটি অনেকগুলি বৈশিষ্ট্য খুব বেশি বলে মনে হয় এবং আমি মনে করি তারা মাত্রিক অভিশাপ দ্বারা প্রভাবিত হবে। তবে এই মডেলগুলি তাদেরকে প্রতিযোগিতায় শীর্ষস্থানীয় করে তোলে বলে মনে হয় না। সুতরাং, আমার মূল প্রশ্নে ফিরে আসুন - কিছু মডেলগুলি কি অন্যদের চেয়ে মাত্রিক অভিশাপ দ্বারা প্রভাবিত হয়?

বিশেষত, আমি নিম্নলিখিত মডেলগুলিতে আগ্রহী (কেবলমাত্র এটির কারণেই আমি সচেতন / ব্যবহার করছি):

  • লিনিয়ার এবং লজিস্টিক রিগ্রেশন
  • সিদ্ধান্ত গাছ / র‌্যান্ডমফোরেস্ট / বুস্টড ট্রি
  • নিউরাল নেটওয়ার্ক
  • SVM
  • kNN
  • কে-মানে ক্লাস্টারিং

সংক্ষিপ্ত উত্তর অবশ্যই হ্যাঁ, তবে আপনি সম্ভবত এমন মডেলগুলি চান যা আপনি আগ্রহী? আমি নিশ্চিত যে সিভি সম্প্রদায় আপনাকে হাজার হাজার বিভিন্ন ধরণের মডেল সম্পর্কে জানাতে পারে যা মাত্রিকতার অভিশাপ দ্বারা প্রভাবিত হয়। সুতরাং নির্দিষ্ট ধরণের মডেলগুলিতে আপনার দৃষ্টি নিবদ্ধ করা এই প্রশ্নের উত্তর দিতে সহায়তা করতে পারে।

@ রুস্টি স্ট্যাটাস্টিকিয়ান - আমি আগ্রহী এমন কয়েকটি মডেল যুক্ত করেছি
দিলীপ কুমার পাচিগোল্লা

আমি এই প্রশ্নে বেশ আগ্রহী কিন্তু এটি উত্তরহীন থেকে যায়। আমি কীভাবে এটিকে দৃশ্যমানতার মধ্যে আনতে পারি, উত্তর পেতে?
দিলিপ কুমার পাচিগোল্লা

উত্তর:


17

সাধারণভাবে, মাত্রিকতার অভিশাপ একটি স্থানের মাধ্যমে অনুসন্ধানের সমস্যাটিকে আরও অনেক কঠিন করে তোলে এবং বেশিরভাগ অ্যালগরিদমকে প্রভাবিত করে যা তাদের ভেক্টর স্পেস বিভাজনের মাধ্যমে "শিখায়"। আমাদের অপ্টিমাইজেশান সমস্যার মাত্রা তত বেশি হ'ল আমাদের প্রয়োজনীয় স্থানটি পূরণ করার জন্য আমাদের আরও বেশি ডেটা প্রয়োজন।

সাধারণ রৈখিক মডেল

β^=(XX)1Xy

সিদ্ধান্ত গাছগুলি
সিদ্ধান্ত গাছগুলিও মাত্রিকতার অভিশাপে ভোগে। সিদ্ধান্তের গাছগুলি প্রতিটি নোডে সরাসরি নমুনা স্থানকে বিভাজন করে। নমুনার স্থান বাড়ার সাথে সাথে ডেটা পয়েন্টগুলির মধ্যে দূরত্ব বাড়তে থাকে, যা "ভাল" বিভাজন খুঁজে পাওয়া আরও শক্ত করে তোলে।

এলোমেলো বন
এলোমেলো বনগুলি তাদের ভবিষ্যদ্বাণী করতে সিদ্ধান্ত গাছের সংগ্রহ ব্যবহার করে। তবে আপনার সমস্যার সমস্ত বৈশিষ্ট্য ব্যবহার না করে পৃথক গাছগুলি কেবলমাত্র বৈশিষ্ট্যের একটি উপসেট ব্যবহার করে। এটি প্রতিটি গাছ যে স্থানটিকে সর্বোত্তম করে তুলছে তা হ্রাস করে এবং মাত্রিকতার অভিশাপের সমস্যা মোকাবেলায় সহায়তা করতে পারে।


অ্যাডা বুস্টের মতো বুস্টেড ট্রি-এর বুস্টিং অ্যালগরিদমগুলি মাত্রিকতার অভিশাপে ভুগছে এবং নিয়মিতকরণ ব্যবহার না করা হলে ওভারফিটের ঝোঁক থাকে। আমি গভীরতায় যাব না, কারণ পোস্টটি কি অ্যাডাবোস্ট কম বা বেশি বেশি ঝুঁকির ঝুঁকিতে রয়েছে? কেন আমি চেয়ে ভাল কারণ ব্যাখ্যা।

নিউরাল নেটওয়ার্ক
নিউরাল নেটওয়ার্কগুলি এই অর্থে অদ্ভুত যে তারা উভয়ই আর্কিটেকচার, অ্যাক্টিভেশনস, গভীরতা ইত্যাদির উপর নির্ভরশীল মাত্রিকতার অভিশাপ দ্বারা প্রভাবিত হয় না এবং তাই মাত্রিকতার অভিশাপটি পুনরাবৃত্তি করতে সমস্যা হ'ল একটি বিশাল পরিমাণের পয়েন্ট উচ্চমাত্রায় প্রয়োজনীয় একটি ইনপুট স্থান আবরণ মাত্রা। গভীর স্নায়বিক নেটওয়ার্কগুলির ব্যাখ্যা করার একটি উপায় হ'ল সমস্ত স্তরটি খুব শেষ স্তরটিকে উচ্চ মাত্রিক বহুগুণকে একটি নিম্ন মাত্রিক বহুগুণে জটিল প্রক্ষেপণ হিসাবে প্রত্যাশা করে যেখানে শেষ স্তরটি শীর্ষে শ্রেণিবদ্ধ হয়। সুতরাং উদাহরণস্বরূপ শ্রেণিবদ্ধকরণের জন্য একটি বিবর্তনমূলক নেটওয়ার্কে যেখানে শেষ স্তরটি একটি সফটম্যাক্স স্তর, আমরা আর্কিটেকচারটি একটি ছোট মাত্রায় একটি অ-রৈখিক প্রজেকশন এবং তারপরে একটি প্রক্ষেপণে বহু-লজিক্যাল লজিস্টিক রিগ্রেশন (সফটম্যাক্স স্তর) হিসাবে ব্যাখ্যা করতে পারি। সুতরাং এক অর্থে আমাদের উপাত্তগুলির সংকুচিত উপস্থাপনা আমাদেরকে মাত্রিকতার অভিশাপকে আটকানোর অনুমতি দেয়। আবার এটি একটি ব্যাখ্যা, বাস্তবে মাত্রিকতার অভিশাপ প্রকৃতপক্ষে স্নায়বিক নেটওয়ার্কগুলিকে প্রভাবিত করে, তবে উপরে বর্ণিত মডেলগুলির একই স্তরে নয়।


অতিরিক্ত নিয়মিতকরণ হওয়ার কারণে এসভিএম এসভিএম সাধারণ রৈখিক মডেলগুলির বেশি পরিমাণে চাপ না দেয়। আরও বিশদের জন্য এই পোস্টটি দেখুন এসভিএম, ওভারফিটিং, মাত্রিকতার অভিশাপ

কে-এনএন, কে-মিনস

কে-গড় এবং কে-এনএন উভয়ই মাত্রিকতার অভিশাপ দ্বারা প্রভাবিত হয়েছে, যেহেতু উভয়ই এল 2 স্কোয়ার দূরত্ব পরিমাপ ব্যবহার করে। মাত্রাগুলির পরিমাণ বাড়ার সাথে সাথে বিভিন্ন ডেটা-পয়েন্টের মধ্যকার দূরত্বও বৃদ্ধি পায়। এই কারণেই দূরত্ব আরও বর্ণনামূলক হবে আশা করে আরও স্থান কভার করার জন্য আপনার আরও বেশি পরিমাণের পয়েন্ট প্রয়োজন।

মডেলগুলি সম্পর্কে সুনির্দিষ্ট জিজ্ঞাসা করুন কারণ আমার উত্তরগুলি বেশ সাধারণ। আশাকরি এটা সাহায্য করবে.


হাই আমেন গ্রেট সাসিনেক্ট ব্যাখ্যাগুলি আমি জিজ্ঞাসা করা সমস্ত মডেলের জন্য। রৈখিক মডেলগুলির বিষয়গুলি এখনও আমার কাছে পরিষ্কার নয়: লিনিয়ার মডেলগুলি কি ন-মাত্রার একই নম্বরের জন্য কে-এনএন এবং কে-ম্যানস মডেলের চেয়ে ভাল বা খারাপ সম্পাদন করে? এবং যখন আপনি বলেছেন যে লিনিয়ার মডেলগুলির জন্য কোলাইনারিটিটি একটি সমস্যা, আপনি কি বোঝাচ্ছেন যে কোনও (বা ন্যূনতম) সহৈখিকতা না থাকলে উচ্চ মাত্রা রৈখিক মডেলগুলির কোনও সমস্যা নয়?
দিলিপ কুমার পাচিগোল্লা

লিনিয়ার মডেলগুলি কোনও স্বেচ্ছাসেবী সমস্যার জন্য কে-এনএন বা কে-মাধ্যমের চেয়ে ভাল পারফরম্যান্স করবে কিনা তা নির্ধারণ করা শক্ত। আপনার সমস্যা যদি রৈখিকভাবে পৃথকযোগ্য হয় তবে আমি আমার বেটিকে রৈখিক মডেলটিতে রাখব, যদি আপনার স্থানটি আরও জটিল হয় তবে আমি কে-এনএন দিয়ে যাব। তাত্ক্ষণিকতা মাত্রিকতার অভিশাপের সমস্যাটিকে আরও খারাপ করে তোলে, এমনকি তাত্পর্য ছাড়াই, মাত্রিকতার অভিশাপ এখনও প্রযোজ্য। কে-মেনসের কে-এনএন এর সমান পরিমাণে ভুগতে হবে কারণ তারা উভয়ই প্রতিবেশী চালিত, এবং সাধারণত একই দূরত্ব ফাংশনটি ব্যবহার করে। বাস্তবে সিওডি কতটা খারাপ তা নির্ধারণ করা শক্ত। আশাকরি এটা সাহায্য করবে!
আর্মেন ​​অহজন্যান

আপনার মাত্রিকতার অভিশাপের সংজ্ঞা (সিওডি) কী? আপনার উত্তরটি মনে হয় যে লিনিয়ার মডেলগুলি সিওডি থেকে সবচেয়ে বেশি ক্ষতিগ্রস্থ হয়, এটি বিভ্রান্তিকর: একটি বৈশ্বিক পদ্ধতি হওয়ায়, লিনিয়ার মডেলগুলি কেএনএন-এর মতো স্থানীয়ীকৃত পদ্ধতির তুলনায় অনেক কম ভোগ করে।
মতিফু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.