বৈশিষ্ট্যগুলির একটি ভেরিয়েবল সংখ্যার সাথে ডেটাসেটগুলির সাথে ডিল করা


14

পরিবর্তনশীল সংখ্যক বৈশিষ্ট্য সহ ডেটা শ্রেণিবদ্ধকরণের জন্য কিছু পদ্ধতি কী কী?

উদাহরণস্বরূপ, এমন একটি সমস্যা বিবেচনা করুন যেখানে প্রতিটি ডেটা পয়েন্ট x এবং y পয়েন্টের ভেক্টর এবং আমাদের প্রতিটি দৃষ্টান্তের জন্য একই পয়েন্টের সংখ্যা নেই। আমরা কি প্রতিটি জোড় x এবং y পয়েন্টের বৈশিষ্ট্য হিসাবে বিবেচনা করতে পারি? বা আমাদের কি কেবলমাত্র পয়েন্টগুলি সংক্ষিপ্ত করা উচিত যাতে প্রতিটি ডেটা পয়েন্টের একটি নির্দিষ্ট সংখ্যক বৈশিষ্ট্য থাকে?


7
প্রদত্ত পয়েন্টের উপস্থিতি বা অনুপস্থিতি কি ডেটা শ্রেণিবদ্ধ করতে সহায়তা করে?
jonsca

উত্তর:


5

আপনি এই পয়েন্টগুলি অনুপস্থিত --- হিসাবে বিবেচনা করতে পারেন ie আসুন ধরে নেওয়া যাক ভেক্টরের সর্বাধিক 20 (x, y) জোড়া এবং নির্দিষ্ট বিন্দুতে 5 (x, y) জোড়া রয়েছে, এক্ষেত্রে বাকি জোড়াটি অনুপস্থিত হিসাবে গণ্য করে, এবং তারপরে অনুপস্থিত পরামিতিগুলির জন্য স্ট্যান্ড্যাটড পদ্ধতি প্রয়োগ করুন:

এই মানক পদ্ধতিগুলি হতে পারে:

  • এমন একটি মডেল ব্যবহার করুন যা প্রাকৃতিক উপায়ে নিখোঁজ পরামিতিগুলি পরিচালনা করে, উদাহরণস্বরূপ সিদ্ধান্তের গাছের মডেলগুলি সেগুলি মোকাবেলা করতে সক্ষম হতে হবে।
  • উপযুক্ত কলামের গড় মানের সাথে অনুপস্থিত প্রতিস্থাপন করুন।
  • অনুপস্থিত মানগুলির 'পূর্বাভাস' দিতে কিছু সহজ মডেল ব্যবহার করুন।

তবে @ জোনসকা পয়েন্ট হিসাবে --- যদি প্রদত্ত পয়েন্টের অনুপস্থিতি উপস্থিতি আপনাকে উদাহরণস্বরূপ কয়েকটি মডেল তৈরির উপাত্তের শ্রেণিবদ্ধ করতে সহায়তা করে, তাদের প্রত্যেকটির মডেল উদাহরণস্বরূপ নির্দিষ্ট সংখ্যক পয়েন্ট রয়েছে।


10

আমি আপনার প্রশ্নটি কীভাবে বুঝতে পারি তা থেকে, ডেটার পয়েন্টগুলি বিনিময়যোগ্য এবং কোনও আদেশক্রমে আসে না, অর্থাত প্রতিটি উদাহরণের জন্য আপনার কাছে পয়েন্টের একটি সেট রয়েছে। এই সেটিংটি "মিসিং ভ্যালু" সেটিং থেকে আলাদা নয় j বর্ণনা করেছেন।

আমি এই সমস্যার জন্য দুটি ব্যবহৃত ব্যবহৃত পদ্ধতি সম্পর্কে জানি যা আসলে আপনার ধারণার উপর ভিত্তি করে। একটি ভাল বেসলাইন সম্ভবত একটি উদাহরণের মধ্যে সমস্ত পয়েন্ট গড় করতে হবে, কিন্তু এটি সাধারণত ভাল কাজ করে না।

  • একক বৈশিষ্ট্যে একাধিক পয়েন্ট একত্রিত করতে, শব্দ ব্যাগ (বা বৈশিষ্ট্যের ব্যাগ) উপস্থাপনাগুলি বেশিরভাগ ক্ষেত্রে ব্যবহৃত হয়, উদাহরণস্বরূপ কম্পিউটার ভিশনে। ধারণাটি হ'ল আপনার প্রশিক্ষণ সংস্থার সমস্ত পয়েন্টকে ক্লাস্টার করা (উদাহরণস্বরূপ কে-মানে ব্যবহার করে) এবং তারপরে প্রতিটি গ্রুপকে তার গুচ্ছ দ্বারা বর্ণনা করা। প্রতিটি উদাহরণের জন্য আপনি তারপরে একটি হিস্টোগ্রাম পাবেন যার উপরে ক্লাস্টারগুলি প্রায়শই ঘটে।

  • সমস্ত জোড়া পয়েন্ট ব্যবহার করতে, আপনি সেট কার্নেল ব্যবহার করতে পারেন। এটি এসভিএম ব্যবহার করে সবচেয়ে ভাল কাজ করতে পারে তবে কার্নেলাইজ করা যেতে পারে বা ইনপুটগুলির মধ্যে সামঞ্জস্যতা ফাংশনটি ব্যবহার করতে পারে এমন কোনও শিখন অ্যালগরিদমের সাথেও কাজ করবে। সেট কার্নেলগুলি মূলত আপনার সেটিংয়ের মতো বৈশিষ্ট্যগুলির দুটি সেটগুলির সাদৃশ্য গণনা করার একটি উপায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.