আনর্ডার্ডযুক্ত শ্রেণিবদ্ধ ভবিষ্যদ্বাণী ভেরিয়েবলের স্তরের সংখ্যা হ্রাস করা


11

আমি একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিতে চাই, এসভিএম, বা এলোমেলো বন, বা অন্য কোনও শ্রেণিবদ্ধকে বলতে চাই। ডেটাসেটের বৈশিষ্ট্যগুলির মধ্যে একটি হল 1000 স্তরের বিশিষ্ট পরিবর্তনশীল। এই পরিবর্তনশীল স্তরের সংখ্যা হ্রাস করার সর্বোত্তম উপায় কী। আর combine.levels()-তে হ্মিস্ক প্যাকেজে ডাকা একটি ফাংশন রয়েছে যা বিরল স্তরের সাথে সংযুক্ত, তবে আমি অন্যান্য পরামর্শগুলি সন্ধান করছিলাম।


শ্রেণীবদ্ধ ভেরিয়েবল কি আনর্ডারড? আপনার কাছে প্রায় কতটি মামলা রয়েছে? শ্রেণীবদ্ধ ভেরিয়েবল জুড়ে ফ্রিকোয়েন্সি বিতরণ কী?
জেরোমি অ্যাংলিম 6'11

স্তরগুলি অর্ডার করা হয় না। আমার প্রায় 10,000 টি পর্যবেক্ষণ রয়েছে। ফ্রিকোয়েন্সি বিতরণ নিম্নরূপ: পর্যায়ের A প্রায় 11% পর্যবেক্ষণে উপস্থিত হয়। স্তর স্তর 8% এ উপস্থিত হয়। স্তর সি 5% উপস্থিত হয়। এই স্তরের প্রায় 15 টি ডেটাসেটের পর্যবেক্ষণগুলির 50% কভার করে।
সাবুনিম

উত্তর:


9

এটি কীভাবে করা ভাল আপনি যে কার্য সম্পাদন করছেন তার উপর নির্ভর করে দুর্দান্তভাবে পরিবর্তিত হতে চলেছে , তাই কোন কার্য-স্বতন্ত্র উপায়ে সেরা কি হবে তা বলা অসম্ভব।

আপনার স্তরগুলি যদি সাধারণ হয় তবে চেষ্টা করার জন্য দুটি সহজ জিনিস রয়েছে:

  1. তাদের বিন। উদাহরণস্বরূপ, 0 = (0 250), 1 = (251 500) ইত্যাদি আপনি সীমাটি নির্বাচন করতে চাইতে পারেন যাতে প্রতিটি বিনের সমান সংখ্যক আইটেম থাকে।
  2. আপনি স্তরগুলির লগ রূপান্তর নিতে পারেন। এটি রেঞ্জটি নীচে স্কোয়াশ করবে।

স্তরগুলি যদি অर्डিনাল না হয় তবে আপনি আপনার ডেটাসেটের অন্যান্য বৈশিষ্ট্য / ভেরিয়েবলের উপর ভিত্তি করে স্তরগুলি ক্লাস্টার করতে পারেন এবং পূর্বের স্তরের জন্য ক্লাস্টার আইডির বিকল্প দিতে পারেন। ক্লাস্টারিং অ্যালগরিদম হিসাবে এটি করার অনেকগুলি উপায় রয়েছে, তাই ক্ষেত্রটি প্রশস্ত। আমি এটি পড়তে হিসাবে, এই কি combine.levels()করছে। আপনি একইভাবে kmeans()বা ব্যবহার করে করতে পারেন prcomp()। (আপনি পরবর্তী সময়ে নতুন ডেটাপয়েন্টের জন্য ক্লাস্টারগুলির পূর্বাভাস দেওয়ার জন্য কোনও শ্রেণিবদ্ধ প্রশিক্ষণ দিতে পারেন / করতে পারেন))


3
শ্রেণিবদ্ধ পরিবর্তনশীলটিকে এলোমেলো প্রভাব হিসাবে গণ্য করা ছাড়া এটি হ্যান্ডেল করার আমি খুব ভাল উপায় সম্পর্কে জানি না। আপনি ভেরিয়েবলের উপর একটি চতুষ্কোণ (রিজ) জরিমানা প্রক্রিয়া ব্যবহার করে তা অনুকরণ করতে পারেন। আমার রেগ্রেশন মডেলিং স্ট্র্যাটেজি বই এবং কোর্স নোটগুলি এতে যায়।
ফ্র্যাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল দুটি পদ্ধতির কথা মাথায় আসে: পলিটাইমাস ভেরিয়েবল লেটেন্ট ক্লাস অ্যানালাইসিস একটি (ক্র্যান.আর- প্রজেক্ট.আর.ইউবি / প্যাকেজ / পোলিএসি / পোলসিএ.পিডিএফ) হবে, চিঠিপত্রের বিশ্লেষণ অন্য একটি (যেমন, স্টেটমেডথস.net / এডভিস্ট্যাটস / সিএ)। এইচটিএমএল)।
মাইক হান্টার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.