রিগ্রেশনের জন্য উচ্চ কার্ডিনালিটি শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির সাথে বৈশিষ্ট্যটির গুরুত্ব (সংখ্যাসূচক নিম্নোক্ত পরিবর্তনশীল)


12

রিগ্রেশন সমস্যার জন্য কিছু অভিজ্ঞতাবাদী বৈশিষ্ট্য নির্বাচন করার জন্য আমি র্যান্ডম অরণ্য থেকে বৈশিষ্ট্য আমদানি ব্যবহার করার চেষ্টা করছিলাম যেখানে সমস্ত বৈশিষ্ট্যগুলি শ্রেণিবদ্ধ এবং তাদের অনেকের অনেকগুলি স্তর রয়েছে (100-1000 এর ক্রম অনুসারে)। এক-হট এনকোডিং প্রতিটি স্তরের জন্য একটি ডামি ভেরিয়েবল তৈরি করে এই বৈশিষ্ট্যটি আমদানি প্রতিটি স্তরের জন্য এবং প্রতিটি বৈশিষ্ট্য (কলাম) নয়। এই বৈশিষ্ট্য আমদানিকে একত্রিত করার একটি ভাল উপায় কী?

আমি কোনও বৈশিষ্ট্যের সমস্ত স্তরের গড় সংমিশ্রণ বা গড় গুরুত্ব পাওয়ার বিষয়ে চিন্তা করেছি (সম্ভবত পূর্ববর্তী আরও বৈশিষ্ট্যযুক্ত সেই বৈশিষ্ট্যগুলির প্রতি পক্ষপাতদুষ্ট হবে)। এই ইস্যুতে কোন রেফারেন্স আছে?

বৈশিষ্ট্যের সংখ্যা হ্রাস করতে অন্য কেউ কী করতে পারেন? আমি গ্রুপ লাসো সম্পর্কে সচেতন, বিজ্ঞান-শিখার জন্য সহজে ব্যবহারের মতো কিছুই খুঁজে পাইনি।


শ্রেণিবদ্ধ ভেরিয়েবলের প্রতিটি স্তরের পরিবর্তনশীল গুরুত্ব সংশ্লেষ করা কি অর্থাত এই প্রশ্নের উত্তর দিতে পারে?
24

@ দেখুন 24 না আপনি কেবল তাদের সমষ্টি করতে পারবেন না: stats.stackexchange.com/questions/314567/…
ড্যান

উত্তর:


5

এটি কীভাবে আপনি ওয়ান-হট এনকোডিং করছেন তা নির্ভর করে। এর জন্য অনেক অটোমেটেড সমাধানগুলিতে সমস্ত রূপান্তরিত বুলিয়ানকে একটি প্যাটার্নের সাথে নামকরণ করা হবে যাতে AZ মানগুলির সাথে "অক্ষর" নামে একটি শ্রেণিবদ্ধ ভেরিয়েবল এর মত শেষ হয়:

চিঠি_এ, চিঠি_বি, চিঠি_সি, চিঠি_ডি, ....

যদি আপনি বৈশিষ্ট্যটির গুরুত্ব খুঁজে বের করার পরে আপনি বৈশিষ্ট্যটির একটি অ্যারে এবং সম্পর্কিত ওজন / গুরুত্ব পেয়ে থাকেন তবে আমি অ্যারেটি বিশ্লেষণ করব এবং সম্ভবত "লেটার%" দিয়ে শুরু হওয়া কোনও কিছুর জন্য বৈশিষ্ট্যটির গুরুত্বের ওজনগুলি যোগ করব।


3
সমষ্টিটি কি আরও স্তরের এই বৈশিষ্ট্যগুলিকে সুবিধা দিচ্ছে না?
ব্যবহারকারী 90772

হুঁ, ভাল পয়েন্ট। সম্ভবত এটির যোগফল যোগ করুন তারপরে একটি "গড়" গুরুত্ব পেতে স্তর / এক-হট এনকোড ভেরিয়েবলের সংখ্যা দ্বারা ভাগ করুন।
CalZ

2
আমি এটি সম্পর্কে আরও কিছু ভেবেছি এবং এটি কীভাবে গুরুত্বপূর্ণ তা কীসের উপর নির্ভর করে। কিছু ক্ষেত্রে, প্রতিটি বৈশিষ্ট্যের মান একটি আপেক্ষিক ওজন যেখানে পুরো সেটটির সমষ্টি 1 হয় In সেক্ষেত্রে, আমি মনে করি এটি এক-হট বৈশিষ্ট্যগুলি যোগ করতে অর্থবোধ করবে। যদি বৈশিষ্ট্যের জন্য স্কোরটি যদি রিগ্রেশন সহগের মতো এবং নেট প্রভাবের সাথে তুলনামূলকভাবে ওজনযুক্ত না হয় তবে গড় বাড়ানো সম্ভবত আরও ভাল better
CalZ

উত্তর দেওয়ার জন্য আপনাকে ধন্যবাদ। এই ক্ষেত্রটিতে আমি বেশ নতুন, আমি ভেবেছিলাম যে এটি ডেটা সায়েন্সের লোকদের জন্য একটি স্ট্যান্ডার্ড জিনিস তবে এটি কোনও কলামের বৈশিষ্ট্যটির মূল্যায়ন করার জন্য আমার করা উচিত নয় বা এই পোস্টটি যথেষ্ট মতামত পায়নি। যাই হোক না কেন, ধন্যবাদ!
ব্যবহারকারী 90772

1
অনেক লোক মডেলটির ইন্টার্নালগুলি একটি ব্ল্যাক বক্স হিসাবে দেখছেন এবং তার পরিবর্তে পারফরম্যান্সের মূল্যায়ন করেছেন। নির্দিষ্ট কিছু ক্ষেত্রে (যেমন নিউরাল নেটওয়ার্ক) এটি কারণ আপনি সত্যই এটি গভীরভাবে পরীক্ষা করতে পারবেন না। কারও জন্য যেখানে আপনি সহজেই কোন বৈশিষ্ট্যটি গুরুত্বপূর্ণ তা একটি দর্শন পেতে পারেন (যেমন লিনিয়ার রিগ্রেশন), আপনি সহজেই বিভ্রান্ত হতে পারেন (দেখুন: stats.stackexchange.com/questions/105114/… )। আমি মনে করি সে কারণেই লোকেরা ব্যক্তিগত বৈশিষ্ট্যটির গুরুত্ব দেখার থেকে মাঝে মাঝে লজ্জা পায়।
CalZ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.