সাধারণ বা নামমাত্র ডেটাতে বিভাগগুলি মার্জ / কমানোর পদ্ধতি?

14

নামমাত্র বা অর্ডিনাল ডেটাতে বিভাগের সংখ্যা হ্রাস করার জন্য আমি কোনও পদ্ধতি খুঁজতে লড়াই করছি।

উদাহরণস্বরূপ, আসুন আমরা বলি যে আমি একটি ডেটাসেটে একটি রিগ্রেশন মডেল তৈরি করতে চাই যেখানে বেশ কয়েকটি নামমাত্র এবং অর্ডিনাল ফ্যাক্টর রয়েছে। যদিও এই পদক্ষেপে আমার কোনও সমস্যা নেই, আমি প্রায়শই এমন পরিস্থিতিতে চলে যাই যেখানে নামমাত্র বৈশিষ্ট্যটি প্রশিক্ষণ সেটে পর্যবেক্ষণ ছাড়াই থাকে তবে পরে বৈধতা ডেটাসেটে উপস্থিত থাকে। এটি স্বাভাবিকভাবেই ত্রুটির দিকে পরিচালিত করে যখন মডেলটি (এতদূর) অদেখা কেসগুলির সাথে উপস্থাপন করা হয়। আরও কয়েকটি পরিস্থিতি যেখানে আমি বিভাগগুলি সংযুক্ত করতে চাই তা কেবল তখন যখন কয়েকটি পর্যবেক্ষণের সাথে অনেকগুলি বিভাগ থাকে।

সুতরাং আমার প্রশ্নগুলি হ'ল:

আমি যখন উপলব্ধি করেছি যে তারা উপস্থাপন করে এমন পূর্ব-বাস্তব পটভূমি তথ্যের উপর ভিত্তি করে অনেক নামমাত্র (এবং অর্ডিনাল) বিভাগগুলি একত্রিত করা ভাল, তবে কি পদ্ধতিগত পদ্ধতি ( Rপ্যাকেজগুলি পছন্দনীয়) উপলব্ধ?
কাট-অফ থ্রেশহোল্ড ইত্যাদি সম্পর্কে আপনি কোন নির্দেশিকা এবং পরামর্শগুলি করবেন?
সাহিত্যের সর্বাধিক জনপ্রিয় সমাধানগুলি কী কী?
একটি নতুন, "OTHERS" বিভাগের সাথে ছোট নামমাত্র বিভাগগুলি সংযুক্তকরণ ছাড়াও কী অন্যান্য কৌশল আছে?

আপনার যদি অন্যান্য পরামর্শও থাকে তবে বিনা দ্বিধায় চিম করুন।

r categorical-data dimensionality-reduction many-categories

— ফিগারো
সূত্র

সম্পর্কিত প্রশ্নের দৃষ্টিভঙ্গি রাখুন

— kjetil b halvorsen

11

এটি আপনার দ্বিতীয় প্রশ্নের একটি প্রতিক্রিয়া।

আমি সন্দেহ করি যে এই ধরণের সিদ্ধান্তের সঠিক দৃষ্টিভঙ্গি মূলত শৃঙ্খলাবদ্ধ নিয়মাবলী এবং আপনার কাজের উদ্দেশ্যে দর্শকের প্রত্যাশা দ্বারা নির্ধারিত হবে। একজন সমাজ বিজ্ঞানী হিসাবে আমি প্রায়শই জরিপ (বা জরিপের মতো) ডেটা নিয়ে কাজ করি এবং যখন আমি সাধারণ স্কেল বা শ্রেণিবদ্ধ ভেরিয়েবলগুলি ভেঙে ফেলি তখন আমি সর্বদা সংক্ষিপ্ত এবং ডেটা-চালিত লজিকগুলিতে ভারসাম্য বজায় রাখার চেষ্টা করি। অন্য কথায়, আমি আইটেমগুলিকে ভেঙে ফেলার আগে আইটেমগুলির সংমিশ্রণের সাথে তার পদার্থের সাথে সাথে প্রতিক্রিয়াগুলির বিতরণের ক্ষেত্রে কী কী সংমিশ্রণগুলি তা বিবেচনা করার জন্য যথাসাধ্য চেষ্টা করব।

একটি নির্দিষ্ট (অর্ডিনাল) জরিপ প্রশ্নের একটি সাম্প্রতিক উদাহরণ এখানে পাঁচ-পয়েন্ট ফ্রিকোয়েন্সি স্কেল জড়িত:

আপনি আপনার সম্প্রদায়ের কোনও ক্লাব বা সংস্থার সভাগুলিতে কতবার উপস্থিত হন?

না

বছরে কয়েকবার

মাসে এক বার

মাসে কয়েকবার

সপ্তাহে বা আরও একবার

এই মুহুর্তে আমার কাছে ডেটা উপলব্ধ নেই, তবে ফলাফলগুলি স্কেলের "কখনই না" শেষের দিকে দৃ strongly়ভাবে আঁকানো ছিল। ফলস্বরূপ, আমার সহ-লেখক এবং আমি দুটি গ্রুপে প্রতিক্রিয়াগুলি বেছে নিতে বেছে নিয়েছিলাম: "মাসে একবার বা তারও বেশি" এবং "মাসে একবারেও কম।" ফলস্বরূপ (বাইনারি) পরিবর্তনশীল আরও সমানভাবে বিতরণ করা হয়েছিল এবং ব্যবহারিক দিক থেকে একটি অর্থপূর্ণ পার্থক্য প্রতিফলিত হয়েছিল : যেহেতু অনেকগুলি ক্লাব এবং সংস্থাগুলি একমাসে একাধিকবার দেখা করে না, তাই বিশ্বাস করার উপযুক্ত কারণ রয়েছে যে লোকেরা কমপক্ষে প্রায়শই যে সভাগুলিতে উপস্থিত থাকে এই জাতীয় গোষ্ঠীর "সক্রিয়" সদস্যরা যারা কম ঘন ঘন উপস্থিত হন (বা কখনই নয়) "নিষ্ক্রিয়"।

সুতরাং আমার অভিজ্ঞতায়, এই সিদ্ধান্তগুলি কমপক্ষে বিজ্ঞানের মতো শিল্প। এটি বলেছিল, আমি সাধারণত কোনও মডেল ফিট করার আগে এটি করার চেষ্টা করি, যেহেতু আমি এমন একটি শৃঙ্খলে কাজ করি যেখানে ডেটা মাইনিং এবং অত্যন্ত অ-বৈজ্ঞানিক (মজার সময়!) হিসাবে অন্য কোনও কিছু দেখা হয় (নেতিবাচকভাবে)।

এই বিষয়টি মনে রেখে, আপনি এই কাজের জন্য কী ধরণের শ্রোতার কথা মনে করছেন তা সম্পর্কে যদি আপনি আরও কিছুটা বলতে পারেন তবে এটি সাহায্য করবে। আপনার ক্ষেত্রের কয়েকটি বিশিষ্ট পদ্ধতি পাঠ্যপুস্তকগুলির পর্যালোচনা করা আপনার পক্ষেও আগ্রহী কারণ তারা প্রদত্ত গবেষণা সম্প্রদায়ের মধ্যে "স্বাভাবিক" আচরণের জন্য কী পাস তা পরিষ্কার করে বলতে পারে।

— ashaw
সূত্র

5

আশা আলোচনার ধরণের পদ্ধতির তুলনামূলকভাবে আরও নিয়মিত পদ্ধতিতে বাড়ে। তবে আমি এটিও মনে করি যে পদ্ধতিগতভাবে আপনি আলগোরিদিমকে বোঝায়। এখানে ডেটা মাইনিং সরঞ্জামগুলি একটি শূন্যস্থান পূরণ করতে পারে। একটির জন্য, এসপিএসএসের ডিসিশন ট্রি মডিউলটিতে নির্মিত চি-স্কোয়ার্ড অটোমেটেড ইন্টারেক্টেশন সনাক্তকরণ (CHAID) পদ্ধতি রয়েছে; এটি, ব্যবহারকারী দ্বারা নির্ধারিত নিয়ম অনুসারে, ভবিষ্যদ্বাণী ভেরিয়েবলগুলির অর্ডিনাল বা নামমাত্র বিভাগগুলিকে ভেঙে ফেলতে পারে যখন তারা ফলাফল পরিবর্তনশীলের সাথে একই মান দেখায় (এটি ক্রমাগত বা নামমাত্রই হোক)। এই নিয়মগুলি গ্রুপ আকারের উপর নির্ভর পারে ধসে হচ্ছে বা ধ্বসে দ্বারা তৈরি করা হচ্ছে, বা পিসম্পর্কিত পরিসংখ্যান পরীক্ষার মূল্য। আমি বিশ্বাস করি কিছু শ্রেণিবদ্ধকরণ এবং রিগ্রেশন ট্রি (কার্ট) প্রোগ্রামগুলি একই কাজ করতে পারে। অন্যান্য উত্তরদাতাদের নিউরাল নেটওয়ার্ক বা বিভিন্ন ডেটা মাইনিং প্যাকেজগুলির মাধ্যমে সরবরাহ করা অন্যান্য অ্যাপ্লিকেশন দ্বারা সম্পাদিত অনুরূপ ফাংশন সম্পর্কে কথা বলতে সক্ষম হওয়া উচিত।

— rolando2
সূত্র

দুর্দান্ত পয়েন্ট, @ রোল্যান্ডো - যেহেতু মূল পোস্টটি প্রশিক্ষণ এবং বৈধতা ডেটাসেটগুলিকে বোঝায় আমি সন্দেহ করি যে আপনার প্রতিক্রিয়াটি আসলে @ ফিগারোর জন্য আরও ব্যবহারযোগ্য হতে পারে।

— আশা

আপনার মূল্যবান ইনপুট জন্য উভয় ধন্যবাদ। @ রোল্যান্ডো 2 আপনি যেখানে আমার দ্ব্যর্থক শব্দটির কথা ঠিক সেখানেই আলগোরিদিমিকটি আমার পক্ষে লক্ষ্য ছিল।

— ফিগারো