পাঠ্য ডেটা বিভাগগুলিতে রূপান্তর করুন। বিভাগগুলিতে কতটা তথ্য থাকা উচিত তার জন্য আপনি বিভিন্ন বিকল্প চেষ্টা করতে পারেন তবে প্রতিটি পরিবর্তনশীলের জন্য নির্দিষ্ট বিভাগ থাকতে হবে। উদাহরণ হিসাবে, আমি একটি পরিবর্তনশীল ধরে নেব যা লোকদের কাজ করার পক্ষে পছন্দনীয় উপায় সম্পর্কিত জরিপ প্রশ্নাবলীর একটি পাঠ্য ক্ষেত্র থেকে এসেছে।
প্রথমে, আমাদের নিশ্চিত করা দরকার যে অনুরূপ অর্থ সহ উত্তর একইভাবে লেখা হয় এবং একই বিভাগের অন্তর্ভুক্ত (যেমন "বাইক দ্বারা", "সাইকেল চালানো", "সাইকেল চালিয়ে" সমস্ত একই অর্থ রয়েছে)। তারপরে আপনি আরও কম বিশদ বিভাগে (যেমন "ট্রাম", "মেট্রো" এবং "বাস" কে "পাবলিক ট্রান্সপোর্টের উপায়ে" একীভূত করার চেষ্টা করতে পারেন) বা আরও বেশি (যেমন "হাঁটাচলা", "জগিং", "সাইকেলিং" " আপনি কী চেষ্টা করার চেষ্টা করছেন তার উপর নির্ভর করে শারীরিক কার্যকলাপ ")।
এমনকি আপনি আপনার ডেটাসেটে কিছু আলাদা সংমিশ্রণ রাখতে পারেন এবং তারপরে পরবর্তী পদক্ষেপগুলি নির্ধারণ করবে কোনটি বিশ্লেষণের জন্য ব্যবহৃত হবে। অর্ডারযুক্ত ভেরিয়েবলগুলিতে যেখানে পাঠ্য ডেটা "অনুবাদ" করা যায় তা নিশ্চিত করে নিন যে আপনি এটি করেছেন (উদাহরণস্বরূপ যদি আপনার "ছোট, মাঝারি, উচ্চ" এটি "1,2,3" তে রূপান্তরিত হয়)।
Principal Component Analysis
বাNon-Negative Matrix Factorization
ভেরিয়েবলের সংখ্যা হ্রাস করবে, স্পার্স ডেটা সমৃদ্ধ করবে এবং সমস্ত ভেরিয়েবলকে পরিমাণগতভাবে রূপান্তর করবে। তদুপরি, মাত্রিকতা হ্রাস মডেলের মানের মূল্যায়ন করে, প্রশ্ন লেখক পাঠ্য ভেরিয়েবলগুলির কার্যকারিতা অনুমান করতে পারেন।