পাঠ্য ডেটা বিভাগগুলিতে রূপান্তর করুন। বিভাগগুলিতে কতটা তথ্য থাকা উচিত তার জন্য আপনি বিভিন্ন বিকল্প চেষ্টা করতে পারেন তবে প্রতিটি পরিবর্তনশীলের জন্য নির্দিষ্ট বিভাগ থাকতে হবে। উদাহরণ হিসাবে, আমি একটি পরিবর্তনশীল ধরে নেব যা লোকদের কাজ করার পক্ষে পছন্দনীয় উপায় সম্পর্কিত জরিপ প্রশ্নাবলীর একটি পাঠ্য ক্ষেত্র থেকে এসেছে।
প্রথমে, আমাদের নিশ্চিত করা দরকার যে অনুরূপ অর্থ সহ উত্তর একইভাবে লেখা হয় এবং একই বিভাগের অন্তর্ভুক্ত (যেমন "বাইক দ্বারা", "সাইকেল চালানো", "সাইকেল চালিয়ে" সমস্ত একই অর্থ রয়েছে)। তারপরে আপনি আরও কম বিশদ বিভাগে (যেমন "ট্রাম", "মেট্রো" এবং "বাস" কে "পাবলিক ট্রান্সপোর্টের উপায়ে" একীভূত করার চেষ্টা করতে পারেন) বা আরও বেশি (যেমন "হাঁটাচলা", "জগিং", "সাইকেলিং" " আপনি কী চেষ্টা করার চেষ্টা করছেন তার উপর নির্ভর করে শারীরিক কার্যকলাপ ")।
এমনকি আপনি আপনার ডেটাসেটে কিছু আলাদা সংমিশ্রণ রাখতে পারেন এবং তারপরে পরবর্তী পদক্ষেপগুলি নির্ধারণ করবে কোনটি বিশ্লেষণের জন্য ব্যবহৃত হবে। অর্ডারযুক্ত ভেরিয়েবলগুলিতে যেখানে পাঠ্য ডেটা "অনুবাদ" করা যায় তা নিশ্চিত করে নিন যে আপনি এটি করেছেন (উদাহরণস্বরূপ যদি আপনার "ছোট, মাঝারি, উচ্চ" এটি "1,2,3" তে রূপান্তরিত হয়)।
Principal Component AnalysisবাNon-Negative Matrix Factorizationভেরিয়েবলের সংখ্যা হ্রাস করবে, স্পার্স ডেটা সমৃদ্ধ করবে এবং সমস্ত ভেরিয়েবলকে পরিমাণগতভাবে রূপান্তর করবে। তদুপরি, মাত্রিকতা হ্রাস মডেলের মানের মূল্যায়ন করে, প্রশ্ন লেখক পাঠ্য ভেরিয়েবলগুলির কার্যকারিতা অনুমান করতে পারেন।