মিশ্র প্রকারের বৈশিষ্ট্য সহ ডেটাसेटগুলিকে শ্রেণিবদ্ধ করার সর্বোত্তম উপায়


13

আমি জানতে চাই মিশ্রিত ধরণের বৈশিষ্ট্যের সমন্বয়ে ডেটা সেটকে শ্রেণিবদ্ধ করার সর্বোত্তম উপায় কী, উদাহরণস্বরূপ, পাঠ্য এবং সংখ্যাসূচক। আমি জানি যে আমি পাঠ্যকে বুলেয়ানে রূপান্তর করতে পারি, তবে শব্দভান্ডারটি বৈচিত্র্যময় এবং ডেটা খুব বিচ্ছিন্ন হয়ে যায়। আমি পৃথক বৈশিষ্ট্যের ধরণগুলি পৃথকভাবে শ্রেণিবদ্ধ করার চেষ্টা করেছি এবং মেটা-শিখার কৌশলগুলির মাধ্যমে ফলাফলগুলি একত্রিত করার চেষ্টা করেছি, তবে এটি কার্যকর হয়নি।

উত্তর:


11

ক্রিস্টোফারের উত্তরগুলি খুব যুক্তিসঙ্গত বলে মনে হয়। বিশেষত বৃক্ষভিত্তিক পদ্ধতিগুলি এই ধরণের ডেটা দিয়ে ভাল করে কারণ তারা বৈষম্যমূলক বৈশিষ্ট্যগুলিতে শাখা করে। আপনার নির্দিষ্ট প্রয়োগটি না জেনে কিছুটা বলা শক্ত, তবে সাধারণভাবে আপনি যদি মনে করেন যে আপনার কিছু বৈশিষ্ট্য অন্যদের চেয়ে উল্লেখযোগ্যভাবে বৈষম্যমূলক হতে পারে তবে আপনি কিছুটা সাফ করার জন্য কিছু মাত্রিক হ্রাস কৌশল ব্যবহার করতে পারেন।

এছাড়াও যদি আপনি একটি মাত্রিকতা হ্রাস কৌশল ব্যবহার করেন তবে আপনি আপনার বৈশিষ্ট্য ভেক্টরটির জন্য কিছুটা আরও শক্তিশালী ফর্ম্যাটটি অর্জন করতে পারেন (তারা সাধারণত মিশ্র ডেটার ধরণের পরিবর্তে সরল সংখ্যাসূচক ভেক্টর হিসাবে শেষ হয়), যা আপনাকে বিভিন্ন পদ্ধতির সুবিধা দিতে দেয় let আপনি হ্যান্ড ইঞ্জিনিয়ারিং বৈশিষ্ট্যগুলিও অনুসন্ধান করতে পারেন। সঠিকভাবে হ্যান্ড ইঞ্জিনিয়ার বৈশিষ্ট্যগুলির সাহায্যে Random Forestবেশিরভাগ কার্যগুলিতে আপনি শিল্পের খুব কাছাকাছি আসবেন।


2
মাত্রিকতা হ্রাসের জন্য আর একটি ভোট। কেবল কিছু সংযোজন: Principal Component Analysisবা Non-Negative Matrix Factorizationভেরিয়েবলের সংখ্যা হ্রাস করবে, স্পার্স ডেটা সমৃদ্ধ করবে এবং সমস্ত ভেরিয়েবলকে পরিমাণগতভাবে রূপান্তর করবে। তদুপরি, মাত্রিকতা হ্রাস মডেলের মানের মূল্যায়ন করে, প্রশ্ন লেখক পাঠ্য ভেরিয়েবলগুলির কার্যকারিতা অনুমান করতে পারেন।
সোবাচ

@ আইডিকো দুর্দান্ত উত্তর। আপনি কি আমাদের কোনও বই বা কোনও কাগজে একটি রেফারেন্স দিতে পারেন, সেই গাছ ভিত্তিক অ্যালগোরিদমগুলি মিশ্র প্রকারের (শ্রেণিবদ্ধ এবং পরিমাণগত ডেটা) ডেটা দিয়ে আরও ভাল সম্পাদন করে?
জেলেলবি

6

তথ্য সম্পর্কে আরও না জেনে এই প্রশ্নের উত্তর দেওয়া শক্ত is এটি বলেছিল, আমি নিম্নলিখিত পরামর্শগুলি প্রদান করব:

বেশিরভাগ মেশিন লার্নিং কৌশল মিশ্রিত টাইপের ডেটা পরিচালনা করতে পারে। বৃক্ষভিত্তিক পদ্ধতি (যেমন অ্যাডাবোস্ট এবং র্যান্ডম বন) এই ধরণের ডেটা দিয়ে ভাল করে। আরও গুরুত্বপূর্ণ ইস্যুটি আসলে মাত্রিক মাত্রা, যার সম্পর্কে আপনি উদ্বিগ্ন হওয়া সঠিক।

আমি প্রস্তাব দিচ্ছি যে আপনি সেই মাত্রিকতা হ্রাস করতে কিছু করুন। উদাহরণস্বরূপ, শব্দ বা বাক্যাংশগুলি সন্ধান করুন যা ডেটা সর্বাধিক পৃথক করে এবং অন্য শব্দগুলি বাতিল করে দেয় (দ্রষ্টব্য: ট্রি ভিত্তিক পদ্ধতিগুলি এটি স্বয়ংক্রিয়ভাবে করে)।


2

আপনার ডেটার প্রকৃতি সম্পর্কিত আপনি যে সামান্য তথ্য সরবরাহ করেছেন সেগুলি সহ, আমি আপনাকে নীচের পদ্ধতির অনুসরণ করতে পরামর্শ দেব:

  1. পাঠ্য ডেটা বিভাগগুলিতে রূপান্তর করুন। বিভাগগুলিতে কতটা তথ্য থাকা উচিত তার জন্য আপনি বিভিন্ন বিকল্প চেষ্টা করতে পারেন তবে প্রতিটি পরিবর্তনশীলের জন্য নির্দিষ্ট বিভাগ থাকতে হবে। উদাহরণ হিসাবে, আমি একটি পরিবর্তনশীল ধরে নেব যা লোকদের কাজ করার পক্ষে পছন্দনীয় উপায় সম্পর্কিত জরিপ প্রশ্নাবলীর একটি পাঠ্য ক্ষেত্র থেকে এসেছে।

    প্রথমে, আমাদের নিশ্চিত করা দরকার যে অনুরূপ অর্থ সহ উত্তর একইভাবে লেখা হয় এবং একই বিভাগের অন্তর্ভুক্ত (যেমন "বাইক দ্বারা", "সাইকেল চালানো", "সাইকেল চালিয়ে" সমস্ত একই অর্থ রয়েছে)। তারপরে আপনি আরও কম বিশদ বিভাগে (যেমন "ট্রাম", "মেট্রো" এবং "বাস" কে "পাবলিক ট্রান্সপোর্টের উপায়ে" একীভূত করার চেষ্টা করতে পারেন) বা আরও বেশি (যেমন "হাঁটাচলা", "জগিং", "সাইকেলিং" " আপনি কী চেষ্টা করার চেষ্টা করছেন তার উপর নির্ভর করে শারীরিক কার্যকলাপ ")।

    এমনকি আপনি আপনার ডেটাসেটে কিছু আলাদা সংমিশ্রণ রাখতে পারেন এবং তারপরে পরবর্তী পদক্ষেপগুলি নির্ধারণ করবে কোনটি বিশ্লেষণের জন্য ব্যবহৃত হবে। অর্ডারযুক্ত ভেরিয়েবলগুলিতে যেখানে পাঠ্য ডেটা "অনুবাদ" করা যায় তা নিশ্চিত করে নিন যে আপনি এটি করেছেন (উদাহরণস্বরূপ যদি আপনার "ছোট, মাঝারি, উচ্চ" এটি "1,2,3" তে রূপান্তরিত হয়)।

  2. আপনার শ্রেণিবদ্ধ ভেরিয়েবলগুলি (অরডিনালগুলি নয়) ডামি (বাইনারি) ভেরিয়েবলগুলিতে পরিণত করুন। বেশিরভাগ শ্রেণিবদ্ধকরণ / বৈশিষ্ট্য নির্বাচনের অ্যালগোরিদমগুলি স্বয়ংক্রিয়ভাবে এটি করে তবে আপনি যা পছন্দ করেছেন তা নিশ্চিত হয়ে নিন is আমি বুঝতে পারি যে তথ্যের মাত্রা এই মুহুর্তে বেশ বড় হয়ে উঠবে, তবে এটি পরবর্তী পদক্ষেপে পরিচালিত হবে।

  3. আপনার ডেটাতে একটি বৈশিষ্ট্য নির্বাচন / মাত্রিকতা হ্রাস কৌশল প্রয়োগ করুন। আপনি এখানে এই জাতীয় কৌশলগুলির একটি দরকারী পর্যালোচনা খুঁজে পেতে পারেন । আপনি যদি পাইথন ব্যবহার করছেন, স্ক্লার্ন সরঞ্জামগুলি আপনাকে প্রচুর বিকল্প দেয় ( এখানে আরও বিশদ দেখুন )। আপনি এমন একটি কৌশল ব্যবহার করেছেন তা নিশ্চিত করে নিন যা বহুবিধরনের বিষয়টিও বিবেচনা করে। আমি প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ বা ট্রি-ভিত্তিক অ্যালগরিদম চেষ্টা করব would

  4. ডেটা শ্রেণিবদ্ধ করার জন্য, আমি ডিসিশন ট্রি ক্লাসিফায়ার ( স্কেলার্নের মাধ্যমেও উপলব্ধ ) এর সাথে যাব । এটি বৈশিষ্ট্য নির্বাচন বৈশিষ্ট্য বৈশিষ্ট্য ওজন গুরুত্ব দেয়। আপনি আপনার বিকল্পগুলির উপর নির্ভর করে উত্পন্ন গাছের উপরে বিশদের মাত্রা নির্ধারণ করতে পারেন (যেমন ম্যাক্স_ডেপথ, মিনি_সাম্পেল_স্প্লিট) অতিরিক্ত ফিটনেস এড়াতে ক্রস-বৈধকরণের ভিত্তিতে বিশদের স্তরটি সামঞ্জস্য করতে নিশ্চিত হন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.