শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন ডেটা সহ মেশিন লার্নিং


9

এই প্রশ্নটি এখানে বা এসও যেতে পারে সম্ভবত ...

মনে করুন যে আপনার প্রশিক্ষণ ডেটাসেটে এই সেটআপের মতো শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন উভয় ডেটা রয়েছে:

 Animal, breed,  sex, age, weight, blood_pressure, annual_cost
 cat,    calico, M,   10,  15    ,   100         , 100 
 cat,    tabby,  F,   5,   10    ,   80          , 200
 dog,    beagle, M,   3,   30    ,   90          , 200
 dog,    lab,    F,   8,   75    ,   80          , 100

এবং পূর্বাভাসের জন্য নির্ভরশীল পরিবর্তনশীল হ'ল বার্ষিক পশুচিকিত্সা ব্যয়। এই জাতীয় ডেটাসেট মোকাবেলার জন্য উপলভ্য নির্দিষ্ট কৌশলগুলি সম্পর্কে আমি কিছুটা বিভ্রান্ত। অবিচ্ছিন্ন এবং বিভাগীয় উভয় ডেটার মিশ্রণযুক্ত ডেটাসেটগুলি মোকাবেলায় সাধারণত কী কী পদ্ধতি ব্যবহার করা হয়?

উত্তর:


8

শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির প্রতিটি শ্রেণীর (জাত, লিঙ্গ ...) এর জন্য, আপনি feature শ্রেণীর সম্ভাব্য মানগুলির সংখ্যার সমান আপনার বৈশিষ্ট্য ভেক্টরে সংখ্যক উপাদান যুক্ত করতে পারেন। তারপরে, যদি কোনও ডেটা পয়েন্টের আইথ মান থাকে তবে আপনি সেই উপাদানগুলির মধ্যে একটিকে আইথ সেট করে 1 এবং বাকী 0 টিতে নির্ধারণ করেন।

আপনার উদাহরণে, লিঙ্গ হিসাবে, আপনি আপনার বৈশিষ্ট্য ভেক্টরে দুটি নতুন উপাদান যুক্ত করবেন। যদি প্রাণীটি পুরুষ হয় তবে আপনি প্রথমটিকে 1 থেকে 1 এবং দ্বিতীয়টি 0 থেকে 0 এবং অন্যদিকে প্রাণীটি মহিলা রাখবেন। প্রাণীর জন্য, যদি আপনার সম্ভাবনাগুলি বিড়াল, কুকুর এবং মাছ হয় তবে আপনি তিনটি উপাদান দিয়ে একই কাজ করতেন।

এগুলি অবিচ্ছিন্ন বৈশিষ্ট্যের পাশাপাশি পাশাপাশি থাকবে ex আপনি "সূচক মান" এর परिमाणটি সামঞ্জস্য করতে চাইতে পারেন (কোনও বৈশিষ্ট্য "চালু" থাকাকালীন আপনি যে মানটি ব্যবহার করেন) যাতে এটি আপনি ব্যবহার করছেন এমন ধারাবাহিক মানগুলির মাত্রার সাথে তুলনীয়।

আপনি যদি নিজের সমস্যাটি সম্পর্কে এই পথটি বেছে নিয়ে থাকেন তবে পরবর্তী পদক্ষেপটি সমর্থন ভেক্টর মেশিনের মতো বাছাই এবং অ্যালগরিদম এবং এটি আপনার বৈশিষ্ট্য ভেক্টরকে খাওয়ানো হবে। অবশ্যই, সিদ্ধান্ত গাছের মতো কিছু পদ্ধতির জন্য আমি উপরে বর্ণিত পদক্ষেপটি শুরু করতে হবে না।


1
দুর্দান্ত, দুর্দান্ত টিপস! পরীক্ষার তথ্যের সম্ভাব্য পরিস্থিতি সম্পর্কে কী যেখানে ট্রেনিংয়ের ডেটাতে জাতটি কখনই আসে না? উদাহরণস্বরূপ, যদি পরীক্ষার ডেটাগুলিতে একটি পোডল থাকে তবে প্রশিক্ষণ ডেটা না থাকে? যাওয়ার সবচেয়ে ভাল উপায়টি কি কেবল ব্রিড ভেক্টরের সমস্ত উপাদানগুলির জন্য শূন্য থাকতে পারে?
প্রতিলিপি

2
প্রকৃতপক্ষে, বিপরীত পদ্ধতি (ডেটা ডিসেরাইটিজেশন হিসাবে পরিচিত) হায়ারারিকাল পদ্ধতিগুলির জন্য সাধারণত পছন্দ (যেমন সিদ্ধান্ত ট্রি অ্যালগোরিদম) ms ডেটা বিচক্ষণতাও একটি ডেটা প্রাক প্রক্রিয়াজাতকরণ কৌশল (অন্য উত্তরে উল্লিখিত)।
rvcoutinho

2

আপনার ডেটা প্রি-প্রসেসিংয়ের দিকে একবার নজর দেওয়া উচিত । এটি যেকোন মেশিন লার্নিং টেকনিকের আগে। এখানে একটি ভাল ভূমিকা (গুগলে পাওয়া যায়)।

কৌশলগুলি সম্পর্কে, প্রচুর বিভিন্ন পন্থা রয়েছে । আপনার ডেটা প্রাক প্রসেসিংয়ের পরে আপনি সম্ভবত তাদের বেশিরভাগটিই ব্যবহার করতে পারেন। আপনার এগুলি চেষ্টা করা উচিত এবং আপনার প্রয়োজনগুলির সাথে সবচেয়ে ভাল ফিট করে এমন একটি বেছে নেওয়া উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.