কীভাবে অজানা বৈশিষ্ট্যগুলিতে ফিচার ইঞ্জিনিয়ারিং সঞ্চালন করবেন?


19

আমি একটি কাগল প্রতিযোগিতায় অংশ নিচ্ছি। ডেটাসেটের প্রায় 100 টি বৈশিষ্ট্য রয়েছে এবং সমস্ত অজানা (আসলে তারা কী উপস্থাপন করে সেই ক্ষেত্রে)। মূলত এগুলি কেবল সংখ্যা।

এই বৈশিষ্ট্যগুলিতে লোকেরা প্রচুর ফিচার ইঞ্জিনিয়ারিং করছে। আমি ভাবছি যে ঠিক কীভাবে কোনও অজানা বৈশিষ্ট্যগুলিতে ফিচার ইঞ্জিনিয়ারিং করতে সক্ষম হয়? কেউ দয়া করে আমাকে এটি বুঝতে এবং কীভাবে আমি অজানা বৈশিষ্ট্যগুলিতে বৈশিষ্ট্য ইঞ্জিনিয়ারিং করতে পারি তার কিছু টিপস বুঝতে সহায়তা করতে পারেন?

উত্তর:


19

বৈশিষ্ট্য ইঞ্জিনিয়ারিং করার জন্য আপনার ডোমেন জ্ঞান (আপনার ডেটা বলতে কী বোঝার প্রয়োজন ) প্রয়োজন নেই ( আপনার ডেটা ফ্রেম করার আরও উদ্বেগমূলক উপায়গুলি সন্ধান করতে)।


তু এন যেমন ব্যাখ্যা করেছেন , আপনি এমন বৈশিষ্ট্যগুলির "দ্রুত এবং নোংরা" সংমিশ্রণগুলি খুঁজে পেতে পারেন যা বেশ সহজেই সহায়ক হতে পারে। একটি আউটপুট দেওয়া এবং একজন ব্যক্তি বৈশিষ্ট্য এক্স , আপনি নিম্নলিখিত রূপান্তরগুলির নিতে পারে, এক্স '{ এক্স , লগ ( এক্স ) , x 2 , x 3 , TANH ( এক্স ) } । রূপান্তরের উপযোগিতা এর একটি দ্রুত চেক যদি মধ্যবর্তী কোরিলেশন { Y , এক্স ' } মধ্যে পারস্পরিক বেশীyxx{ex,log(x),x2,x3,tanh(x)}{y,x}{y,x}

পারস্পরিক সম্পর্কের বিষয়ে সতর্কতা: সম্পর্ক সম্পর্কিত সমস্ত কিছুই প্রদর্শন করা হয় না এবং আপনি যে মডেলটি ব্যবহার করছেন (তার উপর নির্ভর করে নন-লিনিয়ার যেমন এনএন বা আরএফ) এবং অন্যান্য ভেরিয়েবলগুলির সাথে মিথস্ক্রিয়া, পারস্পরিক সম্পর্ক পরিবর্তনের অর্থ কিছুই হতে পারে না।

তবে, আপনি যদি লজিস্টিক রিগ্রেশন এর মতো কোনও সাধারণ লিনিয়ার মডেল ব্যবহার করেন তবে এটি পারফোলেন্সের একটি ঠিক সূচক। যেমন ফোকরুজ জামানের দ্বারা উল্লিখিত যেমন এই রূপান্তরকে মূল্যায়নের সর্বোত্তম উপায় হ'ল আপনার রূপান্তরিত বৈশিষ্ট্যটি ছাড়া এবং ছাড়া একটি মডেল তৈরি করা এবং কীভাবে বৈধতা ত্রুটি (আপনার ক্রস-বৈধকরণ ভাঁজগুলিতে) বিকশিত হয় তা দেখুন।

একক বৈশিষ্ট্যটির রূপান্তরগুলি এইভাবে সন্ধান করা বরং সহজ। এগুলি প্রচুর ডেটাতে প্রযোজ্য, যেখানে আপনার ইনপুট এবং আউটপুটটির মধ্যে আরও স্পষ্টত্পর্কীয় সম্পর্ক আলাদা স্কেল হতে পারে। ইনকাম এবং "সুখ" এর মধ্যে সম্পর্কের উদাহরণ দেওয়ার জন্য লোগারিটিমিক বলে মনে হয় তবে আপনি কখনই অংশগ্রহণকারী আয়ের লগকে সরাসরি রেকর্ড করতে পারবেন না।


বৈশিষ্ট্যের সংমিশ্রণগুলি খুঁজে পাওয়া আরও বেশি কঠিন। শুরু করার জন্য, আপনি যদি 2 টি বৈশিষ্ট্যের প্রতিটি সংযোজন পরীক্ষা করতে চান এবং আপনার কাছে বৈশিষ্ট্য রয়েছে, আপনার কাছে পরীক্ষা করার জন্য ডি 2 ট্রান্সফর্মেশনগুলির অর্ডার রয়েছে । এই জাতীয় রূপান্তরগুলি খুঁজতে, আপনি সমস্যার জন্য একটি ননলাইনার মডেল (যেমন এনএন বা আরএফ) প্রয়োগ করতে পারেন এবং এটি কী শিখছে তা দেখার চেষ্টা করতে পারেন। যদি আপনি কোনও এনএন এর মধ্যবর্তী স্তরটি কী করছে তা সনাক্ত করতে পারেন তবে আপনি এর ফলাফলটি প্রাক-গণনা করতে এবং এটি একটি নতুন বৈশিষ্ট্য হিসাবে যুক্ত করতে পারেন। এটির আবার এটি গণনা করার প্রয়োজন হবে না এবং এটি সম্ভবত নতুন কিছু শেখার চেষ্টা করবে।DD2

কোনও এনএন এর অভ্যন্তরীণ প্রতিনিধিত্ব ব্যাখ্যা করা বা র্যান্ডম ফরেস্টে বৈশিষ্ট্যটির গুরুত্ব ব্যাখ্যা করার পক্ষে এটি কঠিন হতে পারে। এই উদ্দেশ্যে একটি সহজ, এবং সম্ভবত আরও উপযুক্ত পদ্ধতি, মডেল সিদ্ধান্ত গাছের সাথে বুস্ট করা হবে । সেখানে Boosting বাস্তবায়ন লাইব্রেরি অনেক আছে, এবং আপনার পোস্ট পরোক্ষভাবে বলে মনে হচ্ছে আপনি Kaggle প্রতিযোগিতায় হয়, XGBoost , অংশগ্রহণকারী অনেক দ্বারা ব্যবহৃত মনে যাতে আপনি আমি কি বর্ণনা করতে যাচ্ছি কিছু সাহায্য / টিউটোরিয়াল পেতে পারে।

প্রথমে কেবল স্টাম্প , 1-স্তরের সিদ্ধান্ত গাছ ব্যবহার করে আপনার বুস্টিং অ্যালগরিদম চালান । স্টাম্পগুলি খুব দুর্বল, তবে বুস্টিং এটিকে যুক্তিযুক্ত মডেল হিসাবে তৈরি করে। এটি আপনার বেসলাইন হিসাবে কাজ করবে। আপনি যে লাইব্রেরিটি ব্যবহার করছেন তার উপর নির্ভর করে আপনার বেশিরভাগ ব্যবহারযোগ্য বৈশিষ্ট্যগুলি সহজেই প্রদর্শন করতে সক্ষম হওয়া উচিত এবং কিছু প্যাটার্ন সনাক্ত করার জন্য আপনার প্রতিক্রিয়াটির (বা প্রতিক্রিয়াটি শ্রেণিবদ্ধ থাকলে একটি হিস্টোগ্রাম) করা উচিত। এটি আপনাকে একটি ভাল একক বৈশিষ্ট্য রূপান্তর কী হতে পারে তার অন্তর্দৃষ্টি দিতে পারে।

এরপরে, 2-স্তরের সিদ্ধান্ত গাছের সাথে বুস্টিং অ্যালগরিদম চালান। এই মডেলটি আগেরটির তুলনায় অনেক বেশি জটিল; যদি দুটি ভেরিয়েবল একসাথে নেওয়া পৃথক পৃথকভাবে গ্রহণের চেয়ে আরও বেশি শক্তি থাকে তবে এই মডেলটি আপনার পূর্ববর্তীটিকে (আবার প্রশিক্ষণ ত্রুটির শর্তে নয়, তবে বৈধতা ত্রুটিতে!) ছাড়িয়ে যাবে। এর উপর ভিত্তি করে, আপনার প্রায়শই একত্রিত হয়ে কোন চলকটি বের করতে সক্ষম হওয়া উচিত এবং এটি আপনাকে সম্ভাব্য বহু-বৈশিষ্ট্য রূপান্তর করতে পরিচালিত করবে।


সম্পর্কিত উপাদানগুলিতে, আমি নিম্নলিখিত ভিডিওগুলিকে অনুসরণ করা সহজ বলে তাদের পরামর্শ দেব


4

আপনি বিভিন্ন বৈশিষ্ট্যের সংমিশ্রণ নিতে পারেন যেমন বৈশিষ্ট্যের সমষ্টি: feat_1 + feat_2 + feat_3..., বা সেগুলির পণ্য। অথবা আপনি লগ, বা ঘাতক, সিগময়েড ... দ্বারা বৈশিষ্ট্যগুলি রূপান্তর করতে পারেন বা সংখ্যাসূচক বৈশিষ্ট্যটিকে একটি শ্রেণীবদ্ধে রূপান্তর করতে পারেন। এটি অন্বেষণ করার জন্য একটি অসীম স্থান।

যে কোনও সংমিশ্রণ বা রূপান্তর যা আপনার ক্রস-বৈধকরণ বা টেস্ট সেট পারফরম্যান্সকে বাড়িয়ে তোলে তবে আপনার এটি ব্যবহার করা উচিত।


2
আমি "আপনার ক্রস-বৈধকরণ বা টেস্ট সেট পারফরম্যান্স বাড়িয়ে দেয় এমন সংমিশ্রণ বা রূপান্তর যা কিছুক্ষনই ইস্যু করা উচিত" আপনার এটি ব্যবহার করা উচিত " আপনার পারফরম্যান্স মেট্রিকের কোনও উন্নতি না হওয়া পর্যন্ত অন্ধভাবে স্টাফ চেষ্টা করার ফলে এমন কোনও সম্পর্ক আবিষ্কার করা যেতে পারে যা বুদ্ধিমান নয় এবং অত্যধিক মানানসই কারণগুলির কারণ নয়। এটি সত্যই রাস্তায় নতুন পর্যবেক্ষণগুলিতে পারফরম্যান্সকে আঘাত করতে পারে।
হার্শিজি

1

আপনি দয়া করে আপনার নিম্নলিখিত বিবৃতি সম্পর্কে নির্দিষ্ট উদাহরণ দিয়ে আরও ব্যাখ্যা করতে পারেন?

The dataset has around 100 features and all are unknown (in terms of what actually they represent). Basically they are just numbers.

আমি নিশ্চিত না যে কীভাবে আপনি আপনার ডেটা সেট এবং প্রদত্ত বৈশিষ্ট্যগুলি ভাল করে না বুঝে ফিচার ইঞ্জিনিয়ারিং করতে পারেন !!

টেবুলার ডেটাটি পর্যবেক্ষণ বা দৃষ্টান্তের (সারি) পদগুলিতে বর্ণিত হয় যা ভেরিয়েবল বা বৈশিষ্ট্যগুলি (কলাম) দ্বারা গঠিত। একটি বৈশিষ্ট্য একটি বৈশিষ্ট্য হতে পারে।

"কোনও বৈশিষ্ট্য থেকে পৃথক পৃথক বৈশিষ্ট্যের ধারণাটি সমস্যার প্রসঙ্গে আরও বেশি অর্থবোধ করে A একটি বৈশিষ্ট্য এমন একটি বৈশিষ্ট্য যা আপনার সমস্যার পক্ষে দরকারী বা অর্থবহ of যে সমস্যাটি মডেল করা হচ্ছে ... ... ... ...

কম্পিউটার দর্শনে, একটি চিত্র একটি পর্যবেক্ষণ, তবে কোনও বৈশিষ্ট্যটি চিত্রটির একটি লাইন হতে পারে।

প্রাকৃতিক ভাষা প্রক্রিয়াকরণে, একটি নথি বা একটি টুইট একটি পর্যবেক্ষণ হতে পারে, এবং একটি শব্দগুচ্ছ বা শব্দ গণনা একটি বৈশিষ্ট্য হতে পারে।

বক্তৃতা স্বীকৃতিতে, উচ্চারণটি পর্যবেক্ষণ হতে পারে, তবে বৈশিষ্ট্যটি একক শব্দ বা ফোনমেন হতে পারে। "

আরও জানার জন্য নীচের URL টি দেখুন:

ফিচার ইঞ্জিনিয়ারিং, ইঞ্জিনিয়ার বৈশিষ্ট্যগুলি কীভাবে এবং এটিতে কীভাবে ভাল হয় তা আবিষ্কার করুন


ওপি-র ক্ষেত্রে বৈশিষ্ট্যগুলি এমনভাবে বেনাম করা হয়েছে যেখানে ডোমেন জ্ঞান ব্যবহার করা যায় না। এটি কাগল প্রতিযোগিতাগুলিতে বেশ সাধারণ, তবুও বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের সীমিত ফর্মগুলি এখনও সম্ভব। সাধারণত প্রজন্মকে গাইড করতে বিষয় জ্ঞান ব্যবহারের বিপরীতে সাধারণত নতুন বৈশিষ্ট্যগুলি পরীক্ষামূলকভাবে তৈরি হয় are একটি উদাহরণ: kaggle.com/c/bnp-paribas-cardif-claims-management/data
নীল স্লেটার

যেমনটি নীল বলেছিলেন, বৈশিষ্ট্যগুলি বেনামে রয়েছে, এটি আমার বক্তব্য থেকে বোঝা যাচ্ছে।
ব্যবহারকারী2409011
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.