বৈশিষ্ট্য ইঞ্জিনিয়ারিং করার জন্য আপনার ডোমেন জ্ঞান (আপনার ডেটা বলতে কী বোঝার প্রয়োজন ) প্রয়োজন নেই ( আপনার ডেটা ফ্রেম করার আরও উদ্বেগমূলক উপায়গুলি সন্ধান করতে)।
তু এন যেমন ব্যাখ্যা করেছেন , আপনি এমন বৈশিষ্ট্যগুলির "দ্রুত এবং নোংরা" সংমিশ্রণগুলি খুঁজে পেতে পারেন যা বেশ সহজেই সহায়ক হতে পারে। একটি আউটপুট দেওয়া এবং একজন ব্যক্তি বৈশিষ্ট্য এক্স , আপনি নিম্নলিখিত রূপান্তরগুলির নিতে পারে, এক্স ' ∈ { ই এক্স , লগ ( এক্স ) , x 2 , x 3 , TANH ( এক্স ) } । রূপান্তরের উপযোগিতা এর একটি দ্রুত চেক যদি মধ্যবর্তী কোরিলেশন { Y , এক্স ' } মধ্যে পারস্পরিক বেশীYএক্সএক্স'। { ইএক্স, লগ( এক্স ) , এক্স2, এক্স3, তানহ( এক্স ) }{ y, এক্স'} ।{ y, এক্স }
পারস্পরিক সম্পর্কের বিষয়ে সতর্কতা: সম্পর্ক সম্পর্কিত সমস্ত কিছুই প্রদর্শন করা হয় না এবং আপনি যে মডেলটি ব্যবহার করছেন (তার উপর নির্ভর করে নন-লিনিয়ার যেমন এনএন বা আরএফ) এবং অন্যান্য ভেরিয়েবলগুলির সাথে মিথস্ক্রিয়া, পারস্পরিক সম্পর্ক পরিবর্তনের অর্থ কিছুই হতে পারে না।
তবে, আপনি যদি লজিস্টিক রিগ্রেশন এর মতো কোনও সাধারণ লিনিয়ার মডেল ব্যবহার করেন তবে এটি পারফোলেন্সের একটি ঠিক সূচক। যেমন ফোকরুজ জামানের দ্বারা উল্লিখিত যেমন এই রূপান্তরকে মূল্যায়নের সর্বোত্তম উপায় হ'ল আপনার রূপান্তরিত বৈশিষ্ট্যটি ছাড়া এবং ছাড়া একটি মডেল তৈরি করা এবং কীভাবে বৈধতা ত্রুটি (আপনার ক্রস-বৈধকরণ ভাঁজগুলিতে) বিকশিত হয় তা দেখুন।
একক বৈশিষ্ট্যটির রূপান্তরগুলি এইভাবে সন্ধান করা বরং সহজ। এগুলি প্রচুর ডেটাতে প্রযোজ্য, যেখানে আপনার ইনপুট এবং আউটপুটটির মধ্যে আরও স্পষ্টত্পর্কীয় সম্পর্ক আলাদা স্কেল হতে পারে। ইনকাম এবং "সুখ" এর মধ্যে সম্পর্কের উদাহরণ দেওয়ার জন্য লোগারিটিমিক বলে মনে হয় তবে আপনি কখনই অংশগ্রহণকারী আয়ের লগকে সরাসরি রেকর্ড করতে পারবেন না।
বৈশিষ্ট্যের সংমিশ্রণগুলি খুঁজে পাওয়া আরও বেশি কঠিন। শুরু করার জন্য, আপনি যদি 2 টি বৈশিষ্ট্যের প্রতিটি সংযোজন পরীক্ষা করতে চান এবং আপনার কাছে বৈশিষ্ট্য রয়েছে, আপনার কাছে পরীক্ষা করার জন্য ডি 2 ট্রান্সফর্মেশনগুলির অর্ডার রয়েছে । এই জাতীয় রূপান্তরগুলি খুঁজতে, আপনি সমস্যার জন্য একটি ননলাইনার মডেল (যেমন এনএন বা আরএফ) প্রয়োগ করতে পারেন এবং এটি কী শিখছে তা দেখার চেষ্টা করতে পারেন। যদি আপনি কোনও এনএন এর মধ্যবর্তী স্তরটি কী করছে তা সনাক্ত করতে পারেন তবে আপনি এর ফলাফলটি প্রাক-গণনা করতে এবং এটি একটি নতুন বৈশিষ্ট্য হিসাবে যুক্ত করতে পারেন। এটির আবার এটি গণনা করার প্রয়োজন হবে না এবং এটি সম্ভবত নতুন কিছু শেখার চেষ্টা করবে।ডিডি2
কোনও এনএন এর অভ্যন্তরীণ প্রতিনিধিত্ব ব্যাখ্যা করা বা র্যান্ডম ফরেস্টে বৈশিষ্ট্যটির গুরুত্ব ব্যাখ্যা করার পক্ষে এটি কঠিন হতে পারে। এই উদ্দেশ্যে একটি সহজ, এবং সম্ভবত আরও উপযুক্ত পদ্ধতি, মডেল সিদ্ধান্ত গাছের সাথে বুস্ট করা হবে । সেখানে Boosting বাস্তবায়ন লাইব্রেরি অনেক আছে, এবং আপনার পোস্ট পরোক্ষভাবে বলে মনে হচ্ছে আপনি Kaggle প্রতিযোগিতায় হয়, XGBoost , অংশগ্রহণকারী অনেক দ্বারা ব্যবহৃত মনে যাতে আপনি আমি কি বর্ণনা করতে যাচ্ছি কিছু সাহায্য / টিউটোরিয়াল পেতে পারে।
প্রথমে কেবল স্টাম্প , 1-স্তরের সিদ্ধান্ত গাছ ব্যবহার করে আপনার বুস্টিং অ্যালগরিদম চালান । স্টাম্পগুলি খুব দুর্বল, তবে বুস্টিং এটিকে যুক্তিযুক্ত মডেল হিসাবে তৈরি করে। এটি আপনার বেসলাইন হিসাবে কাজ করবে। আপনি যে লাইব্রেরিটি ব্যবহার করছেন তার উপর নির্ভর করে আপনার বেশিরভাগ ব্যবহারযোগ্য বৈশিষ্ট্যগুলি সহজেই প্রদর্শন করতে সক্ষম হওয়া উচিত এবং কিছু প্যাটার্ন সনাক্ত করার জন্য আপনার প্রতিক্রিয়াটির (বা প্রতিক্রিয়াটি শ্রেণিবদ্ধ থাকলে একটি হিস্টোগ্রাম) করা উচিত। এটি আপনাকে একটি ভাল একক বৈশিষ্ট্য রূপান্তর কী হতে পারে তার অন্তর্দৃষ্টি দিতে পারে।
এরপরে, 2-স্তরের সিদ্ধান্ত গাছের সাথে বুস্টিং অ্যালগরিদম চালান। এই মডেলটি আগেরটির তুলনায় অনেক বেশি জটিল; যদি দুটি ভেরিয়েবল একসাথে নেওয়া পৃথক পৃথকভাবে গ্রহণের চেয়ে আরও বেশি শক্তি থাকে তবে এই মডেলটি আপনার পূর্ববর্তীটিকে (আবার প্রশিক্ষণ ত্রুটির শর্তে নয়, তবে বৈধতা ত্রুটিতে!) ছাড়িয়ে যাবে। এর উপর ভিত্তি করে, আপনার প্রায়শই একত্রিত হয়ে কোন চলকটি বের করতে সক্ষম হওয়া উচিত এবং এটি আপনাকে সম্ভাব্য বহু-বৈশিষ্ট্য রূপান্তর করতে পরিচালিত করবে।
সম্পর্কিত উপাদানগুলিতে, আমি নিম্নলিখিত ভিডিওগুলিকে অনুসরণ করা সহজ বলে তাদের পরামর্শ দেব