বিপুল সংখ্যক বৈশিষ্ট্য সহ লজিস্টিক রিগ্রেশন কীভাবে করবেন?


10

লজিস্টিক রিগ্রেশন-এর বাইনারি ক্লাসের সমস্যা সহ প্রতিটি নমুনার জন্য আমার কাছে 330 নমুনা এবং 27 টি বৈশিষ্ট্যযুক্ত একটি ডেটাসেট রয়েছে।

"নিয়ম যদি দশ" অনুযায়ী প্রতিটি বৈশিষ্ট্য অন্তর্ভুক্ত করার জন্য আমার কমপক্ষে 10 টি ইভেন্টের প্রয়োজন। যদিও, আমার 20% হে পজিটিভ ক্লাস এবং 80% নেতিবাচক বর্গ সহ একটি ভারসাম্যহীন ডেটাসেট রয়েছে।

এটি আমাকে কেবল 70 ইভেন্ট দেয়, প্রায় 7/8 বৈশিষ্ট্যগুলিকে লজিস্টিক মডেলটিতে অন্তর্ভুক্ত করার অনুমতি দেয়।

আমি ভবিষ্যদ্বাণীকারী হিসাবে সমস্ত বৈশিষ্ট্য মূল্যায়ন করতে চাই, আমি কোনও বৈশিষ্ট্য বাছাই করতে চাই না।

তাহলে আপনি কি পরামর্শ দেবেন? আমি কি সমস্ত সম্ভব 7 বৈশিষ্ট্য সংমিশ্রণ করা উচিত? আমার প্রতিটি বৈশিষ্ট্যটি একাই কোনও সমিতির মডেল দিয়ে মূল্যায়ন করা উচিত এবং তারপরে একটি চূড়ান্ত মডেলের জন্য কেবল সেরাগুলি বাছাই করা উচিত?

শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন বৈশিষ্ট্যগুলির পরিচালনা সম্পর্কে আমিও কৌতূহল, আমি কি তাদের মিশ্রণ করতে পারি? আমার যদি একটি বিভাগীয় [0-1] এবং অবিচ্ছিন্ন [0-100] থাকে তবে আমার কি স্বাভাবিক হওয়া উচিত?

আমি বর্তমানে পাইথনের সাথে কাজ করছি।

আপনার সাহায্যের জন্য অসংখ্য ধন্যবাদ!


"আমি শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন বৈশিষ্ট্যগুলির পরিচালনা সম্পর্কে আগ্রহী" আমি বিশ্বাস করি এটি একটি পৃথক প্রশ্ন তৈরি করবে। আসলে, এটি ইতিমধ্যে এখানে জিজ্ঞাসা করা হয়েছে
E_net4 নিকটতম ভোটার

2
পর্যাপ্ত নমুনা না পাওয়া এবং অপ্রাসঙ্গিক বৈশিষ্ট্য না থাকার মধ্যে পার্থক্য রয়েছে। আমি কিছু সরল নিয়ম কারণে ঠিক 7 বৈশিষ্ট্য অবচয় উপর খুব বেশী ফোকাস করবে না ...
oW_

1
যাইহোক আপনি যা করতে চান তা করুন: নিয়ন্ত্রণকে অনুকূলকরণের জন্য ক্রস-বৈধতা ব্যবহার করুন। আমি ইলাস্টিক নেট (এল 1 + এল 2) পরামর্শ দিই।
এমের 21

উত্তর:


6

আপনার মডেলটি 7 ভেরিয়েবলের নিচে নামিয়ে আনার জন্য কয়েকটি ব্যবস্থা নেওয়া যেতে পারে:

  1. পিসিএ (নিরীক্ষণ): এটি আপনার ডেটার "নতুন" রৈখিক সংমিশ্রণ তৈরি করে যেখানে প্রতিটি প্রক্রিয়াজাতকরণ উপাদান ডেটাতে যতটা সম্ভব তারতম্য ব্যাখ্যা করে। সুতরাং প্রথম 7 টি উপাদান (27 এর মধ্যে) আপনার ডেটাতে তারতম্যের একটি ভাল শতাংশ ব্যাখ্যা করতে সক্ষম হওয়া উচিত। তারপরে আপনি এই সাতটি উপাদানকে আপনার লজিস্টিক রিগ্রেশন সমীকরণে প্লাগ করতে পারেন। এখানে অসুবিধাটি হ'ল কারণ উপাদানগুলি আপনার আসল ভেরিয়েবলগুলির সংমিশ্রণ হিসাবে আপনি আপনার রিগ্রেশন মডেলটির সাথে কিছুটা ব্যাখ্যাযোগ্যতা হারাবেন। তবে এটি খুব ভাল নির্ভুলতা উত্পাদন করা উচিত। এই একই কৌশল যেমন অন্যান্য মাত্রা হ্রাস পদ্ধতিতে প্রয়োগ করা হয়
  2. রিগ্রেশন-এ আর একটি সাধারণ পদ্ধতি হ'ল ধাপে এগিয়ে যেখানে আপনি একটি পরিবর্তনশীল দিয়ে শুরু করেন এবং প্রতিটি পদক্ষেপে প্রতিটি যোগ করেন, যা হয় কিছু মানদণ্ডের (সাধারণত একটি বিআইসির বা এআইসির স্কোর) উপর ভিত্তি করে রাখা হয় বা বাদ দেওয়া হয়। পিছনের দিকে ধাপে ধাপে রিগ্রেশন একই জিনিস তবে আপনি সমস্ত ভেরিয়েবলগুলি দিয়ে শুরু করেন এবং কিছু মানদণ্ডের ভিত্তিতে প্রতিবার একবার মুছে ফেলেন। একটি সংক্ষিপ্ত অনুসন্ধানের ভিত্তিতে মনে হয় না যে পাইথনের পদক্ষেপের প্রতিরোধ রয়েছে তবে তারা এই ডেটা সায়েন্স পোস্টে বর্ণিত অনুরূপ বৈশিষ্ট্য নির্মূলের অ্যালগরিদম করে ।
  3. লাসো রিগ্রেশন একটি ব্যবহার করে এল1 শাস্তি দেওয়ার নিয়ম যা বৈশিষ্ট্যগুলির সহগকে সঙ্কুচিত করে কিছু কার্যকরভাবে তাদের মুছে ফেলা You আপনি এটি অন্তর্ভুক্ত করতে পারেন এল1আপনার লজিস্টিক রিগ্রেশন মডেলটির আদর্শ। দেখে মনে হচ্ছে স্কেলের্নের লজিস্টিক রিগ্রেশন আপনাকে এটি অর্জনের জন্য যে শাস্তি দিতে চান তা নির্ধারণ করতে দেয়। দ্রষ্টব্য: লাসো সুস্পষ্টভাবে ভেরিয়েবল সহগকে শূন্যে সেট করবে না, তবে এটি আপনাকে সঙ্কুচিত করবে largest বৃহত্তম সংখ্যক নির্বাচন করতে।

@ E_net4 মন্তব্য হিসাবে, আপনার অবিচ্ছিন্ন প্রশ্ন অন্য পোস্টে সম্বোধন করা হবে।


5

আপনি "10 এর বিধি" খুব গুরুত্বের সাথে নিচ্ছেন। এটি থাম্ব একটি খুব রুক্ষ নিয়ম। আপনি যেমন এটি ব্যবহার করছেন এটি ব্যবহারের উদ্দেশ্যে নয়।

মনে হচ্ছে আপনি ভাবছেন: "আমার কাছে মাত্র 70 টি ইতিবাচক দৃষ্টান্ত রয়েছে, সুতরাং 10 এর বিধি অনুসারে আমাকে কেবল features টি বৈশিষ্ট্য ব্যবহার করার অনুমতি দেওয়া হয়েছে; কোন features টি বৈশিষ্ট্য ব্যবহার করব তা আমি কীভাবে বেছে নেব?"

10 এর বিধি এর অর্থ এটি নয়। এটি এমন কোনও নিয়ম নয় যা আপনাকে নির্দিষ্ট করে কতগুলি বৈশিষ্ট্য ব্যবহারের অনুমতিপ্রাপ্ত তা নির্দিষ্ট করে। 10-এর বিধি বর্ণনামূলক, প্রজ্ঞাবহ নয়, এবং এটি একটি আনুমানিক গাইডলাইন: উদাহরণগুলির সংখ্যা যদি বৈশিষ্ট্যের সংখ্যার চেয়ে 10 গুণ কম হয় তবে আপনি বিশেষত অত্যধিক ঝুঁকির ঝুঁকিতে রয়েছেন, এবং আপনার খারাপ ফলাফল হতে পারে।

তাহলে এখন তোমার কি করা উচিত? যাইহোক আপনি যা করতে চান তা করা উচিত: নিয়মিতকরণ ব্যবহার করুন এবং নিয়মিতকরণ হাইপার-প্যারামিটারগুলি নির্বাচন করতে ক্রস-বৈধতা ব্যবহার করুন। এছাড়াও, অত্যধিক ফিটনেস এবং পক্ষপাতদুষ্ট নির্ভুলতার প্রাক্কলন এড়াতে আপনি ক্লাসিফায়ার সম্পর্কে সবকিছু চূড়ান্ত না করা পর্যন্ত আপনার স্পর্শ না করা এমন একটি হোল্ড-আউট টেস্ট সেট থাকা জরুরী।

এবং যদি আপনি আরও ডেটা পেতে পারেন তবে এটি সত্যই সহায়তা করবে।

অবশেষে, যেহেতু আপনার ভারসাম্যহীন ক্লাস রয়েছে তাই আপনি ক্লাসের ভারসাম্যহীনতা এবং এটির সাথে সম্পর্কিত পদ্ধতিগুলি সম্পর্কে পড়া বিবেচনা করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.