লজিস্টিক রিগ্রেশন জন্য কোন বৈশিষ্ট্যগুলি সবচেয়ে গুরুত্বপূর্ণ ছিল তা বোঝা


17

আমি একটি লজিস্টিক রিগ্রেশন শ্রেণিবদ্ধ তৈরি করেছি যা আমার ডেটাতে খুব সঠিক very এটি এত ভাল কেন কাজ করছে তা এখন আমি আরও ভাল করে বুঝতে চাই। বিশেষত, আমি কোন বৈশিষ্ট্যগুলি সর্বাধিক অবদান রাখছি (কোন বৈশিষ্ট্যগুলি সর্বাধিক গুরুত্বপূর্ণ) র‌্যাঙ্ক করতে চাই এবং আদর্শভাবে, প্রতিটি বৈশিষ্ট্য সামগ্রিক মডেলের (বা এই শিরাতে কিছু) নির্ভুলতায় কতটুকু অবদান রাখছে তা মাপ দিন। আমি এটা কিভাবে করবো?

আমার প্রথম চিন্তা ছিল তাদের সহগের ভিত্তিতে তাদের র‌্যাঙ্ক করা, তবে আমার সন্দেহ হয় এটি সঠিক হতে পারে না। যদি আমার কাছে দুটি বৈশিষ্ট্য থাকে যা সমানভাবে কার্যকর হয় তবে প্রথমটির বিস্তারটি দ্বিতীয়টির চেয়ে দশগুণ বেশি হয় তবে আমি প্রথমটির চেয়ে দ্বিতীয়টির চেয়ে কম সহগ পাওয়ার আশা করব। বৈশিষ্ট্যের গুরুত্ব মূল্যায়নের আরও যুক্তিসঙ্গত উপায় আছে কি?

নোট করুন যে আমি বৈশিষ্ট্যটির একটি সামান্য পরিবর্তন ফলাফলের সম্ভাব্যতার উপর কতটা প্রভাব ফেলবে তা বোঝার চেষ্টা করছি না। পরিবর্তে, আমি শ্রেণিবদ্ধকারীকে নির্ভুল করে তোলার ক্ষেত্রে প্রতিটি বৈশিষ্ট্যটি কতটা মূল্যবান তা বোঝার চেষ্টা করছি। এছাড়াও, আমার লক্ষ্যটি বৈশিষ্ট্য নির্বাচন সম্পাদন করা বা কম বৈশিষ্ট্যযুক্ত একটি মডেল তৈরি করা এতটা নয়, তবে শেখা মডেলটির জন্য কিছু "ব্যাখ্যাযোগ্যতা" সরবরাহ করার চেষ্টা করা, সুতরাং শ্রেণিবদ্ধকারী কেবল একটি অস্বচ্ছ কালো বাক্স নয়।


আমি এলোমেলো বনগুলিকে নিক্ষেপ করব এখানেও একটি ভাল কৌশল। ভবিষ্যদ্বাণীতে বৈশিষ্ট্যগুলি সর্বাধিক অবদান রাখায় এমন অন্তর্দৃষ্টি পেতে আপনি বনের উপরের বিভাজনগুলি পরীক্ষা করতে পারেন।

উত্তর:


14

প্রথম বিষয় লক্ষণীয় যে আপনি শ্রেণিবদ্ধ হিসাবে লজিস্টিক রিগ্রেশন ব্যবহার করবেন না। সত্য যে বাইনারি হয় একেবারে কিছুই আসলে শ্রেণীভুক্ত পর্যবেক্ষণের এই সর্বোচ্চ সম্ভাবনা পদ্ধতি ব্যবহার করে কি আছে। একবার অতীত হয়ে গেলে, সোনার স্ট্যান্ডার্ড তথ্য পরিমাপের দিকে মনোনিবেশ করুন যা সর্বাধিক সম্ভাবনার একটি উপ-উত্পাদন: সম্ভাবনা অনুপাত। পরিসংখ্যান। আপনি প্রতিটি লেখকের আংশিক এর দিক দিয়ে আংশিক অবদান দেখানোর জন্য একটি চার্ট তৈরি করতে পারেনχ 2Yχ2χ2পরিসংখ্যাত। এই পরিসংখ্যান সর্বাধিক তথ্য / ক্ষমতা আছে। অন্যান্য ভবিষ্যদ্বাণীকারী হিসাবে গণ্য হওয়ার পরে প্রতিটি ভবিষ্যদ্বাণীকের দ্বারা প্রদত্ত ভবিষ্যদ্বাণীমূলক তথ্যের সীমাতে আত্মবিশ্বাসের ব্যবধান পেয়ে "বিজয়ী" এবং "হেরে" বাছাই করা কতটা কঠিন তা দেখানোর জন্য আপনি বুটস্ট্র্যাপটি ব্যবহার করতে পারেন। উদাহরণটি আমার কোর্সের নোটগুলির 5.4 অনুচ্ছেদে রয়েছে - হ্যান্ডআউটগুলি আবার হ্যান্ডআউটগুলিতে ক্লিক করুন।

যদি আপনার অত্যন্ত সংযুক্ত বৈশিষ্ট্য থাকে তবে আপনি তাদের প্রভাব একত্রিত করতে একটি "খণ্ড পরীক্ষা" করতে পারেন। এটি করার জন্য একটি চার্ট চিত্র 15.11 এ দেওয়া হয়েছে যেখানে size4 টি পৃথক ভবিষ্যদ্বাণীকের সম্মিলিত অবদানের প্রতিনিধিত্ব করে।


6

সংক্ষিপ্ত উত্তরটি হ'ল এই প্রশ্নের উত্তর দেওয়ার কোনও একক, "ডান" উপায় নেই।

ইস্যুগুলির সর্বোত্তম পর্যালোচনার জন্য উলরিক গ্রোমপিংয়ের কাগজপত্রগুলি দেখুন, যেমন, বৈচিত্র্য পঁচার উপর ভিত্তি করে লিনিয়ার রেগ্রেশন সম্পর্কিত আপেক্ষিক গুরুত্বের অনুমানকারী । তিনি সহজ বিকল্পগুলি থেকে পরিশীলিত, সিপিইউ নিবিড়, বহুবিধ সমাধানগুলিতে বিস্তৃত বিকল্পগুলি আলোচনা করেন।

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

গ্রাম্পিং তার নিজস্ব পদ্ধতির প্রস্তাব দেয় আরএলআইএমপিও নামক একটি আর প্যাকেজে যা পড়ার মতো।

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

একটি তাত্পর্যপূর্ণ ও নোংরা হিউরিস্টিক যা আমি ব্যবহার করেছি তা হ'ল প্রতিটি প্যারামিটারের সাথে যুক্ত চি-স্কোয়ারগুলি (এফ মান, টি-পরিসংখ্যান) যোগ করে তার পরে সেই পরিমাণের সাথে পৃথক মানগুলি পুনরায় অঙ্কন করা। ফলাফলটি র‌্যাঙ্কেবল আপেক্ষিক গুরুত্বের একটি মেট্রিক।

এটি বলেছিল, আমি কখনই "মানকৃত বিটা সহগ" এর অনুরাগী হইনি যদিও সেগুলি পেশার দ্বারা প্রায়শই সুপারিশ করা হয় এবং ব্যাপকভাবে ব্যবহৃত হয়। তাদের সাথে এখানে সমস্যাটি রয়েছে: মানককরণটি মডেল সমাধানের তুলনায় অদ্বিতীয় এবং বাহ্যিক। অন্য কথায়, এই পদ্ধতির মডেলের ফলাফলগুলির শর্তসাপেক্ষ প্রকৃতি প্রতিফলিত হয় না।


উত্তর এবং লিঙ্কগুলির জন্য ধন্যবাদ! আপনি কী "মডেল সমাধানের বাহ্যিক" এবং "মডেলের ফলাফলগুলির শর্তসাপেক্ষ প্রকৃতি" বলতে বোঝায় বা আমাকে বুঝতে সাহায্য করতে পারেন? (হায়, আমি পরিসংখ্যানের বিশেষজ্ঞ নই))
ডিডাব্লু

1
কোন চিন্তা করো না. মডেলগুলির মধ্যে অন্যান্য বিষয়গুলির জন্য কীভাবে মডেলগুলি "নিয়ন্ত্রণ" বা শর্তের ধারণা, সেই বিষয়গুলির মধ্যে একটি হতে পারে যার উপর অনেক পরিসংখ্যানবিদরা আসলে একমত হতে পারেন। এটি এমন একটি বিষয়ও যা এই সাইটে প্রচুর ভাষ্য দেখা যায়। এখানে এই জাতীয় একটি থ্রেডের লিঙ্ক এখানে দেওয়া হয়েছে: stats.stackexchange.com/questions/17336/… @ এর সেরা মন্তব্যগুলির মধ্যে একটি ছিল @ শুভর যারা বলেছিলেন, 'আপনি "অ্যাকাউন্টিং হিসাবে" নিয়ন্ত্রণ "করার কথা ভাবতে পারেন (কমপক্ষে বর্গক্ষেত্রের দিক থেকে) ) অন্যান্য সমস্ত ভেরিয়েবলের ক্ষেত্রে একটি ভেরিয়েবলের অবদান / প্রভাব / প্রভাব / সংস্থার জন্য ''
মাইক হান্টার

ধন্যবাদ! আমি কিছু কারণের "নিয়ন্ত্রণের জন্য" ধারণার সাথে পরিচিত। "মডেল সমাধানের বাহ্যিক" বা "মডেলের ফলাফলগুলির শর্তসাপেক্ষ প্রকৃতি" এর অর্থ কীভাবে এটি সম্পর্কিত বা বুঝতে সহায়তা করে?
ডিডব্লিউ

"স্ট্যান্ডার্ডাইজড বিটা" তৈরির জন্য ভবিষ্যদ্বাণীদের মানককরণ সাধারণত কোনও মডেল তৈরি হওয়ার আগেই করা হয়, তাই না? অতএব, সেই রূপান্তরটি মডেলের সমাধানে "বাহ্যিক"। এতদিন আমার সাথে?
মাইক হান্টার

ঠিক আছে. আপনি এখন "বাহ্যিক" বলতে কী বোঝাতে চেয়েছি তা বুঝতে পারি - ব্যাখ্যাটির জন্য ধন্যবাদ। আপনি কেন ব্যাখ্যা করতে পারেন যে এটি কেন সমস্যা, এবং "শর্তসাপেক্ষ প্রকৃতি ..." বলতে কী বোঝায়? (সম্ভবত এই দুটি প্রশ্ন একই উত্তর সহ একই প্রশ্ন ...) মরিচের জন্য দুঃখিত আপনাকে প্রশ্ন সহ! আপনি যা লিখেছেন তা বুঝতে আগ্রহী।
ডিডাব্লু

3

এটি করার মোটামুটি শক্তিশালী উপায় হ'ল এন বৈশিষ্ট্যের সংখ্যা হ'ল এন বারের মডেলটিকে ফিট করার চেষ্টা করা। প্রতিবারের বৈশিষ্ট্যগুলির N-1 ব্যবহার করুন এবং একটি বৈশিষ্ট্য রেখে দিন। তারপরে আপনি প্রতিটি বৈশিষ্ট্যের অন্তর্ভুক্তি বা বাদ দিয়ে মডেলের কর্মক্ষমতাকে কতটা প্রভাবিত করে তা পরিমাপ করতে আপনি আপনার প্রিয় বৈধতা মেট্রিক ব্যবহার করতে পারেন। আপনার কাছে থাকা বৈশিষ্ট্যের সংখ্যার উপর নির্ভর করে এটি গণনা ব্যয়বহুল হতে পারে।


4
এটি পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি ভালভাবে পরিচালনা করে না। এমন দুটি পরিস্থিতি খুব সহজেই সংযুক্ত করা যায় যেখানে দুটি বৈশিষ্ট্য অত্যন্ত সংযুক্ত থাকে, যার মধ্যে উভয়টির একটি অপসারণ করলে ভবিষ্যদ্বাণীপূর্ণ ক্ষমতাকে ন্যূনতমভাবে প্রভাবিত করে, তবে উভয় প্রভাবই এটি গুরুতরভাবে অপসারণ করে । মূলত, এমন একটি যাতে দুজন ভবিষ্যদ্বাণীকারী প্রায় অভিন্ন, তবে গুরুত্বপূর্ণ, তথ্য বহন করে।
ম্যাথু ড্রুরি

2
আমি রাজী. সহগের পরীক্ষা করার সময় এটিও একটি বিপদ।
ড্যানিয়েল জনসন

1
কিছুটা সত্য. কিছুটা সত্য.
ম্যাথু ড্রুরি

2

|βj^||βj^|σ^jxj। এটির সাথে একটি সমস্যা হ'ল আপনি যখন সংখ্যার ভবিষ্যদ্বাণীকারীদের সাথে আর व्यवहार করবেন না তখন তা ভেঙে যায়।

আপনার শেষ পয়েন্টটি সম্পর্কে, অবশ্যই এটি সম্ভব যে কোনও পরিবর্তনশীল আনুষ্ঠানিকভাবে "সত্য" লগ প্রতিক্রিয়াগুলিকে প্রভাবিত না করে অনুমিত লগ প্রতিকূলগুলিতে প্রচুর অবদান রাখতে পারে, তবে আমরা মনে করি না যে এটি যদি খুব বেশি উদ্বেগের হয় তবে আমাদের যদি মনে হয় পদ্ধতিটি যে অনুমান উত্পাদন করে কোন বিশ্বাস আছে।


0

আপনি কেন সহগগুলি প্রাসঙ্গিকতার হিসাবে ব্যবহার করবেন না সে সম্পর্কে আপনি সঠিক, তবে আপনি যদি তাদের মানক ত্রুটির দ্বারা বিভক্ত করেন তবে আপনি নিখুঁতভাবে করতে পারেন! আপনি যদি আর এর সাথে মডেলটি অনুমান করেন তবে এটি ইতিমধ্যে আপনার জন্য সম্পন্ন হয়েছে! এমনকি আপনি মডেল থেকে কমপক্ষে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিও সরিয়ে ফেলতে পারেন এবং এটি কীভাবে কাজ করে তা দেখতে পারেন।

ভেরিয়েবলের বিভিন্ন পরিবর্তন কীভাবে ফলাফলের পরিবর্তন ঘটায় তা অধ্যয়নের জন্য আরও তাত্ত্বিক দৃষ্টিভঙ্গি: বিভিন্ন ইনপুট চেষ্টা করুন এবং তাদের আনুমানিক সম্ভাব্যতাগুলি অধ্যয়ন করুন। তবে, যেমন আপনার মডেলটি বেশ সহজ, আমি তার থেকেও বেশি সময় নেব

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.