লজিস্টিক রিগ্রেশনে ভেরিয়েবলের গুরুত্ব


11

আমি সম্ভবত এমন একটি সমস্যা মোকাবিলা করছি যা সম্ভবত একশোবার আগেই সমাধান হয়ে গেছে তবে উত্তর কোথায় পাওয়া যাবে তা আমি নিশ্চিত নই।

লজিস্টিক রিগ্রেশন ব্যবহার করার সময়, অনেকগুলি বৈশিষ্ট্য প্রদত্ত এবং বাইনারি শ্রেণিবদ্ধ মান পূর্বাভাস দেওয়ার চেষ্টা করার সময় , আমি বৈশিষ্ট্যগুলির একটি উপসেট নির্বাচন করতে আগ্রহী যা y এর পূর্বাভাস দেয় ।x1,...,xnyy

লসোর মতো কোনও পদ্ধতিও ব্যবহার করা যেতে পারে? (আমি কেবল লিনিয়ার রিগ্রেশন জন্য ব্যবহৃত লসো দেখেছি))

লাগানো মডেলের সহগের দিকে তাকানো কি বিভিন্ন বৈশিষ্ট্যের গুরুত্বের সূচক?

সম্পাদনা করুন - উত্তরগুলির কয়েকটি দেখার পরে স্পষ্টতা:

  1. আমি যখন লাগানো গুণাগুণগুলির বিশালতা উল্লেখ করি, তখন আমি বোঝায় যেগুলি সাধারণকরণ (যার অর্থ 0 এবং বৈকল্পিক 1) বৈশিষ্ট্যযুক্ত। অন্যথায়, @ প্রব্যাবিলিটিস্লোগিক হিসাবে উল্লেখ করা হয়েছে যে, 1000x x এর চেয়ে কম গুরুত্বপূর্ণ প্রদর্শিত হবে।

  2. আমি কেবল সেরা কে-সাবসেটটি অনুসন্ধান করতে আগ্রহী নই (যেমন ডেভিড প্রস্তাব দিচ্ছিল), তবে একে অপরের সাথে সম্পর্কিত বিভিন্ন বৈশিষ্ট্যের গুরুত্ব বিবেচনা করুন। উদাহরণস্বরূপ, একটি বৈশিষ্ট্য "বয়স" এবং অন্য বৈশিষ্ট্যটি "বয়স> 30" হতে পারে। তাদের বর্ধমান গুরুত্ব কম হতে পারে, তবে উভয়ই গুরুত্বপূর্ণ হতে পারে।

উত্তর:


8

ডিউইনের প্রতিক্রিয়া উত্তরটি দেয় তবে সামান্য অন্তর্দৃষ্টি দেয়, তাই আমি ভেবেছিলাম যে এটির কিছু ব্যাখ্যা দেওয়ার জন্য এটি দরকারী।

আপনার যদি দুটি ক্লাস থাকে তবে আপনি মূলত অনুমান করার চেষ্টা করছেন । এটি আপনার প্রয়োজন এবং লজিস্টিক রিগ্রেশন মডেল ধরে নেয় যে:p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

কি আমি মনে করি আপনি বৈশিষ্ট্যটির গুরুত্ব অনুসারে অর্থ কিভাবে এটি প্রভাবিত হয় বা অন্য কথায় কি।jppxij

একটি ছোট রূপান্তর পরে আপনি এটি দেখতে পারেন

p=eβ0+β1Txi1+eβ0+β1Txi

একবার আপনি আপনার ডেরাইভেটিভ গণনা করলে আপনি এটি দেখতে পাবেন

pxij=βjeβ0+β1Txi

এটি স্পষ্টভাবে অন্যান্য সমস্ত ভেরিয়েবলের মানের উপর নির্ভর করে। তবে আপনি লক্ষ করতে পারেন যে সহগের SIGN আপনার পছন্দ মতো ব্যাখ্যা করতে পারে: যদি এটি নেতিবাচক হয় তবে এই বৈশিষ্ট্যটি সম্ভাবনা হ্রাস করে p।

এখন আপনার অনুমানের পদ্ধতিতে আপনি অনুমান করার চেষ্টা করছেন আপনার মডেলটিকে সঠিক বলে ধরে নিচ্ছে। নিয়মিতকরণের মাধ্যমে আপনি এই অনুমানগুলির মধ্যে কিছু পক্ষপাতিত্ব চালু করেন। একটি রিজ রিগ্রেশন এবং স্বতন্ত্র ভেরিয়েবলের জন্য আপনি একটি বদ্ধ ফর্ম সমাধান পেতে পারেন:β

βr^=β^β^+λ

আপনি দেখতে পাচ্ছেন এটি আপনার সহগের চিহ্নকে পরিবর্তন করতে পারে তাই এমনকি ব্যাখ্যাটি পৃথক পৃথক হয়ে যায়।


1
টাইপ ইক 1 এর ডোনমোনেটরে?
ফার্নান্দো

7

আপনার শেষ প্রশ্নের উত্তর একটি সমতল নম্বর। সহগের পরিমাণগুলি কোনওভাবেই গুরুত্বের পরিমাপ হয় না। লাসো লজিস্টিক রিগ্রেশন জন্য ব্যবহার করা যেতে পারে। আপনাকে আরও সুনিশ্চিতভাবে এই অঞ্চলটি অধ্যয়ন করতে হবে। আপনার যে পদ্ধতিগুলি অধ্যয়ন করতে হবে সেগুলি হ'ল "দন্ডিত" পদ্ধতিগুলি involve যদি আপনি সনাক্তকরণের পদ্ধতিগুলি সন্ধান করছেন যা "ছায়াময়" ভবিষ্যদ্বাণীদের উদ্ঘাটন করে, এমন একটি শব্দ যা কোথাও সংজ্ঞায়িত হতে পারে তবে সাধারণ ব্যবহারে হয় না, তবে আপনাকে ভবিষ্যদ্বাণীকারী স্থানের মধ্যে ইন্টারঅ্যাকশন এবং অ-লিনিয়ার কাঠামো পরিদর্শনকারী পদ্ধতিগুলির সন্ধান করতে হবে সেই জায়গাতে ফলাফলের যোগসূত্র। ফ্র্যাঙ্ক হ্যারেলের লেখা "রিগ্রেশন মডেলিং স্ট্র্যাটেজিজ" এ এই বিষয়গুলি এবং পদ্ধতিগুলি সম্পর্কে বেশ খানিকটা আলোচনা রয়েছে।

পশ্চাদপদ নির্বাচন কৌশল বৈধ ফলাফল প্রদান করতে ব্যর্থ হবে (যদিও এটি ফলাফল প্রদান করে)। যদি আপনি 100 টি ইভেন্টের জন্য 20 এলোমেলো ভবিষ্যদ্বাণীগুলির একটি ক্ষেত্রে তাকান তবে আপনি সম্ভবত 2 বা 3 দেখতে পাবেন যা একটি পশ্চাদপদ নির্বাচন প্রক্রিয়া সহ নির্বাচিত হবে। বাস্তব বিশ্বে পশ্চাদপদ নির্বাচনের বিস্তারটি সতর্কতার সাথে পরিসংখ্যানগত চিন্তাধারা নয় বরং এসএএস এবং এসপিএসএসে এর সহজ প্রাপ্যতা এবং সেই পণ্যগুলির ব্যবহারকারীর ভিত্তির পরিশীলতার অভাব প্রতিফলিত করে। আর ব্যবহারকারীর ভিত্তিতে এ জাতীয় পদ্ধতি এবং ব্যবহারকারীরা মেলিং তালিকাগুলিতে অনুরোধ পোস্ট করে এবং তাই তারা সাধারণত পশ্চাদপদ (বা ফরোয়ার্ড) নির্বাচন পদ্ধতির সাথে জড়িত সমস্যা সম্পর্কে পরামর্শ দেয় এমন অ্যাক্সেস পেতে কঠোর সময় দেয়।


1
আমি জানি যে আমার উচিত - আমি কোথা থেকে শুরু করব সে সম্পর্কে কিছু পয়েন্টারকে প্রচুর প্রশংসা করব।
গাই আদিনী

আমি এটির ব্যাক আপ করার জন্য একটি উদাহরণ যুক্ত করব। ধরুন আমরা সেট । তারপর (unpenalised) জন্য আনুমানিক সহগ হতে হবে বার (unpenalised) জন্য আনুমানিক সহগ চেয়ে ছোট । তবে লক্ষ্য করুন যে দুটি ভবিষ্যদ্বাণীকের শক্তি ঠিক একই রকম হবে। xn+1=1000x1xn+11000x1
সম্ভাব্যতাসংক্রান্ত

দয়া করে উপরে আমার মন্তব্যগুলি দেখুন (সাধারণ বৈশিষ্ট্যগুলি ব্যবহার করে)। ধন্যবাদ।
ছেলে আদিনি

ধন্যবাদ. আমি এটি খতিয়ে দেখব। আপনি কি "সাধারণ ভবিষ্যদ্বাণী ব্যবস্থার মধ্যে মিথস্ক্রিয়া এবং অ-রৈখিক কাঠামোর পরিদর্শন" ব্যবহার করার জন্য কয়েকটি সাধারণ অ্যালগরিদমের নাম রাখতে পারেন, বা এটি খুব কেস-কেস-পরিস্থিতি?
লোক আদিনি

আপনি অ-লিনিয়ারিটি অনুসন্ধান করতে রিগ্রেশন স্প্লাইনগুলি ব্যবহার করতে পারেন এবং স্প্লাইন শর্তাদি "ক্রস" হতে পারে, যা 2D পূর্বাভাসের জায়গার এক অঞ্চলে সীমাবদ্ধ এমন প্রভাবগুলির সনাক্তকরণের অনুমতি দেয়। আপনি স্থানীয় প্রতিরোধের পদ্ধতিগুলিও ব্যবহার করতে পারেন। আর-এ সর্বাধিক ব্যবহৃত স্থানীয় রিগ্রেশন পদ্ধতিটি সম্ভবত 'এমজিসিভি' প্যাকেজ, তবে পুরানো 'লোকফিট' প্যাকেজটি এখনও উপলব্ধ।
DWin

-4

ইংরাজী আমার মাতৃভাষা নয় তাই আপনার সমস্যাটি কী তা আমি বুঝতে পারি না তবে আপনি যদি সেরা মডেলটি সন্ধান করতে চান তবে আপনি পিছনের দিকের পদ্ধতিটি ব্যবহার করার চেষ্টা করতে পারেন (এবং শেষ পর্যন্ত ইন্টারঅ্যাকশন যোগ করতে পারেন), সমস্ত কোভেরিয়েটগুলির সাথে একটি মডেল দিয়ে শুরু করে। তারপরে আপনি মডেলটি আপনার প্রপঞ্চটি ভালভাবে বর্ণনা করছে কিনা তা পরীক্ষা করার জন্য আপনি অবশিষ্টগুলি_ভিএস_ ভবিষ্যদ্বাণী করা মান এবং কিউকিউ-প্লট গ্রাফ উভয়টিই দেখতে পারেন


ধন্যবাদ! আমি মনে করি আপনি যা পরামর্শ দিচ্ছেন তা ক্রমবর্ধমান সর্বাধিক সম্পর্কিত বৈশিষ্ট্য যুক্ত করছে। এটি উপলব্ধি করে, তবে বৈশিষ্ট্য বি এর চেয়ে "বৈশিষ্ট্য এ" আরও বেশি গুরুত্বপূর্ণ তা বুঝতে আমাকে সহায়তা করে না উদাহরণস্বরূপ, ধরে নিন যে আমার একটি বৈশিষ্ট্য এক্স, এবং অন্য বৈশিষ্ট্যটি এক্স + <ছোট শব্দ>। তারপরে উভয়ই আসলে দরকারী বৈশিষ্ট্য, তবে একটি অন্যটির দ্বারা ছায়াযুক্ত। আমি এমন একটি পদ্ধতি চাই যা x + <Nise> কেও গুরুত্বপূর্ণ দেখায়।
ছেলে আদিনি

না, একটি পশ্চাৎপদ প্রক্রিয়াটি সমস্ত কোভারিয়েটগুলির সাথে একটি মডেল দিয়ে শুরু হয় এবং তারপরে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে (আপনার কেবলমাত্র উল্লেখযোগ্য সহগের সাথে মডেল না পাওয়া পর্যন্ত) একটি কোভারিয়ট সরান। আমার ধারণা একই লক্ষ্য অর্জনের আরও পরিশীলিত উপায় আছে তবে আমি কেবল একজন স্নাতক শিক্ষার্থী!
ডেভিড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.