বৈষম্যমূলক বিশ্লেষণ বনাম লজিস্টিক রিগ্রেশন


16

আমি বৈষম্যমূলক বিশ্লেষণের কিছু কৌশল পেয়েছি এবং সেগুলি সম্পর্কে আমার কাছে প্রশ্ন রয়েছে। তাই:

যখন ক্লাসগুলি ভালভাবে পৃথক করা হয়, লজিস্টিক রিগ্রেশনের জন্য প্যারামিটারের অনুমানগুলি আশ্চর্যজনকভাবে অস্থির হয়। গুণাগুণগুলি অনন্ত যেতে পারে। এলডিএ এই সমস্যায় ভুগছে না।

বৈশিষ্ট্যগুলির সংখ্যা যদি ছোট হয় এবং প্রতিটি শ্রেণীর মধ্যে পূর্বাভাসকারীদের বিতরণ প্রায় স্বাভাবিক হয়, লিনিয়ার বৈষম্যমূলক মডেলটি আবার লজিস্টিক রিগ্রেশন মডেলের চেয়ে স্থিতিশীল।এক্স

  1. স্থায়িত্ব কী এবং কেন এটি গুরুত্বপূর্ণ? (যদি লজিস্টিক রিগ্রেশন একটি ভাল ফিট সরবরাহ করে যা এটির কাজটি করে তবে আমি কেন স্থিতির যত্ন নেব?)

এলডিএ জনপ্রিয় যখন আমাদের দুটিরও বেশি প্রতিক্রিয়া শ্রেণি থাকে, কারণ এটি ডেটার নিম্ন-মাত্রিক দৃষ্টিভঙ্গিও সরবরাহ করে।

  1. আমি এটা বুঝতে পারি না। এলডিএ কীভাবে নিম্ন-মাত্রিক দর্শন দেয়?
  2. যদি আপনি আরও ভাল বা কনস নামকরণ করতে পারেন, এটি দুর্দান্ত।

3
আপনি এই বিষয়ে অন্যান্য প্রশ্ন / এ পড়তে চাইতে পারেন (এলডিএ বনাম লজিস্টিক)। এই সাইটটি অনুসন্ধান করুন।
ttnphns

উত্তর:


13

ক্লাসগুলি ভালভাবে বিচ্ছিন্ন হয়ে গেলে লজিস্টিক রিগ্রেশনটির জন্য প্যারামিটারের অনুমানগুলি আশ্চর্যজনকভাবে অস্থির হয়। গুণাগুণগুলি অনন্ত যেতে পারে। এলডিএ এই সমস্যায় ভুগছে না।

যদি কোভেরিয়েট মান থাকে যা বাইনারি ফলাফলের সঠিকভাবে পূর্বাভাস দিতে পারে তবে লজিস্টিক রিগ্রেশন, অর্থাৎ ফিশার স্কোরিংয়ের অ্যালগোরিদম এমনকি রূপান্তরিত করে না। আপনি যদি আর বা এসএএস ব্যবহার করে থাকেন তবে আপনি একটি সতর্কতা পাবেন যে শূন্যের সম্ভাবনাগুলি গণনা করা হয়েছিল এবং অ্যালগরিদম ক্র্যাশ হয়েছে। এটি নিখুঁত পৃথকীকরণের চূড়ান্ত ক্ষেত্রে তবে ডেটা কেবলমাত্র একটি দুর্দান্ত ডিগ্রীতে পৃথক করা হয় এবং নিখুঁতভাবে না হলেও সর্বাধিক সম্ভাবনা অনুমানকারী উপস্থিত নাও হতে পারে এবং এটি উপস্থিত থাকলেও অনুমানগুলি নির্ভরযোগ্য নয়। ফলস্বরূপ ফিটটি মোটেই ভাল নয়। এই সাইটে বিচ্ছেদের সমস্যা নিয়ে কাজ করার জন্য অনেকগুলি থ্রেড রয়েছে তাই সর্বদা এক নজরে দেখুন।

বিপরীতে, ফিশারের বৈষম্যমূলক আচরণের সাথে প্রায়শই অনুমানের সমস্যার মুখোমুখি হয় না। এটি এখনও ঘটতে পারে যদি কোভারিয়েন্স ম্যাট্রিক্সের মধ্যে বা এর মধ্যে হয় তবে একক হয় তবে এটি একটি বিরল উদাহরণ। প্রকৃতপক্ষে, যদি সম্পূর্ণ বা আধা-সম্পূর্ণ বিচ্ছেদ হয় তবে সমস্ত ভাল কারণ বৈষম্যমূলক সফল হওয়ার সম্ভাবনা বেশি।

এটিও উল্লেখযোগ্য যে জনপ্রিয় বিশ্বাসের বিপরীতে এলডিএ কোনও বিতরণ অনুমানের ভিত্তিতে নয়। আমাদের কেবল স্পষ্টতই জনসংখ্যার কোভরিয়েন্স ম্যাট্রিক্সের সমতা প্রয়োজন কারণ পোলড অনুমানকারী কোভেরিয়েন্স ম্যাট্রিক্সের মধ্যে ব্যবহার করা হয়। স্বাভাবিকতার অতিরিক্ত অনুমান, সমান পূর্বের সম্ভাব্যতা এবং ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অধীনে, এলডিএ এই অর্থে সর্বোত্তম যে এটি ভুল-শ্রেণিবদ্ধকরণ সম্ভাবনা হ্রাস করে।

এলডিএ কীভাবে নিম্ন-মাত্রিক দর্শন দেয়?

দুটি জনসংখ্যা এবং দুটি ভেরিয়েবলের ক্ষেত্রে এটি দেখতে আরও সহজ। এই ক্ষেত্রে এলডিএ কীভাবে কাজ করে তার চিত্রিত উপস্থাপনা এখানে। মনে রাখবেন যে আমরা ভেরিয়েবলগুলির লিনিয়ার সংমিশ্রণগুলি সন্ধান করছি যা বিচ্ছিন্নতা সর্বাধিক করে তোলে। এখানে চিত্র বর্ণনা লিখুন

অতএব ডেটা ভেক্টরটির জন্য অনুমান করা হয় যার দিকনির্দেশ এই বিচ্ছেদটি আরও ভালভাবে অর্জন করে। আমরা কীভাবে আবিষ্কার করি যে ভেক্টরটি লিনিয়ার বীজগণিতের একটি আকর্ষণীয় সমস্যা, আমরা মূলত একটি রেলেইগ ভাগফলকে সর্বাধিক করে তুলি তবে আসুন এখনই এটিকে একপাশে রেখে দিন। যদি সেই ভেক্টরের উপর ডেটা প্রজেক্ট করা হয়, তবে মাত্রাটি দুটি থেকে এক থেকে কমে গেছে।

পি সর্বনিম্ন(-1,পি)

যদি আপনি আরও ভাল বা কনস নামকরণ করতে পারেন, এটি দুর্দান্ত।

নিম্ন-মাত্রিক প্রতিনিধিত্ব তবুও ত্রুটিগুলি ব্যতীত আসে না, সবচেয়ে গুরুত্বপূর্ণ হ'ল অবশ্যই তথ্য হারাতে। ডেটা রৈখিকভাবে পৃথকভাবে পৃথক করার সময় এটি কোনও সমস্যার কম হয় তবে সেগুলি না হলে তথ্যের ক্ষয়ক্ষতি যথেষ্ট হতে পারে এবং শ্রেণিবদ্ধী খুব খারাপ আচরণ করতে পারে।

এমন কিছু ঘটনাও ঘটতে পারে যেখানে কোভেরিয়েন্স ম্যাট্রিক্সের সাম্যতা একটি স্থায়ী ধারণা নাও হতে পারে। আপনি এটি নিশ্চিত করার জন্য একটি পরীক্ষা নিযুক্ত করতে পারেন তবে এই পরীক্ষাগুলি স্বাভাবিকতা থেকে বিদায় নেওয়ার পক্ষে অত্যন্ত সংবেদনশীল তাই আপনার এই অতিরিক্ত অনুমান করা এবং এটির জন্য পরীক্ষাও করা দরকার। যদি এটিতে পাওয়া যায় যে অসম কোভেরিয়েন্স ম্যাট্রিক্সের সাথে জনসংখ্যা স্বাভাবিক থাকে তবে পরিবর্তে একটি চতুর্ভুজ শ্রেণিবিন্যাসের নিয়ম ব্যবহার করা যেতে পারে (কিউডিএ) তবে আমি দেখতে পাচ্ছি যে এটি একটি বরং বিশ্রী নিয়ম, উচ্চ মাত্রায় বিপরীতে উল্লেখ করার জন্য নয়।

সামগ্রিকভাবে, এলডিএর প্রধান সুবিধা হ'ল একটি সুস্পষ্ট সমাধানের উপস্থিতি এবং এর গণ্য সুবিধার যা এসভিএম বা নিউরাল নেটওয়ার্কগুলির মতো আরও উন্নত শ্রেণিবিন্যাস কৌশলগুলির ক্ষেত্রে নয়। আমরা যে মূল্য দিচ্ছি তা হ'ল অনুমানের সেট যা লিনিয়ার বিচ্ছিন্নতা এবং সমবায় ম্যাট্রিক্সের সমতা।

আশাকরি এটা সাহায্য করবে.

সম্পাদনা : আমি আমার দাবি সন্দেহ করি যে এলডিএ যে নির্দিষ্ট ক্ষেত্রে উল্লেখ করেছি সেগুলি সম্পর্কে সমবায় ম্যাট্রিক্সের সাম্যতা ব্যতীত অন্য কোনও বিতরণী অনুমানের প্রয়োজন নেই, আমাকে ডাউনওয়েতে ব্যয় করেছে। তবুও এটি কম সত্য নয় তবে আমাকে আরও নির্দিষ্ট করে তুলুন।

এক্স¯আমি, আমি=1,2এসpooled

সর্বোচ্চএকটি(একটিটিএক্স¯1-একটিটিএক্স¯2)2একটিটিএসpooledএকটি=সর্বোচ্চএকটি(একটিটি)2একটিটিএসpooledএকটি

এই সমস্যার সমাধান (একটি ধ্রুবক পর্যন্ত) দেখানো যেতে পারে

একটি=এসpooled-1=এসpooled-1(এক্স¯1-এক্স¯2)

এটি আপনি যে এলডিএর স্বাভাবিকতা, সমান কোভেরিয়েন্স ম্যাট্রিক্স, বিযুক্তি ব্যয় এবং পূর্বের সম্ভাব্যতার অনুমানের অধীনে সমান, তাই না? তবে হ্যাঁ, এখন যে আমরা ছাড়া নি স্বাভাবিক বাঁধলাম।

কোভারিয়েন্স ম্যাট্রিক্স সত্যই সমান না হলেও, সমস্ত সেটিংসে উপরের বৈষম্যমূলক ব্যবহার থেকে আপনাকে বিরত করার কিছুই নেই। এটি ভুলবিত্তের প্রত্যাশিত ব্যয়ের (ইসিএম) বিবেচনায় অনুকূল নাও হতে পারে তবে এটি তদারকি করা তত্ত্বাবধান হয় যাতে আপনি সর্বদা হোল্ড-আউট পদ্ধতি ব্যবহার করে এর কার্যকারিতা মূল্যায়ন করতে পারেন।

তথ্যসূত্র

বিশপ, প্যাটার্ন স্বীকৃতির জন্য ক্রিস্টোফার এম নিউরাল নেটওয়ার্কগুলি। অক্সফোর্ড বিশ্ববিদ্যালয় প্রেস, 1995।

জনসন, রিচার্ড আর্নল্ড, এবং ডিন ডব্লিউ। উইচারন hern মাল্টিভারিয়েট পরিসংখ্যান বিশ্লেষণ প্রয়োগ করা হয়েছে। ভোল। 4. এনগলউড ক্লিফস, এনজে: প্রিন্টাইস হল, 1992 1992


1
(আমি যে ব্যবহারকারীকে নিম্নোক্ত করেছিলাম তা নয়)। ফ্র্যাঙ্ক হেরেলের সাথে আপনার উত্তরটির পুনর্মিলন করার চেষ্টা করার জন্য, আমার কাছে মনে হয়েছে যে এখনও একটিটিকে ধরে নিতে হবে যে সমস্ত পরিবর্তনশীল অবিচ্ছিন্ন (অন্যথায়, আমি মনে করি রায়লেগ ভাগফলের সর্বাধিকটি অনন্য হবে না)।
ব্যবহারকারী 60

1
@ ব্যবহারকারী 603 আমি এই শর্তটি কোথাও দেখিনি। সমাধান কেবল যাইহোক স্থির পর্যন্ত নির্ধারিত হয়।
JohnK

জন, কল্পনা করুন যে এখানে কেবলমাত্র 2 শ্রেণি (এবং কেবলমাত্র একটি বৈষম্যমূলক লাইন) অভিন্ন, প্রতিসম (উপবৃত্তাকার) বিতরণ এবং সমান পূর্বের সম্ভাবনা রয়েছে। তারপরে আমাদের প্রকৃতপক্ষে সাধারণ বন্টন অনুমান করার দরকার নেই কারণ আমরা ক্লাসে কেস বরাদ্দ করার জন্য কোনও পিডিএফ প্রেরণ করি না। আরও জটিল সেটিংসে (যেমন 3+ ক্লাস) আমাদের কিছু পিডিএফ ব্যবহার করতে হবে এবং এটি সাধারণত স্বাভাবিক।
ttnphns

1
ওয়াট-1বিওয়াটবি

1
জন, আপনার শেষ মন্তব্যটি আপনার এবং আমি সম্মত।
ttnphns

10

এলডিএ লজিস্টিক রিগ্রেশনের বিপরীতে মারাত্মক বিতরণ অনুমান (সমস্ত ভবিষ্যদ্বাণীকের বহুবিধ স্বাভাবিকতা) করে। সাবজেক্টের লিঙ্গের ভিত্তিতে শ্রেণীর সদস্যতার উত্তরোত্তর সম্ভাবনাগুলি পাওয়ার চেষ্টা করুন এবং আপনি কী বোঝাতে চাইছেন তা দেখবেন - সম্ভাবনাগুলি সঠিক হবে না।

ওয়াই=1β±±30

দেখুন এই আরও তথ্যের জন্য।

নোট করুন যে যদি ব্যয়েসের উপপাদ্যটি লজিস্টিক রিগ্রেশন ধারনা ধরে রাখে তবে বৈষম্যযোগ্য স্বাভাবিকতা ধরে রাখে। বিপরীত সত্য নয়।

স্বাভাবিকতা (বা খুব স্বল্পতম প্রতিসামগ্রীতে) অবশ্যই "কাজটি করতে" বৈকল্পিক এবং সমবায়িকাগুলির জন্য অবশ্যই ধরে রাখতে হবে। অ-মাল্টিভারিয়েট সাধারণত বিতরণ করা ভবিষ্যদ্বাণীকারীরা এমনকি বৈষম্যমূলক নিষ্কাশন পর্বকে আঘাত করবে।


1
আমার মতে, এলডিএর শ্রেণিবিন্যাস (শ্রেণি পূর্বাভাস) পর্যায়ে স্বাভাবিকতার নির্দিষ্টতা প্রয়োজন। বৈষম্যমূলক নিষ্কাশন (মাত্রিকতা হ্রাস) পর্যায়ে এটি প্রয়োজন হয় না, যা এখনও, বৈচিত্র্য-covariance একত্রিতাই অনুমান করে। (মজার বিষয় হল যে পরবর্তী অনুমানটি শ্রেণিবিন্যাসে কিছুটা মুক্তি পেতে পারে : আপনি সেখানে বৈষম্যমূলকদের জন্য পৃথক শ্রেণীর
সমবায়

3
tt

2
টি

2
হ্যাঁ এসডি বিভিন্ন অনুমান করে এবং অ-শক্তিশালী। স্বল্প মাত্রায় গড় কিছু অনুমানকে অর্থবহ করে তোলে। স্বল্প স্কোয়ার, পিসিএ এবং এলডিএ কার্যকরভাবে অনেকগুলি মনে করে বিতরণ অনুমান করে।
ফ্রাঙ্ক হ্যারেল

2
আমি এই যুক্তি দ্বারা নিশ্চিত নই এবং আমি এখনও বিশ্বাস করি যে ডাউনভোটটি অন্যায্য ছিল তবে আমি এই বিষয়ে কোনও কর্তৃত্ব নই। আমার দেওয়া রেফারেন্সগুলি আপনাকে তবে এটিই বলবে।
JohnK

0

যখন ক্লাসগুলি ভালভাবে পৃথক করা হয়, লজিস্টিক রিগ্রেশনের জন্য প্যারামিটারের অনুমানগুলি আশ্চর্যজনকভাবে অস্থির হয়। গুণাগুণগুলি অনন্ত যেতে পারে। এলডিএ এই সমস্যায় ভুগছে না।

দাবি অস্বীকার: এখানে যা অনুসরণ করা হয়েছে তাতে গাণিতিক দৃor়তার অভাব রয়েছে।

একটি (ননলাইনার) ফাংশনটি ভালভাবে ফিট করার জন্য আপনাকে ফাংশনের সমস্ত অঞ্চলে পর্যবেক্ষণ করতে হবে যেখানে "এর আকার পরিবর্তন হয়"। লজিস্টিক রিগ্রেশন ডেটার সাথে একটি সিগময়েড ফাংশন ফিট করে:

এখানে চিত্র বর্ণনা লিখুন

ভালভাবে বিচ্ছিন্ন শ্রেণীর ক্ষেত্রে সমস্ত পর্যবেক্ষণগুলি দুটি "প্রান্ত" এ নেমে আসবে যেখানে সিগময়েড তার অ্যাসিম্পটোটস (0 এবং 1) এর নিকটবর্তী হয়। যেহেতু এই অঞ্চলে সমস্ত সিগময়েডগুলি "একই দেখায়", তাই বলার জন্য, অবাক হওয়ার মতো কোনও কারণ নেই যে দরিদ্র ফিটিং অ্যালগরিদমকে "সঠিকটি" খুঁজে পেতে সমস্যা হবে।

আসুন আর এর glm()ফাংশন সহ গণনা করা দুটি (আশাবাদী শিক্ষামূলক) উদাহরণ দেখুন ।

কেস 1: দুটি গ্রুপ বেশ কিছুটা পরিমাণে ওভারল্যাপ করে:

এখানে চিত্র বর্ণনা লিখুন

এবং পর্যবেক্ষণগুলি লাগানো সিগময়েডের ইনফ্লেকশন পয়েন্টের চারপাশে সুন্দরভাবে বিতরণ করে:

এখানে চিত্র বর্ণনা লিখুন

এগুলি হ'ল নিম্নমানের ত্রুটিযুক্ত পরামিতিগুলি:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

এবং বিচ্যুতিও ঠিক আছে:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

কেস 2: দুটি গ্রুপ ভালভাবে পৃথক করা হয়েছে:

এখানে চিত্র বর্ণনা লিখুন

এবং পর্যবেক্ষণগুলি সমস্ত অ্যাসেম্পটোটগুলিতে ব্যবহারিকভাবে থাকে। glm()ফাংশন তার শ্রেষ্ঠ চেষ্টা কিছু মাপসই, কিন্তু অভিযোগ সম্পর্কে সংখ্যাসূচকভাবে 0 বা 1 সম্ভাব্যতা, সহজভাবে কোন পর্যবেক্ষণ তার সুর-ভাঁজা বিন্দুর চারিদিকে "সিগমা অধিকার আকৃতি পেতে" কাছে উপলভ্য আছে কারণ:

এখানে চিত্র বর্ণনা লিখুন

আনুমানিক পরামিতিগুলির স্ট্যান্ডার্ড ত্রুটিগুলি ছাদ দিয়ে যায় তা উল্লেখ করে আপনি সমস্যাটি সনাক্ত করতে পারেন:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

এবং একই সময়ে বিচ্যুতি সন্দেহজনকরূপে ভাল দেখায় (কারণ পর্যবেক্ষণগুলি অ্যাসিম্পোটোটোগুলিকে ভাল মানায়):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

কমপক্ষে স্বজ্ঞাতভাবে এই বিবেচনাগুলি থেকে পরিষ্কার হওয়া উচিত যে কেন "লজিস্টিক রিগ্রেশনের জন্য প্যারামিটারের অনুমানগুলি আশ্চর্যজনকভাবে অস্থির"।


@ ফ্র্যাঙ্ক হ্যারেলের উত্তর দেখুন যা আপনার সাথে স্পষ্টভাবে একমত নয়! এবং এর লিঙ্কগুলি এবং রেফারেন্সগুলি অধ্যয়ন করুন ...
kjetil b halvorsen

@ কেজেটিভালভর্সেন আমার মূল বিষয়টি "আশ্চর্যজনকভাবে অস্থির" ফিটের একটি স্বজ্ঞাত চিত্র ration আমি এলডিএ উল্লেখ করে শেষ বাক্যটি সরিয়েছি।
ল্যারিক্স ডিসিডুয়া
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.