রিগ্রেশন এবং লিনিয়ার বৈষম্যমূলক বিশ্লেষণ (এলডিএ) এর মধ্যে কি সম্পর্ক রয়েছে? তাদের মিল এবং পার্থক্য কি? দুটি ক্লাস বা দুটি ক্লাসের বেশি হলে কী কোনও পার্থক্য রয়েছে?
রিগ্রেশন এবং লিনিয়ার বৈষম্যমূলক বিশ্লেষণ (এলডিএ) এর মধ্যে কি সম্পর্ক রয়েছে? তাদের মিল এবং পার্থক্য কি? দুটি ক্লাস বা দুটি ক্লাসের বেশি হলে কী কোনও পার্থক্য রয়েছে?
উত্তর:
আমি এটি গ্রহণ করি যে প্রশ্নটি এলডিএ এবং লিনিয়ার (লজিস্টিক নয়) রিগ্রেশন সম্পর্কিত।
লিনিয়ার রিগ্রেশন এবং লিনিয়ার বৈষম্যমূলক বিশ্লেষণের মধ্যে একটি যথেষ্ট এবং অর্থপূর্ণ সম্পর্ক রয়েছে । যদি নির্ভরশীল ভেরিয়েবল (ডিভি) মাত্র 2 টি গ্রুপ নিয়ে থাকে তবে দুটি বিশ্লেষণ আসলে অভিন্ন। তবুও গণনা পৃথক এবং ফলাফল - প্রতিরোধ এবং বৈষম্যমূলক সহগ - এক নয়, তারা একে অপরের সাথে সমানুপাতিক ।
এখন আরও দ্বি-গ্রুপ পরিস্থিতি। প্রথমে আমাদের উল্লেখ করুন যে এলডিএ (এর উত্সকরণ, শ্রেণিবিন্যাসের পর্যায়ে নয়) প্রচ্ছন্ন পারস্পরিক সম্পর্ক বিশ্লেষণের সমতুল্য (রৈখিকভাবে সম্পর্কিত ফলাফল) হয় যদি আপনি গ্রুপিং ডিভিটিকে ডামি ভেরিয়েবলের একটি সেট (তাদের মধ্যে একটি অপ্রয়োজনীয় বাদ দিয়ে) পরিণত করেন এবং ক্যানোনিকাল করেন "IVs" এবং "ডামি" সেট বিশ্লেষণ। Canonical "IVs" সেট পাশ variates আপনি প্রাপ্ত হয় কি Lda বিভাগ কল "discriminant ফাংশন" বা "discriminants"।
সুতরাং, তবে কীভাবে বিশ্লেষণটি লিনিয়ার রিগ্রেশন সম্পর্কিত? ক্যানোনিকাল বিশ্লেষণ মূলত একটি মানোভা (অর্থে "মাল্টিভারিয়েট মাল্টিপল লিনিয়ার রিগ্রেশন" বা "মাল্টিভারিয়েট জেনারেল লিনিয়ার মডেল") সুপ্ত কাঠামোর গভীরে পরিণত হয়েছেডিভিএস এবং আইভিগুলির মধ্যে সম্পর্কের কথা। এই দুটি প্রকরণটি তাদের আন্তঃসম্পর্ককে সুপ্ত "ক্যানোনিকাল ভেরিয়েটস" এর সাথে সংহত করে। আসুন আমরা সহজ উদাহরণটি গ্রহণ করি, ওয়াই বনাম এক্স 1 এক্স 2 এক্স 3। উভয় পক্ষের মধ্যে সম্পর্কের সর্বাধিকীকরণ হ'ল লিনিয়ার রিগ্রেশন (যদি আপনি এক্স এর মাধ্যমে ওয়াইয়ের পূর্বাভাস করেন) বা - যা একই জিনিস - মানোভা (যদি আপনি ওয়াই দ্বারা এক্স এর পূর্বাভাস করেন)। পারস্পরিক সম্পর্ক একতরফা (একমাত্রা আর ^ 2 = পিল্লাইয়ের ট্রেস সহ) কারণ কম সেট, ওয়াই, কেবল একটি পরিবর্তনশীল নিয়ে গঠিত। এখন এই দুটি সেট নেওয়া যাক: Y1 Y2 বনাম X1 x2 x3। এখানে সর্বাধিক সংযুক্ত হওয়া দ্বি-মাত্রিক কারণ কম সেটটিতে 2 ভেরিয়েবল রয়েছে। পারস্পরিক সম্পর্কের প্রথম এবং শক্তিশালী সুপ্ত মাত্রাটিকে 1 ম ক্যানোনিকাল পারস্পরিক সম্পর্ক বলা হয়, এবং অবশিষ্ট অংশটি এর সাথে অরথোগোনাল, 2 য় ক্যানোনিকাল পারস্পরিক সম্পর্ক। সুতরাং, মানোভা (বা লিনিয়ার রিগ্রেশন) সেটগুলির সম্পূর্ণ দ্বি-মাত্রিক পারস্পরিক সম্পর্কের মধ্যে ভেরিয়েবলের আংশিক ভূমিকা (সহগুণ) কী কী তা জিজ্ঞাসা করে; যখন আধ্যাত্মিক বিশ্লেষণ 1 ম পারস্পরিক সম্পর্কীয় মাত্রায় ভেরিয়েবলের আংশিক ভূমিকা কী তা জিজ্ঞাসা করতে কেবল নীচে যায় এবং দ্বিতীয়টিতে।
সুতরাং, ক্যানোনিকাল পারস্পরিক সম্পর্ক বিশ্লেষণটি মাল্টিভারিয়েট লিনিয়ার রিগ্রেশনকে ডিভি এবং আইভিগুলির মধ্যে সম্পর্কের সুপ্ত কাঠামোতে গভীরতর করে তোলে। বৈষম্যমূলক বিশ্লেষণ ক্যানোনিকাল পারস্পরিক সম্পর্ক বিশ্লেষণের একটি নির্দিষ্ট ক্ষেত্রে ( ঠিক কীভাবে দেখুন )। সুতরাং, এখানে দুটি-গ্রুপ-এর চেয়ে বেশি সাধারণ ক্ষেত্রে এলডিএর সাথে লিনিয়ার রিগ্রেশন সম্পর্কিত সম্পর্ক সম্পর্কে উত্তর ছিল।
মনে রাখবেন যে আমার উত্তরটি এলডিএকে শ্রেণিবদ্ধকরণ কৌশল হিসাবে দেখেনি see আমি এলডিএকে কেবল এক্সট্রাকশন-অফ-ল্যাটেন্টস কৌশল হিসাবে আলোচনা করছিলাম। শ্রেণিবদ্ধকরণটি এলডিএর দ্বিতীয় এবং একা একা পর্যায়ে (আমি এটি এখানে বর্ণনা করেছি )। @ মিশেল চেরনিক তার উত্তরে এটিতে মনোনিবেশ করছিলেন।
regression formulation of LDA
এটি অনুসন্ধান করি তখন এটি খুঁজে পাওয়া আশ্চর্যরকমভাবে কঠিন - 2000 এর পরে একাধিক গবেষণা পত্র প্রকাশিত হয়েছিল যে এই জাতীয় গঠনের অস্তিত্ব নেই বা বলে একটি পরামর্শ দেওয়ার চেষ্টা করছি। সম্ভবত একটি ভাল [পুরানো] রেফারেন্স আছে?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
। W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
। Olcay Kursun et al. Canonical correlation analysis using within-class coupling
। আপনি যদি ইন্টারনেটে এগুলি না পান তবে আমি আপনাকে পাঠাতে পারি। যদি আপনি আরও এবং আরও ভাল উত্সগুলি খুঁজে পান - দয়া করে আমাদের জানান।
এখানে ইফ্রনের একটি গবেষণাপত্রের একটি উল্লেখ রয়েছে: সাধারণ বৈষম্যমূলক বিশ্লেষণের তুলনায় লজিস্টিক রিগ্রেশন এর দক্ষতা , 1975।
আর একটি প্রাসঙ্গিক কাগজ হ'ল এনজি এবং জর্ডান, 2001, অন বৈষম্যমূলক বনাম জেনারেটরি ক্লাসিফায়ার্স: লজিস্টিক রিগ্রেশন এবং নিষ্পাপ বয়েসের তুলনা । এবং এখানে জিউ অ্যান্ড টিটারিংটন , ২০০৮- এর একটি মন্তব্যের একটি বিমূর্তি এখানে ও'নিলের তাঁর পিএইচডি গবেষণামূলক প্রবন্ধ সম্পর্কিত উল্লেখ করেছেন:
উত্পাদক এবং বৈষম্যমূলক শ্রেণিবদ্ধের তুলনা একটি চিরস্থায়ী বিষয়। এই বিষয়টিতে একটি গুরুত্বপূর্ণ অবদান হিসাবে, স্বেচ্ছাসেবক বায়েস শ্রেণিবদ্ধ এবং লিনিয়ার লজিস্টিক রিগ্রেশন এর মধ্যে তাদের তাত্ত্বিক এবং অভিজ্ঞতাবাদী তুলনার ভিত্তিতে এনজি এবং জর্ডান (এনআইপিএস ৮৪১ --- ৮৮৮, 2001) দাবি করেছে যে জেনারেটরের মধ্যে পারফরম্যান্সের দুটি স্বতন্ত্র ব্যবস্থা রয়েছে এবং প্রশিক্ষণ-সেট আকারের সাথে বৈষম্যমূলক শ্রেণিবদ্ধকারী এই গবেষণাপত্রে, আমাদের গবেষণামূলক এবং সিমুলেশন অধ্যয়নগুলি, তাদের কাজের পরিপূরক হিসাবে, যদিও সুপারিশ করে যে দুটি স্বতন্ত্র ব্যবস্থার অস্তিত্ব এতটা নির্ভরযোগ্য নাও হতে পারে। তদতিরিক্ত, বাস্তব বিশ্বের ডেটাসেটগুলির জন্য, এখন পর্যন্ত পর্যবেক্ষণের শ্রেণিবিন্যাসের বৈষম্যমূলক এবং জেনারেটর পদ্ধতির মধ্যে নির্বাচন করার জন্য কোনও তাত্ত্বিকভাবে সঠিক, সাধারণ মানদণ্ড নেই এক শ্রেণিতে ; পছন্দটি বা পি ( x , y ) এর স্পেসিফিকেশনের যথার্থতার সাথে আমাদের যে আপেক্ষিক আত্মবিশ্বাসের উপর নির্ভর করে তার উপর নির্ভর করে তথ্য জন্য। এটি কিছুটা হলেও ইফ্রন (জে এম স্ট্যাট এসোসিয়েশন 70 (352): 892 --- 898, 1975) এবং ও'নিল (জে এম স্ট্যাট এসোসো 75 (369): 154 --- 160, 1980 এর বিক্ষোভ হতে পারে ) যখন কোনও মডেল ভুল-স্পেসিফিকেশন না ঘটে তবে সাধারণ-ভিত্তিক লিনিয়ার বৈষম্যমূলক বিশ্লেষণ (এলডিএ) পছন্দ করেন তবে অন্যান্য অভিজ্ঞতাবাদী গবেষণাগুলি পরিবর্তে লিনিয়ার লজিস্টিক রিগ্রেশনকে পছন্দ করতে পারে। তদ্ব্যতীত, আমরা প্রস্তাব করি যে একটি সাধারণ তির্যক কোভেরিয়েন্স ম্যাট্রিক্স (এলডিএ) বা ন্যাভি বেয়েস শ্রেণিবদ্ধ এবং লিনিয়ার লজিস্টিক রিগ্রেশন ধরে ধরে এলডিএর মধ্যে উভয়ই জুটি যুক্তি উপযুক্ত নাও হতে পারে, এবং তাই এটি কোনও দাবির জন্য নির্ভরযোগ্য হতে পারে না যা এলডিএর সাথে তুলনা থেকে প্রাপ্ত হয়েছিল for বা নির্বোধ বায়েস শ্রেণিবদ্ধ এবং লিনিয়ার লজিস্টিক রিগ্রেশন সকল জেনারেটরিভ এবং বৈষম্যমূলক শ্রেণিবদ্ধে সাধারণীকরণের জন্য।
এটিতে আরও অনেক উল্লেখ রয়েছে যা আপনি অনলাইনে খুঁজে পেতে পারেন।
এই উত্তরটির উদ্দেশ্য হ'ল লিনিয়ার বৈষম্যমূলক বিশ্লেষণ (এলডিএ) এবং মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন (এমএলআর) এর মধ্যে সঠিক গাণিতিক সম্পর্ককে ব্যাখ্যা করা। দেখা যাবে যে সঠিক কাঠামো হ্রাস র্যাঙ্ক রিগ্রেশন (আরআরআর) দ্বারা সরবরাহ করা হয়েছে।
আমরা দেখাব যে এলডিএ ডেটা ম্যাট্রিক্সে সাদা রঙের শ্রেণি সূচক ম্যাট্রিক্সের আরআরআরের সমতুল্য ।
যাক হতে এন × ঘ ডাটা পয়েন্টের ম্যাট্রিক্স সঙ্গে x আমি সারি এবং কলাম মধ্যে ভেরিয়েবল হবে। প্রতিটি বিন্দু কে ক্লাসের একটি বা গোষ্ঠীর অন্তর্ভুক্ত। পয়েন্ট x আমি শ্রেণি নম্বর জি ( i ) এর অন্তর্গত ।
যাক হতে এন × ট সূচকটি ম্যাট্রিক্স এনকোডিং গোষ্ঠী সদস্যতা নিম্নরূপ: জি আমি ঞ = 1 যদি এক্স আমি বর্গ জন্যে ঞ , এবং জি আমি ঞ = 0 অন্যথায়। আছে এন ঞ ক্লাসে ডাটা পয়েন্টের ঞ ; অবশ্যই ∑ n j = n ।
আমরা ধরে নিই যে ডেটা কেন্দ্রিক এবং তাই বিশ্বব্যাপী শূন্যের সমান, μ = 0 । আসুন μ j হ'ল ক্লাসের মধ্যম ।
মোট স্ক্যাটার ম্যাট্রিক্স নিম্নোক্তভাবে সংজ্ঞায়িত করে শ্রেণি এবং শ্রেণির মধ্যে স্ক্যাটার ম্যাট্রিকগুলির যোগফলকে বিভক্ত করা যায়: সি বি যে কেউসি=সিবি+সিডাব্লুযাচাই করতে পারে। এলডিএ বৈষম্যমূলক অক্ষগুলির সন্ধান করে যা প্রজেকশনটির মধ্যে গ্রুপ-বৈকল্পিক এবং ন্যূনতম-গ্রুপের মধ্যে ন্যূনতম মধ্যে থাকে। বিশেষ করে, প্রথম discriminant অক্ষ একক ভেক্টর হয়Wপূর্ণবিস্তারW⊤সিখW/(W⊤সি
Assuming যে পূর্ণ র্যাঙ্ক হয়, Lda সমাধান ডব্লিউ এল ডি একজন এর eigenvectors ম্যাট্রিক্স হয় সি - 1 W সি খ (কমছে অনুক্রমে eigenvalues দ্বারা আদেশ)।
এটি ছিল স্বাভাবিক গল্প। এখন আসুন দুটি গুরুত্বপূর্ণ পর্যবেক্ষণ করি।
প্রথমত, শ্রেণীর স্ক্যাটার ম্যাট্রিক্সটি মোট স্ক্যাটার ম্যাট্রিক্স দ্বারা প্রতিস্থাপন করা যেতে পারে (শেষ পর্যন্ত কারণ সর্বাধিক বি / ( বি + ডাব্লু ) ) এর সমান , এবং প্রকৃতপক্ষে এটি দেখতে সহজ যে সি - 1 সি বি রয়েছে একই eigenvectors।
দ্বিতীয়ত, মধ্য শ্রেণির স্ক্যাটার ম্যাট্রিক্স উপরে বর্ণিত গ্রুপ সদস্যপদ ম্যাট্রিক্সের মাধ্যমে প্রকাশ করা যেতে পারে। প্রকৃতপক্ষে, গ্রুপের অঙ্কের ম্যাট্রিক্স। গোষ্ঠীর অর্থের ম্যাট্রিক্স পেতে, এটি একটি তির্যক ম্যাট্রিক্স দ্বারা ত্রিভুজের উপর n জ দিয়ে গুন করা উচিত ; এটি জি by জি দিয়েছেন । অত: পর, গ্রুপ উপায়ে ম্যাট্রিক্স হয় ( জি ⊤ জি ) - 1 জি ⊤ এক্স ( sapienti ইচ্ছা নোটিশ যে এটি একটি রিগ্রেশন সূত্র)। সি বি পেতে আমাদের এর বিচ্ছুরিত ম্যাট্রিক্স গ্রহণ করতে হবে, একই তির্যক ম্যাট্রিক্স দ্বারা ভারিত, সি বি অর্জন করা যদি সমস্ত এন জে মি অভিন্ন এবং মিটার ("ভারসাম্যপূর্ণ ডেটাসেট")সমান হয়, তবে এই অভিব্যক্তিটি X ⊤ G G ⊤ X / m তে সরল হয়।
আমরা সাধারণীকরণ সূচক ম্যাট্রিক্স 1 / having হিসাবে নির্ধারণ করতে পারি √ যেখানেজিআছে1। তারপরে, ভারসাম্যহীন এবং ভারসাম্যহীন ডেটাসেটের উভয়ের জন্যই এক্সপ্রেশনটি কেবলসিবি=এক্স⊤ ˜ জি ˜ জি ⊤এক্স। লক্ষ্য করুন ~ জি একটি ধ্রুবক ফ্যাক্টর, এর আপ, হয়সাদাসূচকটি ম্যাট্রিক্স: ~ জি =জি(জি⊤জি)-1 / 2।
সরলতার জন্য, আমরা একটি ভারসাম্যপূর্ণ ডেটাসেটের ক্ষেত্রে দিয়ে শুরু করব।
X এ লিনিয়ার রিগ্রেশন বিবেচনা করুন । এটি বি ন্যূনতম ‖ জি - এক্স বি ‖ 2 সন্ধান করে । হ্রাস র্যাঙ্কের রিগ্রেশন একইভাবে সীমাবদ্ধতার মধ্যে রয়েছে যে বি প্রদত্ত র্যাঙ্কের পি হতে হবে । যদি তাই হয়, তারপর বি হিসেবে লেখা যেতে পারে বি = D: এফ ⊤ উভয় সঙ্গে ডি এবং এফ থাকার পি কলাম। যে কেউ র্যাঙ্ক দুটি সমাধান প্রথম কলামটি রেখে অতিরিক্ত কলাম ইত্যাদি যুক্ত করে র্যাঙ্ক সমাধান থেকে প্রাপ্ত হতে পারে show
Lda বিভাগ এবং রৈখিক রিগ্রেশনের মধ্যে সংযোগ স্থাপন করতে আমরা প্রমাণ করবে সঙ্গে সমানুপাতিক ডব্লিউ এল ডি একজন ।
কেউ একইভাবে দেখাতে পারে যে হ্রাস র্যাঙ্কের রিগ্রেশনটিতে রিজ নিয়মিতকরণ যুক্ত করা নিয়মিত এলডিএর সমান।
উপরের উপস্থাপিত বিষয়গুলির কৃতিত্ব কে প্রাপ্য তা বলা শক্ত।
ক্যা এট আল -এর সাম্প্রতিক একটি সম্মেলন পত্র রয়েছে। (২০১৩) নিম্ন-র্যাঙ্ক অঞ্চলগুলির সমতুল্য এবং লিনিয়ার বৈষম্যমূলক বিশ্লেষণ ভিত্তিক রেজিস্ট্রেশনগুলি যা উপরের মতো ঠিক একই প্রমাণ উপস্থাপন করে তবে তারা এই দৃষ্টিভঙ্গিটি আবিষ্কার করেছিল এমন ধারণা তৈরি করে। এটি অবশ্যই ঘটনা নয়। টোর কীভাবে বেশিরভাগ সাধারণ রৈখিক মাল্টিভারিয়েট পদ্ধতিগুলিকে হ্রাস র্যাঙ্ক রিগ্রেশন হিসাবে দেখা যেতে পারে তার একটি বিশদ চিকিত্সা লিখেছিলেন , কম্পোনেন্ট বিশ্লেষণের জন্য একটি স্বল্প স্কোয়ার ফ্রেমওয়ার্ক , ২০০৯ এবং পরবর্তী বইয়ের অধ্যায়টি উপাদান বিশ্লেষণ পদ্ধতিগুলির সংহতকরণ , ২০১৩ দেখুন; তিনি একই যুক্তি উপস্থাপন করেন কিন্তু কোনও রেফারেন্সও দেন না। এই উপাদানটি আধুনিক মাল্টিভারিয়ট পরিসংখ্যান কৌশলগুলির পাঠ্যপুস্তকেও আচ্ছাদিত (২০০৮) ইজম্যানম্যান, যিনি 1975 সালে আরআরআর চালু করেছিলেন।
এলডিএ এবং সিসিএর মধ্যে সম্পর্ক স্পষ্টতই বার্টলেট, ১৯৩৮-এ ফিরে গেছে , একাধিক রিগ্রেশন তত্ত্বের আরও দিক - এটিই আমি প্রায়শই মুখোমুখি হই (তবে যাচাই করিনি)। সিসিএ এবং আরআরআরের মধ্যে সম্পর্কের বর্ণনা দেওয়া হয়েছে ইজেনম্যান, 1975 সালে, মাল্টিভারিয়েট লিনিয়ার মডেলের জন্য হ্রাস-র্যাঙ্কের রিগ্রেশন । এই সমস্ত ধারণা কিছু সময়ের জন্য প্রায় হয়েছে।
লিনিয়ার রিগ্রেশন এবং লিনিয়ার বৈষম্যমূলক বিশ্লেষণ খুব আলাদা। লিনিয়ার রিগ্রেশন স্বতন্ত্র প্রেডিকটার ভেরিয়েবলগুলির একটি সেটের সাথে একটি নির্ভরশীল পরিবর্তনশীল সম্পর্কিত tes ধারণাটি হ'ল প্যারামিটারগুলিতে একটি ফাংশন লিনিয়ার সন্ধান করা যা ডেটা সেরা ফিট করে। এমনকি এটি কোভেরিয়েটগুলিতে রৈখিক হতে হবে না। অন্যদিকে লিনিয়ার বৈষম্যমূলক বিশ্লেষণ হ'ল বিষয়গুলিকে শ্রেণিতে শ্রেণিবদ্ধ করার একটি পদ্ধতি। দ্বি-শ্রেণীর সমস্যার জন্য এটি দলগুলিকে দুটি ক্যাটগরিতে বিভক্ত করার জন্য সেরা পৃথককারী হাইপারপ্লেনটি সন্ধান করার চেষ্টা করে। এখানে সর্বোত্তম অর্থ হ'ল এটি ক্ষতির ক্রিয়াকে হ্রাস করে যা ত্রুটি হারের একটি লিনিয়ার সংমিশ্রণ। তিন বা ততোধিক গোষ্ঠীর জন্য এটি হাইপারপ্লেনের সেরা সেট (কে বর্গের সমস্যার জন্য কে -1) সন্ধান করে। বৈষম্যমূলক বিশ্লেষণে হাইপোপ্লেনগুলি বৈশিষ্ট্য ভেরিয়েবলগুলিতে লিনিয়ার হয়।
উভয়ের মধ্যে প্রধান মিলটি শিরোনামগুলিতে শব্দ লিনিয়ার।