লজিস্টিক রিগ্রেশন কখন উপযুক্ত?


12

আমি বর্তমানে নিজেকে শ্রেণিবদ্ধকরণ কীভাবে করব তা শিখছি এবং বিশেষত আমি তিনটি পদ্ধতির দিকে নজর দিচ্ছি: ভেক্টর মেশিন, নিউরাল নেটওয়ার্ক এবং লজিস্টিক রিগ্রেশন সমর্থন করুন। আমি যা বোঝার চেষ্টা করছি তা হ'ল লজিস্টিক রিগ্রেশন অন্য দু'জনের তুলনায় আরও ভাল পারফর্ম করতে পারে।

লজিস্টিক রিগ্রেশন সম্পর্কে আমার বোঝাপড়া থেকে ধারণাটি হ'ল লজিস্টিক ফাংশনটি পুরো ডেটাতে ফিট করে। সুতরাং যদি আমার ডেটা বাইনারি হয় তবে লেবেল 0 সহ আমার সমস্ত ডেটা 0 মান (বা এটির নিকটবর্তী) ম্যাপ করা উচিত এবং 1 মান সহ আমার সমস্ত ডেটা 1 মান (বা এটির নিকটে) ম্যাপ করা উচিত। এখন, কারণ লজিস্টিক ফাংশন অবিচ্ছিন্ন এবং মসৃণ, এই প্রতিরোধ সম্পাদন করার জন্য আমার সমস্ত ডেটাটি বক্ররেখার সাথে মাপসই করা দরকার ; সিদ্ধান্তের সীমানার নিকটে ডেটা পয়েন্টগুলিতে কোনও বৃহত্তর গুরুত্ব প্রয়োগ করা হয় না এবং সমস্ত ডেটা পয়েন্টগুলি বিভিন্ন পরিমাণে ক্ষতির জন্য অবদান রাখে।

তবে, সমর্থন ভেক্টর মেশিন এবং নিউরাল নেটওয়ার্কগুলির সাথে, সিদ্ধান্তের সীমানার নিকটে কেবল সেইগুলি ডেটা পয়েন্টগুলি গুরুত্বপূর্ণ; যতক্ষণ না কোনও তথ্য পয়েন্ট সিদ্ধান্তের সীমানার একই দিকে থাকে, এটি একই ক্ষতিতে অবদান রাখবে।

সুতরাং, কেন লজিস্টিক রিগ্রেশন ভেক্টর মেশিন বা নিউরাল নেটওয়ার্ককে সমর্থন করে, কেননা সিদ্ধান্তের আশেপাশের কঠিন তথ্যের উপরে কেন্দ্রীভূত না করে প্রচুর অযৌক্তিক (সহজে শ্রেণিবদ্ধযোগ্য) ডেটাগুলিতে একটি বক্ররেখার ফিট করার চেষ্টা করার উপর "সম্পদ অপচয়" করে given সীমানা?


5
এলভি আপনাকে সম্ভাব্যতার প্রাক্কলন দেবে যখন এসভিএম বাইনারি অনুমান দেয়। ক্লাসগুলির মধ্যে কোনও পৃথকীকরণের হাইপারপ্লেন না থাকলে এটি এলআরকেও দরকারী করে তোলে। এছাড়াও, আপনাকে অ্যালগরিদমগুলির জটিলতা এবং প্যারামিটারের সংখ্যা এবং সংবেদনশীলতার মতো অন্যান্য বৈশিষ্ট্যগুলিও বিবেচনা করতে হবে।
বার

উত্তর:


28

(Y=1|X) সম্ভাব্য যুক্তির পক্ষে বাধ্যতামূলক যুক্তিগুলির পক্ষে।

Y

Y

কিছু বিশ্লেষক মনে করেন যে লজিস্টিক রিগ্রেশন লগের প্রতিকূলতার স্কেলে প্রেডিক্টর প্রভাবগুলির লাইনারিটি ধরে নেয়। এটি তখনই সত্য ছিল যখন 1958 সালে ডিআর কক্স লজিস্টিক মডেলটি আবিষ্কার করেছিলেন যখন রিগ্রেশন স্প্লাইনের মতো সরঞ্জামগুলি ব্যবহার করে মডেলটি প্রসারিত করার জন্য কম্পিউটিং উপলব্ধ ছিল না। লজিস্টিক রিগ্রেশন-এর একমাত্র আসল দুর্বলতা হ'ল মডেলটিতে আপনি কোন ইন্টারঅ্যাকশনটি মঞ্জুরি দিতে চান তা নির্দিষ্ট করতে হবে। বেশিরভাগ ডেটাসেটের জন্য এটি একটি শক্তিতে রূপান্তরিত হয়েছে কারণ অ্যাডিটিভ প্রধান প্রভাবগুলি ইন্টারঅ্যাকশনগুলির তুলনায় সাধারণত অনেক শক্তিশালী পূর্বাভাসক এবং মেশিন লার্নিং পদ্ধতিগুলি যা ইন্টারঅ্যাকশনগুলিকে সমান অগ্রাধিকার দেয় তা অস্থির, ব্যাখ্যা করা কঠিন এবং ভবিষ্যদ্বাণী করার জন্য লজিস্টিক রিগ্রেশনের চেয়ে বৃহত্তর নমুনা আকারের প্রয়োজন হয় আমরা হব.


6
+1 টি। সত্যি কথা বলতে, আমি এসভিএমগুলি কখনও কার্যকর হতে পাইনি। তারা সেক্সি তবে তারা আমার অভিজ্ঞতাতে প্রশিক্ষণ এবং স্কোর করতে ধীর - এবং আপনার সাথে (কার্নেল সহ) ঝাঁকুনির জন্য প্রচুর পছন্দ রয়েছে। নিউরাল নেটওয়ার্কগুলি আমি দরকারী বলে মনে করেছি, তবে প্রচুর বিকল্প এবং সমন্বয়ও করেছি। লজিস্টিক রিগ্রেশন সহজ এবং বাক্সের বাইরে যুক্তিসঙ্গতভাবে ভাল-ক্যালিবিটেড ফলাফল দেয়। রিয়েল-ওয়ার্ল্ড ব্যবহারের জন্য ক্যালিগ্রেশন গুরুত্বপূর্ণ। অবশ্যই, ক্ষতির দিকটি এটি লিনিয়ার, তাই ক্লাস্টার-ইশ, গলদাভুক্ত ডেটার পাশাপাশি র্যান্ডম ফরেস্টের মতো অন্যান্য পদ্ধতিও ফিট করতে পারে না।
ওয়েইন

1
দুর্দান্ত উত্তর। যাইহোক, আপনি জানতে আগ্রহী হতে পারেন যে সম্প্রতি মেশিন-শিখকরা তাদের অভিনব পদ্ধতিগুলি দন্ডিত সর্বাধিক সম্ভাবনার মতো traditionalতিহ্যবাহী ফ্রেমওয়ার্কগুলিতে ফিট করতে পেরেছেন - এবং এটি করা হয়ে গেলে অভিনব পদ্ধতিগুলি আরও ভালভাবে কাজ করে। XGBoost বিবেচনা করুন, তাত্ক্ষণিকভাবে সবচেয়ে কার্যকর গাছ অস্তিত্বের অ্যালগরিদম উত্সাহিত করে se গণিতটি এখানে: xgboost.readthedocs.io/en/latest/model.html । এটি একটি traditionalতিহ্যবাহী পরিসংখ্যানবিদদের কাছে বেশ পরিচিত হওয়া উচিত এবং আপনি সাধারণ ক্ষতির কাজগুলির সাথে অনেকগুলি সাধারণ পরিসংখ্যানগত উদ্দেশ্যে মডেলগুলি ফিট করতে পারেন।
পল

5

আপনি ঠিক বলেছেন, প্রায়শই লজিস্টিক রিগ্রেশন শ্রেণিবদ্ধ হিসাবে খারাপ হয় না (বিশেষত যখন অন্যান্য অ্যালগরিদমের সাথে তুলনা করা হয়)। তবে এর অর্থ এই নয় যে লজিস্টিক রিগ্রেশনটি ভুলে যাওয়া উচিত এবং কখনও পড়াশোনা করা উচিত নয় কারণ এর দুটি বড় সুবিধা রয়েছে:

  1. সম্ভাব্য ফলাফল। ফ্র্যাঙ্ক হ্যারেল (+1) তার উত্তরে এটি খুব ভালভাবে ব্যাখ্যা করেছিলেন।

  2. Y=1X1=12X2,...Xp


5
ক্লাসিফায়ার হিসাবে আপাতভাবে খারাপ পারফরম্যান্স একটি অনুচিত নির্ভুলতা স্কোর ব্যবহারের ফলস্বরূপ, লজিস্টিক রিগ্রেশন অন্তর্নিহিত সমস্যা নয়।
ফ্র্যাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল: আমি ইদানীং কিছু পরীক্ষা-নিরীক্ষা করছি এবং আমি বলব যে লজিস্টিক রিগ্রেশন অন্যান্য পদ্ধতির তুলনায় ডেটা অনেক কম স্বাধীনতার সাথে ফিট করে। র্যান্ডম ফরেস্ট বা জিএএম এর নমনীয়তাটি মেলাতে আপনাকে ইন্টারঅ্যাকশন যুক্ত করতে এবং আরও বৈশিষ্ট্যযুক্ত ইঞ্জিনিয়ারিং করতে হবে's (অবশ্যই নমনীয়তা হ'ল টাইটরোপ যা অত্যধিক মানসিকতার অতলকে অতিক্রম করে))
ওয়েন

3
@ ওয়েইন এই স্বল্প স্বাধীনতা যেমন আপনি বলেছেন যে এটি অনেক ক্ষেত্রে খুব সহায়ক, কারণ এটি স্থিতিশীলতা সরবরাহ করে
রপাইও

3
সংযোজনীয় পদগুলি নমনীয়তা যুক্ত করার চেয়ে কেবল আন্তঃসংযোগ শর্তাদি কম গুরুত্বপূর্ণ নয় তবে আপনি অনুমানগুলি অনেক উপায়ে শিথিল করতে পারেন। আমি আমার মূল উত্তরে এ সম্পর্কে আরও যুক্ত করছি।
ফ্র্যাঙ্ক হ্যারেল

2
@ চাপাইও: হ্যাঁ, নমনীয়তা দুর্বল , উভয়ই ওভারফিটের ক্ষেত্রে, তবে অন্যান্য উপায়েও dangerous এটি একটি ডোমেন / ব্যবহারের সমস্যা: আপনার ডেটা কি গোলমাল, বা আমি যদি এই শব্দটি ব্যবহার করতে পারি তবে তা সত্যই "লম্পি / ক্লাস্টার-ইশ"?
ওয়েন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.