লজিস্টিক রিগ্রেশনে অত্যন্ত স্কিউড ডেটা সেটগুলির জন্য ওজন যুক্ত করা


9

বাইনারি আউটপুট ভেরিয়েবলগুলিতে আমার ইনপুট ভেরিয়েবলগুলিকে ফিট করতে আমি লজিস্টিক রিগ্রেশনের একটি মানক সংস্করণ ব্যবহার করছি।

তবে আমার সমস্যাটিতে, .ণাত্মক আউটপুট (0 গুলি) ইতিবাচক আউটপুটগুলি (1s) ছাড়িয়ে গেছে। অনুপাত 20: 1। সুতরাং যখন আমি কোনও শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিই, মনে হয় এমন বৈশিষ্ট্যগুলিও যেগুলি ইতিবাচক আউটপুট সম্ভাবনার দৃ strongly়ভাবে প্রস্তাব দেয় তাদের সংশ্লিষ্ট পরামিতিগুলির জন্য এখনও খুব কম (অত্যন্ত নেতিবাচক) মান রয়েছে। আমার কাছে মনে হচ্ছে এটি ঘটেছিল কারণ তাদের দিকনির্দেশে পরামিতিগুলি টানছে এমন অনেকগুলি নেতিবাচক উদাহরণ রয়েছে।

সুতরাং আমি ভাবছি যে আমি ইতিবাচক উদাহরণগুলির জন্য ওজন যুক্ত করতে পারি (1 এর পরিবর্তে 20 ব্যবহার করুন)। এটি কি আদৌ উপকৃত হতে পারে? এবং যদি তা হয় তবে আমার ওজন কীভাবে যুক্ত করা উচিত (নীচের সমীকরণগুলিতে)।

ব্যয় ফাংশনটি নীচের মত দেখাচ্ছে:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

এই ব্যয় ফাংশনের গ্রেডিয়েন্ট (আর্ট- ) হ'ল:θ

grad=((h(xθ)y)X)

এখানে = পরীক্ষার কেসগুলির সংখ্যা, = বৈশিষ্ট্য ম্যাট্রিক্স, = আউটপুট ভেক্টর, = সিগময়েড ফাংশন, = পরামিতি আমরা শিখার চেষ্টা করছি।mxyhθ

অবশেষে আমি সম্ভব সর্বনিম্ন গ্রেডিয়েন্ট বংশদ্ভুত চালাচ্ছি run বাস্তবায়নটি সঠিকভাবে চলমান বলে মনে হচ্ছে।J


হাই, আমার আপনি ঠিক যেমন সমস্যা বর্ণনা করেছেন ঠিক তেমন সমস্যা আছে। আমার তথ্যগুলিতে প্রচুর উদাহরণগুলি নেতিবাচক এবং খুব কম ইতিবাচক এবং আমার জন্য ইতিবাচককে সঠিকভাবে শ্রেণিবদ্ধ করা আরও গুরুত্বপূর্ণ, এমনকি যদি এর অর্থ কিছু নেতিবাচকতা মিস করা হয় তবে। এটি একই রকমের ফাংশন এবং গ্রেডিয়েন্ট সমীকরণগুলি ব্যবহার করছি বলেই মনে হচ্ছে যে আপনি যেমন ছিলেন তেমন পদ্ধতিগুলিও আমি প্রয়োগ করছি। এখনও অবধি আমি কয়েকটি পরীক্ষা চালিয়েছি এবং আমি নিম্নলিখিত ফলাফলগুলি পেয়েছি: - 7 পরামিতি সহ , প্রশিক্ষণের নমুনার আকার: 225000 , পরীক্ষার নমুনার আকার: 75000 ফলাফল: 92% যথার্থতা , যদিও ইতিবাচক ক্ষেত্রে কেবল 11% ডব্লিউ
কার্টজ

1
আপনি যা করছেন তা হ'ল ক্ষতির ফাংশনটিকে সর্বাধিক সম্ভাবনা দিয়ে। অবিচ্ছিন্ন ম্লে একটি আনুগত্যের দৃষ্টিকোণ থেকে "সঠিক জিনিস" করছেন এবং প্রতিবিম্বিত কোরিয়ারে নির্দিষ্টকরণের জন্য ফলাফলটি কত বিরল তা প্রতিফলিত করছে। আপনার পৃথকীকরণও হতে পারে - এমনটি ঘটবে যে কোভেরিয়েরেটের একটি নির্দিষ্ট সেট যা প্রশিক্ষণের ডেটাতে প্রতিক্রিয়াটি পুরোপুরি অনুমান করতে পারে - এটি বৃহত্তর নেতিবাচক মূল্যবোধের দিকে পরিচালিত করবে।
সম্ভাব্যতা ব্লগ

2
শ্রেণিবিন্যাস একটি ভাল লক্ষ্য নয় এবং লজিস্টিক রিগ্রেশনটি যেভাবে বিকশিত হয়েছিল তা নয়। এটি শ্রেণিবদ্ধের ধারণা যা এখানে তালিকাভুক্ত সমস্ত সমস্যার কারণ হতে পারে। ভবিষ্যদ্বাণী করা সম্ভাব্যতা এবং যথাযথ নির্ভুলতার স্কোরিংয়ের নিয়মগুলিতে
লেগে থাকুন

1
@ আরহান্ত এটি আংশিক সত্য। লগইট লিঙ্ক সহ একটি বাইনারি লজিস্টিক রিগ্রেশন এখনও বৈধ যে আপনার কোভারিয়েটগুলিতে সহগগুলি এমএলই হয় এবং ক্লাস ২ এর তুলনায় এই পরিবর্তনগুলি ক্লাস 1 এর প্রতিক্রিয়াগুলিতে কীভাবে প্রভাবিত করে তা প্রতিফলিত করে তবে কেস-নিয়ন্ত্রণ ডিজাইনে, ইন্টারসেপ্টটি সর্বদা ক্লাস 1 থেকে 0 এর অনুপাত প্রতিফলিত করার জন্য স্থির থাকে এবং শ্রেণি নির্ধারণের জন্য ইন্টারসেপ্ট শব্দটি সামঞ্জস্য করা পুরোপুরি বৈধ, উদাহরণস্বরূপ, বিযুক্ত শ্রেণিবদ্ধকরণের কিছু ব্যয় ফাংশন, বা অন্য কোনও প্রক্রিয়া, কারণ এটি সহগের পরিবর্তন করে না doesn't পরিবর্তনশীল উপর।
সাইকোরাক্স বলছেন মনিকা পুনরায়

1
একটি কাটঅফ প্রয়োজন / চেয়েছিলেন / আকাঙ্ক্ষিত যে কেউ ধারণা পেয়েছে?
ফ্র্যাঙ্ক হ্যারেল 20

উত্তর:


8

এটি আর সর্বাধিক সম্ভাবনা না। চূড়ান্ত বিতরণ কেবলমাত্র তখনই সমস্যাগুলি উপস্থাপন করে যদি আপনি কোনও শ্রেণিবদ্ধ ব্যবহার করে থাকেন, অর্থাত্, যদি আপনি অনুপাতটিকে সঠিকভাবে শ্রেণিবদ্ধ করে থাকেন তবে একটি অযৌক্তিক স্কোরিং নিয়ম। মান সর্বাধিক সম্ভাবনা থেকে সম্ভাবনা অনুমান বৈধ। যদি প্রার্থীদের ভেরিয়েবলের সংখ্যার চেয়ে 15 গুণ কম "ধনাত্মক" থাকে তবে দণ্ডিত সর্বোচ্চ সম্ভাবনা অনুমানটি যথাযথ হতে পারে।Y


ফ্র্যাঙ্ক, আপনার "15 বার ..." বিশদটি সমর্থন করার জন্য কোনও রেফারেন্স বা কিছু আছে? আমার কিছু ডেটাতে একই রকম ভারসাম্য রয়েছে যা আমি আরওসি পদ্ধতির পরিবর্তে লজিস্টিক রিগ্রেশন ব্যবহার করছি অন্য কিছু গবেষক বিকাশ করেছেন। আমি সম্প্রতি ছোট-নমুনা পক্ষপাতিত্ব জুড়ে এসেছি এবং আমার কোড / প্যাকেজের একটি উপযুক্ত বিকল্প হিসাবে ফर्थের পক্ষপাতিত্ব-হ্রাসের জন্য একটি বিকল্প যুক্ত করেছি। আমি যখন এটি একটি জার্নালের জন্য লিখছি তখন এটির মতো থাম্বের পাশের নিয়মগুলির সাথে উদ্ধৃত করার জন্য কিছু পাওয়া কার্যকর হবে। দুঃখিতটি যদি রেফারেন্সটি আপনার আরএমএস বই হিসাবে থাকে যেটি আমার তাকগুলিতে বসে আছে তবে এখনও সেখানে তাকিয়ে দেখেনি।
গ্যাভিন সিম্পসন

ছোট-নমুনা পক্ষপাত এবং কাগজের জন্মের দণ্ডের মান রয়েছে। আমার হাতে নেই। 15: 1 সম্পর্কিত biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
ফ্র্যাঙ্ক হ্যারেল

থ্যাঙ্কস ফ্র্যাঙ্ক - 15: 1 ইস্যুতে আমি সবচেয়ে বেশি ছিলাম। ছোট-নমুনা পক্ষপাত এবং ফर्थের পদ্ধতি সম্পর্কে আমার কিছু প্রকাশনা রয়েছে - তবে শেষ পর্যন্ত যদি আপনার হাতে কিছু দেওয়ার থাকে তবে আমি যদি এটি আমাকে জানাতে পারি তবে আমি সবচেয়ে কৃতজ্ঞ হব।
গ্যাভিন সিম্পসন

3
প্রথম ক্ষেত্রে যেমনটি করা হয়েছিল ঠিক তেমন অন্য কেউ যদি উপরের ভুলটি পড়ে থাকে। প্রশ্নে 20: 1 হ'ল নেতিবাচক থেকে ধনাত্মক পর্যবেক্ষণের অনুপাত। ফ্র্যাঙ্ক হ্যারেলের উত্তরের 15: 1 হ'ল অন্য কিছু: প্রার্থী স্বতন্ত্র ভেরিয়েবলের কাছে ইতিবাচক পর্যবেক্ষণের অনুপাত।
আদম বেইলি

একটি চূড়ান্ত বিতরণও অর্ধ-সম্পূর্ণ পৃথকীকরণের সম্ভাবনা বাড়িয়ে একটি সমস্যা উপস্থাপন করে, বিশেষত যদি আপনার শ্রেণীবদ্ধ ভবিষ্যদ্বাণী রয়েছে। শাস্তি এখানে সহায়তা করে।
সম্ভাব্যতা ব্লগ

3

এই জাতীয় ক্ষেত্রে, লজিস্টিক লিঙ্কের পরিবর্তে একটি নমনীয় লিঙ্কটি ব্যবহার করা ভাল that উদাহরণস্বরূপ একটি স্কিউ-নরমাল, জিইভি , সিনাহ-আরকসিংহ এবং এর উল্লেখগুলি। আরও অনেকে আছেন তবে আমি 2 টির বেশি লিঙ্ক পোস্ট করতে পারি না।


অন্যান্য লিঙ্ক ফাংশন আরও ভাল জন্য আপনি কোন ব্যাখ্যা প্রদান করতে পারেন?
ডিডাব্লু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.