লজিস্টিক রিগ্রেশন এর সহগগুলির কোনও অর্থ আছে?


14

আমার বেশ কয়েকটি বৈশিষ্ট্য থেকে বাইনারি শ্রেণিবদ্ধার সমস্যা আছে। একটি (নিয়মিত) লজিস্টিক রিগ্রেশন এর সহগগুলির কি ব্যাখ্যাযোগ্য অর্থ আছে?

আমি ভেবেছিলাম তারা প্রভাবগুলির আকার নির্দেশ করতে পারে, বৈশিষ্ট্যগুলি আগেই স্বাভাবিক করা হয়। তবে, আমার সমস্যায় সহগগুলি আমার নির্বাচন করা বৈশিষ্ট্যগুলির উপর সংবেদনশীলভাবে নির্ভর করে বলে মনে হচ্ছে। এমনকি গুণফলগুলির চিহ্নটি ইনপুট হিসাবে বেছে নেওয়া বিভিন্ন বৈশিষ্ট্য সেটগুলির সাথে পরিবর্তিত হয়।

সহগের গুণাগুণটি পরীক্ষা করে কি সর্বাধিক অর্থপূর্ণ সহগগুলি খুঁজে পেতে এবং শব্দগুলিতে তাদের অর্থ বোঝানোর সঠিক উপায় কোনটি ? কিছু লাগানো মডেল এবং তাদের সহগের চিহ্নগুলি কি ভুল - এমনকি যদি তারা ডেটাটি সাজিয়ে তোলে?

(বৈশিষ্ট্যগুলির মধ্যে আমার যে সর্বোচ্চ সম্পর্ক রয়েছে তা কেবল 0.25, তবে এটি অবশ্যই ভূমিকা পালন করে?)


আপনি কি নিয়মিত করার মাধ্যমে কী বোঝাতে চান? আপনার কাছে কি এল 2 জরিমানার শর্ত রয়েছে এবং যদি তাই থাকে তবে আপনি অনুকূল ফ্যাক্টরটি যেমন ক্রস বৈধকরণ দ্বারা অনুসন্ধান করেছেন?
seanv507

হ্যাঁ, আমি সহগের উপর এল 2 জরিমানার শর্তাদির অনুমতি দিই। আমি অনুকূল নিয়ামককরণের ফ্যাক্টরটি অনুসন্ধান করেছি, তবে আমি এখনও বৈশিষ্ট্য নির্বাচন (যেমন ফরোয়ার্ড নির্বাচনের মতো) ব্যবহার করি নি। যাইহোক, এটি আমাকে এ সম্পর্কে অনিশ্চিত বোধ করে, যেহেতু সহগগুলি আমার অন্তর্ভুক্ত বৈশিষ্ট্যগুলির নির্বাচনের উপর এত সংবেদনশীলভাবে নির্ভর করে। ধরে নিচ্ছি যে প্রতিটি বৈশিষ্ট্যের ইতিবাচক বা নেতিবাচক প্রভাব ইতিবাচক শ্রেণীর রয়েছে, আমি কীভাবে তাদের শক্তি এবং দিকটি নির্ধারণ করতে পারি?
জেরেনুক

উত্তর:


14

আউটপুট থেকে সহগের একটি অর্থ রয়েছে, যদিও এটি বেশিরভাগ মানুষের কাছে খুব স্বজ্ঞাত নয় এবং অবশ্যই আমার কাছে তা নয়। এজন্য লোকেরা তাদেরকে বৈষম্য অনুপাতগুলিতে পরিবর্তন করে। তবে বিজোড় অনুপাতের লগটি সহগ; সমানভাবে, তাত্পর্যযুক্ত সহগগুলি হ'ল প্রতিকূল অনুপাত।

সহগগুলি সূত্রগুলিতে প্লাগ করার জন্য সবচেয়ে কার্যকর যা নির্ভরশীল ভেরিয়েবলের প্রতিটি স্তরে থাকার সম্ভাব্য সম্ভাবনা দেয়।

যেমন R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

বয়সের জন্য প্যারামিটার অনুমান 1.64 64 এটার মানে কি? ঠিক আছে, আপনি যদি এটিকে বাধা (-21.24) জন্য প্যারামিটার অনুমানের সাথে একত্রিত করেন তবে আপনি মেনার্চের সম্ভাবনার পূর্বাভাস দেওয়ার একটি সূত্র পেতে পারেন:

পি(এম)=11+ +21,24-1.64*একটি

1.64=5.16


4

গুণফলগুলির সরাসরি ব্যাখ্যা করা কঠিন এবং বিভ্রান্তিকর হতে পারে। চলকগুলির মধ্যে ওজন কীভাবে নির্ধারিত হবে সে সম্পর্কে আপনার কোনও গ্যারান্টি নেই।

দ্রুত উদাহরণ, আপনি যে পরিস্থিতি বর্ণনা করেছেন তার অনুরূপ: আমি একটি ওয়েবসাইটে ব্যবহারকারীদের সাথে মিথস্ক্রিয়া করার মডেলটিতে কাজ করেছি। এই মডেলটিতে দুটি ভেরিয়েবল অন্তর্ভুক্ত ছিল যা প্রথম ঘন্টা এবং ব্যবহারকারীর সেশনের দ্বিতীয় ঘন্টা চলাকালীন "ক্লিক" সংখ্যার প্রতিনিধিত্ব করে। এই ভেরিয়েবলগুলি একে অপরের সাথে অত্যন্ত সংযুক্ত থাকে। যদি এই ভেরিয়েবলের উভয় সহগগুলি ইতিবাচক হয় তবে আমরা সহজেই নিজেকে বিভ্রান্ত করতে পারি এবং বিশ্বাস করতে পারি যে সম্ভবত উচ্চতর সহগ "উচ্চতর" গুরুত্ব নির্দেশ করে। তবে অন্যকে যুক্ত / অপসারণের মাধ্যমেভেরিয়েবলগুলি আমরা সহজেই একটি মডেল দিয়ে শেষ করতে পারি যেখানে প্রথম পরিবর্তনশীলটির ইতিবাচক চিহ্ন এবং অন্যটি নেতিবাচক ছিল। যে কারণটি আমরা শেষ করেছিলাম তা হ'ল যেহেতু উপলভ্য ভেরিয়েবলগুলির বেশিরভাগ জুটির মধ্যে কিছু উল্লেখযোগ্য (কম হলেও) পারস্পরিক সম্পর্ক ছিল আমরা সহগগুলি ব্যবহার করে ভেরিয়েবলের গুরুত্ব সম্পর্কে কোনও নিরাপদ উপসংহার পেতে পারি না (যদি সম্প্রদায় থেকে শিখতে পেরে খুশি হয়) এই ব্যাখ্যাটি সঠিক)।

আপনি যদি এমন কোনও মডেল পেতে চান যেখানে কোনও ধারণার ব্যাখ্যা করা সহজতর হয় তবে লাসো (এল 1 আদর্শকে হ্রাস করা) ব্যবহার করা উচিত। এটি বিচ্ছিন্ন সমাধানগুলির দিকে পরিচালিত করে যখন ভেরিয়েবলগুলি একে অপরের সাথে কম সংযুক্ত থাকে। যাইহোক, এই পদ্ধতির সহজেই পূর্ববর্তী উদাহরণের উভয় ভেরিয়েবল চয়ন করা যায় না - একটি শূন্য আলোকিত হবে।

আপনি যদি সুনির্দিষ্ট ভেরিয়েবল, বা ভেরিয়েবলের সেটগুলির গুরুত্ব মূল্যায়ন করতে চান তবে আমি সরাসরি কিছু বৈশিষ্ট্য নির্বাচন পদ্ধতির ব্যবহারের পরামর্শ দেব। এই জাতীয় পদ্ধতির ফলে কিছু মানদণ্ডের ভিত্তিতে ভেরিয়েবলের গুরুত্বের অনেক বেশি অর্থবহ অন্তর্দৃষ্টি এবং এমনকি বিশ্বব্যাপী র‌্যাঙ্কিং হয়।


0

সহগের অবশ্যই একটি অর্থ আছে। কিছু সফ্টওয়্যার প্যাকেজগুলিতে দুটি ধরণের সহগের দুটি উত্পাদন করার জন্য দুটি উপায়ের মাধ্যমে মডেলকে নির্দেশ দেওয়া যেতে পারে। উদাহরণস্বরূপ, স্টাটাতে, কেউ লজিস্টিক কমান্ড বা লগইট কমান্ড ব্যবহার করতে পারে; একটি ব্যবহার করার ক্ষেত্রে, মডেলটি traditionalতিহ্যগত সহগ দেয়, অন্যটি ব্যবহার করার সময়, মডেলটি প্রতিকূল অনুপাত দেয়।

আপনি দেখতে পাচ্ছেন যে একজন আপনার কাছে অপরটির চেয়ে অনেক বেশি অর্থবহ।

আপনার প্রশ্ন সম্পর্কে যে "... সহগগুলি সংবেদনশীলতা নির্ভর করে বলে মনে হচ্ছে ..."।

আপনি কি বলছেন যে ফলাফলগুলি আপনি মডেলটিতে কী পরিবর্তনশীল রেখেছেন তার উপর নির্ভর করে?

যদি তা হয় তবে হ্যাঁ, রিগ্রেশন বিশ্লেষণ করার সময় এটি জীবনের সত্য life এর কারণ হ'ল রিগ্রেশন বিশ্লেষণগুলি সংখ্যার একগুচ্ছের দিকে নজর দিচ্ছে এবং সেগুলি একটি স্বয়ংক্রিয় পদ্ধতিতে ক্রাঞ্চ করছে।

ফলগুলি কীভাবে ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত এবং কী ভেরিয়েবলগুলি পরিমাপ করা হয় না তার উপর নির্ভর করে। এটি যতটা বিজ্ঞান ততই একটি শিল্প।

তদ্ব্যতীত, যদি নমুনার আকারের তুলনায় যদি মডেলটির অনেক পূর্বাভাস থাকে তবে লক্ষণগুলি একটি ক্রেজি উপায়ে ঘুরে আসতে পারে - আমি মনে করি এটি বলছে যে মডেলটি তার অনুমানগুলিকে "সামঞ্জস্য করতে" সামান্য প্রভাব ফেলতে সক্ষম এমন ভেরিয়েবলগুলি ব্যবহার করছে those এর একটি বড় প্রভাব রয়েছে (একটি ছোট আকারের ক্যালিব্রেশনগুলি করার জন্য একটি ছোট ভলিউম গাঁটের মতো)। যখন এটি ঘটে তখন আমি ছোট প্রভাবগুলির সাথে ভেরিয়েবলগুলিতে বিশ্বাস না করি।

অন্যদিকে, এটি হতে পারে যে প্রাথমিকভাবে লক্ষণগুলি পরিবর্তিত হয়, যখন আপনি নতুন ভবিষ্যদ্বাণী যুক্ত করেন, কারণ আপনি কার্যকারণের সত্যের নিকটবর্তী হয়ে যাচ্ছেন।

উদাহরণস্বরূপ, কল্পনা করা যাক গ্রিনল্যান্ড ব্র্যান্ডি কারও স্বাস্থ্যের জন্য খারাপ হতে পারে তবে তার স্বাস্থ্যের জন্য উপার্জন ভাল। যদি আয় বাদ দেওয়া হয় এবং আরও ধনী ব্যক্তিরা ব্র্যান্ডি পান করেন, তবে মডেল বাদ দেওয়া আয়ের প্রভাবটিকে "বাছাই" করতে পারে এবং "বলতে" পারে যে অ্যালকোহল আপনার স্বাস্থ্যের জন্য ভাল।

এটি সম্পর্কে কোনও সন্দেহ নেই, এটি জীবনের সত্য যে সহগগুলি অন্তর্ভুক্ত অন্যান্য পরিবর্তনশীলগুলির উপর নির্ভর করে। আরও জানতে, "বাদ দেওয়া পরিবর্তনশীল পক্ষপাত" এবং "উত্সাহী সম্পর্ক" সন্ধান করুন into আপনি যদি আগে এই ধারণাগুলির মুখোমুখি না হন তবে আপনার প্রয়োজনীয়তা পূরণ করে এমন পরিসংখ্যান কোর্সের পরিচিতি খোঁজার চেষ্টা করুন - এটি মডেলগুলি করার ক্ষেত্রে একটি বিশাল পার্থক্য আনতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.