অবিচ্ছিন্ন নির্ভরশীল চলকটির জন্য লজিস্টিক রিগ্রেশন ব্যবহার করা


9

আমি সম্প্রতি আমার গবেষণামূলক গবেষণাপত্রের জন্য একটি সংশোধন পেয়েছি এবং নিম্নলিখিতটি আমার কাগজে পর্যালোচকদের মন্তব্য:

একটি মডেল থেকে প্রাপ্ত ফলাফলগুলি বেশ দৃinc়প্রত্যয়ী নয় বিশেষত রৈখিক প্রতিরোধের সাধারণত বহিরাগতদের সাথে আচরণ করার ক্ষেত্রে ঘাটতি রয়েছে। আমি পরামর্শ দিচ্ছি যে লেখকরাও লজিস্টিক রিগ্রেশন চেষ্টা করে এবং বর্তমান ফলাফলের সাথে সম্পর্কিত ফলাফলগুলি তুলনা করে। যদি অনুরূপ পর্যবেক্ষণগুলি পাওয়া যায়, ফলাফলগুলি আরও দৃ solid় হবে।

রিভিউরের মন্তব্য কি সঠিক? লজিস্টিক রিগ্রেশন একাধিক লিনিয়ার রিগ্রেশন এর চেয়ে ভাল?

সমস্যাটি হ'ল আমার নির্ভরশীল পরিবর্তনশীলটি শ্রেণিবদ্ধ নয়, এটি একটি স্কেল ভেরিয়েবল। আমি এখন কি করব? আমার মডেলটি মূল্যায়ন করার জন্য আপনি আর কোন রিগ্রেশন পদ্ধতির পরামর্শ দিচ্ছেন?

স্কোরটি নিম্নলিখিত সারণিতে নির্ভরশীল পরিবর্তনশীল। রিসেন্টি, ফ্রিকোয়েন্সি, মেয়াদ এবং শেষ স্কোর স্বাধীন ভেরিয়েবল।

এখানে চিত্র বর্ণনা লিখুন

আমি একটি সাইট থেকে এই ভেরিয়েবল নিষ্কাশিত করেছি এবং আমি প্রকল্প রচনা করা যে এই স্বাধীন ভেরিয়েবল আছে উল্লেখযোগ্য প্রভাব উপর স্কোর । অতএব, আমি নিম্নলিখিত মডেলগুলি উপস্থাপন করি:

এখানে চিত্র বর্ণনা লিখুন


যাইহোক, এই লিনিয়ার মডেলের জন্য আর স্কোয়ারের মান 0.316! পর্যালোচক এই মানটি সম্পর্কেও মন্তব্য করেছেন:

তাহলে ফলাফলগুলি বিশ্বাসযোগ্য নয় কারণ শিক্ষিত সহগের গুণাগুণ সম্পর্কে কোনও সূচক নেই। একটি ছোট আর ^ 2 ভাল পারফরম্যান্স ইঙ্গিত করতে পারে না কারণ মডেল ওভার-ফিটসযুক্ত হতে পারে।

0.3 স্কোয়ারের জন্য কি খুব কম? আগের কাগজপত্রগুলিতে আমি একই মানগুলি অনেক দেখেছি।

এখানে চিত্র বর্ণনা লিখুন


এটি একটি সামান্য বিষয়, তবে স্কোরটি কীভাবে গণনা করা হয়েছে তা বোঝা ভাল উত্তর সরবরাহ করতে সহায়ক হতে পারে। সে সম্পর্কে আমাদের জানাতে আপনি কি আপনার প্রশ্ন সম্পাদনা করতে পারেন?
whuber

আমি আমার পোস্ট সম্পাদনা করি। আমার পরিসংখ্যান জ্ঞান ভাল না। আপনি সাহায্য যদি আমি খুব কৃতজ্ঞ হবে।
পিএসএস

1
অবিচ্ছিন্ন নির্ভরশীল চলকটিতে লজিস্টিক রিগ্রেশন চালানোর কোনও ধারণা নেই ???
পিএসএস

1
স্কোর এমন কিছু যা 0 থেকে 100 এর মধ্যে হতে হবে? সেক্ষেত্রে আপনি 100 দ্বারা বিভাজন করতে পারেন এবং ফলাফল পরিবর্তনশীলটির উপর একটি লজিস্টিক রিগ্রেশন করতে পারেন যা সর্বদা 0 থেকে 1 এর মধ্যে থাকবে ... এইভাবে কাজগুলি কিছুটা অদ্ভুত অনুভব করে এবং আমি নিশ্চিত না যে এটি কতটা বুদ্ধিমান, তবে সম্ভবত এটিই পর্যালোচক পরামর্শ দিচ্ছেন?
স্যাম লিভিংস্টোন

2
না, 0-1-এ স্কেলিং করা বা মূল্যবান তথ্য y বাদ দিয়ে স্কোরকে শ্রেণীবদ্ধ করা মোটেই ভাল সমাধান নয়।
ফ্রাঙ্ক হ্যারেল 12

উত্তর:


7

এই সমস্যাটির জন্য আনুপাতিক প্রতিকূলগুলি অর্ডিনাল লজিস্টিক রিগ্রেশন মডেলটি সূক্ষ্মভাবে কাজ করা উচিত। একটি দক্ষ বাস্তবায়নের জন্য যা হাজার হাজার অনন্যকে মঞ্জুরি দেয়Yমানগুলি প্যাকেজে ormফাংশনটি দেখে rms


আমি আর এবং সমস্ত প্রয়োজনীয় প্যাকেজ ইনস্টল করেছি। আপনি orm ফাংশন জন্য কিছু উদাহরণ প্রদান করবেন? খোঁজ করেও খুঁজে পেলাম না। আমার রিগ্রেশন মডেলের জন্য কোডটি কী হওয়া উচিত?
পিএসএস

1
ডকুমেন্টেশন অধ্যয়ন করতে সময় ব্যয় করা মূল্যবান। কোড সহ বিশদ কেস স্টাডির জন্য biostat.mc.vanderbilt.edu/CourseBios330 এর অধীনে হ্যান্ডআউটগুলি দেখুন - ধারাবাহিকতার জন্য রিগ্রেশন মডেলগুলির অধ্যায়Y
ফ্রাঙ্ক হ্যারেল

1

আপনি যথাক্রমে 1 ম, ....., চতুর্থ পার্সেন্টাইলগুলিতে 1, 2,3 এবং 4 এর মানগুলিকে অর্ডার করে প্রবিট / লগইট মডেলগুলি চেষ্টা করতে পারেন।


আপনি কোন পরিবর্তনশীলকে তার সর্বনিম্ন চার শতাংশের (100 এর বাইরে) হ্রাস করার প্রস্তাব দিচ্ছেন? এটি কী অর্জন করবে এবং কেন?
whuber

-1

আপনি স্কোরটি দ্বিধোটাইম করতে পারবেন (বাইনারি ভেরিয়েবলে রূপান্তর করুন)। যদি স্কোর 0 থেকে 100 হয় তবে আপনি 50 এবং 1 এর চেয়ে কম কোনও স্কোরকে 0 নির্ধারণ করতে পারেন। আমি এর আগে কখনও শুনিনি যে যদিও এটি বিদেশীদের সাথে আচরণ করার একটি ভাল উপায়। এটি কেবল বহিরাগতদের আড়াল করতে পারে যেহেতু খুব উচ্চ বা কম স্কোরের পার্থক্য করা অসম্ভব। এটি আমার কাছে দুর্দান্ত বোঝাপড়া করে না তবে আপনি এটি চেষ্টা করতে পারেন।

আরও গুরুত্বপূর্ণ আপনি কেন আপনার সমস্ত covariates এবং আপনার প্রতিক্রিয়া পরিবর্তনশীল রূপান্তরিত লগ করছেন? এটি আপনার প্রভাবিত করতে চলেছেβ অনুমান এবং আপনার R2 (আমি মনে করি).

এছাড়াও পর্যালোচক একটি ছোট বলে R2overfitting পরামর্শ? আমি ভেবেছিলাম ওভারফিটিং যখন আপনার ছিলR2উচ্চতর তবে আপনার মডেলটি নতুন ডেটাতে খারাপ অভিনয় করে (যেমন এটি আপনার ডেটাকে সরিয়ে দেয় তবে নতুন ডেটাতে সাধারণীকরণ করে না)। যখন আপনার কয়েকটি পর্যবেক্ষণ থাকে যা আপনি প্রচুর পরিমাণে পরামিতি দিয়ে ভবিষ্যদ্বাণী করার চেষ্টা করছেন তখন ওভারফিটিং এমনটি ঘটে। আপনি আপনার মডেল 2 এ এটি করছেন কারণ আপনার 8 টি পর্যবেক্ষণ রয়েছে যা আপনি 7 টি পরামিতি দিয়ে ব্যাখ্যা করার চেষ্টা করছেন।

আমি ভান করতে যাচ্ছি না আমি পরিসংখ্যান সম্পর্কে একটি বিরাট জিনিস জানি কিন্তু এটি তার মন্তব্যগুলির উপর ভিত্তি করে আমার কাছে মনে হয়, যাতে এই পর্যালোচক আরও কম জানেন।


আপনার প্রতিউত্তরের জন্য ধন্যবাদ. কারণ সমস্ত ভেরিয়েবলগুলি স্কিউড, তাই আমি তাদের প্রাকৃতিক লগ-ট্রান্সফর্মড করেছি। আমি কি সঠিক? "ওভারফিটিং" এর অর্থ কী তা বোঝানোর জন্য আপনাকে ধন্যবাদ! আসলে, আমি জানি না ওভারফিটিংয়ের অর্থ কী। এখন, আমি পর্যালোচক এবং সম্পাদককে জবাব দিতে পারি। যাইহোক, আমার মূল্যায়ন আরও দৃ make় করার জন্য আমার কাছে আপনার সুপারিশ কী? আপনার কোন রিগ্রেশন পদ্ধতিটি ভাল বলে মনে হয়?
পিএসএস

6
দ্বিচোটমাইজ করবেন না Yযেকোন কারণে.
ফ্র্যাঙ্ক হ্যারেল

আমি @ ফ্র্যাঙ্কহারেলের সাথে একমত যে আপনার ডেটা দ্বিগুণ করার জন্য একটি স্বেচ্ছাসেবী চৌম্বকটি বেছে নেওয়া কোনও অর্থবোধ করে না। এটি কি আপনার পুরো ডেটাসেট? যদি আপনার খুব কম পর্যবেক্ষণ থাকে তবে আপনার ডেটা কখনও সাধারণভাবে বিতরণ করা হবে না! এছাড়াও আপনি যে ধরণের ডেটা ব্যবহার করছেন তা বুঝতে হবে। তারা কোন ধরণের মান গ্রহণ করতে পারে, সেগুলি সাধারণভাবে বিতরণ করা উচিত তা অনুমান করা কি বুদ্ধিমানের? আমি ফ্র্যাঙ্কের অর্ডিনাল লজিস্টিক রিগ্রেশন ব্যবহারের পরামর্শটি সন্ধান করতে যাচ্ছি, তবে আমার অনুমান যে এটি রিগ্রেশনটিতে তাদের মানের পরিবর্তে স্কোরগুলির ক্রম ব্যবহার করে।
pontikos

@ সম্ভাব্য বিজ্ঞানী, আপনার বিতরণগুলি স্কিউড হয়েছে কিনা তা বিবেচ্য নয়। ওএলএস (সাধারণ) রিগ্রেশন-এ, কেবলমাত্র অবশিষ্টাংশের বিতরণ গুরুত্বপূর্ণ, এখানে দেখুন: কী-যদি-অবশিষ্টাংশগুলি-সাধারণত-বিতরণ-তবে-ওয়াই-হয় না । আপনি এটি পড়তেও পারেন: ব্যাখ্যার-লগ-ট্রান্সফর্মড-প্রেডিকেটার , আপনার ভবিষ্যদ্বাণীকারীদের পরিবর্তনের ফলে আপনার মডেলটির কী হয়েছে তা বুঝতে।
গুং - মনিকা পুনরায়

@ সম্ভাব্য বিজ্ঞানী আপনি কীভাবে যাচ্ছেন? আপনি যদি সিএসভি ফর্ম্যাটে ডেটা সরবরাহ করতে আপনার প্রশ্নটি সম্পাদনা করেন তবে আমি অধ্যাপক হ্যারেল প্রস্তাবিত orm ফাংশনটি চালানোর চেষ্টা করতে পারি এবং আমরা আউটপুট বিশ্লেষণ করতে পারি। আপনি আর এর মূল বিষয়গুলি (কোনও ফাইলে কীভাবে পড়বেন এবং একটি রিগ্রেশন চালাবেন) তা শিখতে হবে।
পন্টিকস

-1

এমনকি একটি স্বচ্ছ নির্ভরশীল পরিবর্তনশীলতেও লজিস্টিক রিগ্রেশন প্রয়োগ করা সম্ভব। এটি অর্থবহ হয়, আপনি যদি নিশ্চিত করতে চান যে পূর্বাভাসটি scoreসর্বদা এর মধ্যে রয়েছে [0, 100](আমি আপনার স্ক্রিনশটগুলি থেকে বিচার করি যে এটি 100-পয়েন্ট স্কেলে রয়েছে)।

এটা সাধা করার জন্য, শুধু 100 দ্বারা আপনার স্কোর ভাগ, এবং এই সঙ্গে পণ্য সরবরাহ সংশ্লেষণ চালানো [0,1]- ভিত্তিক লক্ষ্য পরিবর্তনশীল মত এই প্রশ্নে - আপনি এটি উদাহরণস্বরূপ করতে পারেন, সঙ্গে Rব্যবহার

glm(y~x, family="binomial", data=your.dataframe)

আমি জানি না যে এই পদ্ধতির সাহায্যকারীরা কীভাবে সহায়তা করে - এটি নির্ভর করে আপনি যে ধরণের বিদেশী প্রত্যাশা করছেন are তবে কখনও কখনও এটি ফিটের উপযোগিতা (এমনকি এমনকি) উন্নত করেR2, যদি আপনার নির্ভরশীল ভেরিয়েবলের প্রাকৃতিক নিম্ন এবং উপরের সীমানা থাকে।

দ্বিতীয় প্রশ্ন হিসাবে, R20.3অতিরিক্ত তথ্য না দিয়ে আপনি কীভাবে আপনার ডেটা থেকে বের করতে পারেন তা সেরা। আপনি যদি অনুমানের উদ্দেশ্যে আপনার মডেলটি তৈরি করেন তবে কমR2সম্পূর্ণরূপে সূক্ষ্ম, যতক্ষণ না আপনার পক্ষে গুরুত্বপূর্ণ গুণাগুণগুলি তাৎপর্যপূর্ণ। আপনি যদি মডেলটির চেয়ে বেশি সাজসজ্জা রয়েছে কিনা তা পরীক্ষা করতে চান, আপনি এটি পরীক্ষা করতে পারেনR2 একটি পরীক্ষার সেট এ , এমনকি একটি ক্রস-বৈধকরণও করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.