লজিস্টিক রিগ্রেশন জন্য অবিচ্ছিন্ন ভেরিয়েবলগুলি রূপান্তর করুন


11

আমার কাছে বড় জরিপের ডেটা, একটি বাইনারি ফলাফল পরিবর্তনশীল এবং বাইনারি এবং অবিচ্ছিন্ন সহ অনেক ব্যাখ্যামূলক ভেরিয়েবল রয়েছে। আমি মডেল সেটগুলি তৈরি করছি (উভয়টি জিএলএম এবং মিশ্রিত জিএলএমের সাথে পরীক্ষামূলক) এবং শীর্ষ মডেলটি নির্বাচন করতে তথ্য তাত্ত্বিক পদ্ধতির ব্যবহার করছি। আমি সংশ্লেষের জন্য ব্যাখ্যাগুলি (ধারাবাহিক এবং শ্রেণিবদ্ধ উভয়) সাবধানতার সাথে পরীক্ষা করেছি এবং আমি কেবল একই মডেলটিতে তাদের ব্যবহার করছি যা পিয়ারসন বা ফিকরর কোফ ০.৩ এর কম। আমি আমার সমস্ত ধ্রুবক ভেরিয়েবলকে শীর্ষ মডেলের পক্ষে প্রতিযোগিতায় ন্যায্য সুযোগ দিতে চাই। আমার অভিজ্ঞতায়, স্কু-এর উপর ভিত্তি করে যাদের এটির প্রয়োজন তাদেরকে রূপান্তর করা তাদের অংশীদারদের (নিম্নতর এআইসির) উন্নতি করে।

আমার প্রথম প্রশ্ন হ'ল: এই উন্নতি হ'ল কারণ রূপান্তরটি লজিটের সাথে রৈখিকতার উন্নতি করে? অথবা স্কু সংশোধন করে ডেটাটিকে আরও বেশি প্রতিসাম্য তৈরি করে ব্যাখ্যামূলক ভেরিয়েবলের ভারসাম্যকে কোনওভাবে উন্নত করা হয়? আমি আশা করি আমি এর পিছনে গাণিতিক কারণগুলি বুঝতে পেরেছি তবে আপাতত, কেউ যদি সহজ শর্তে এটি ব্যাখ্যা করতে পারে তবে তা দুর্দান্ত। আপনার যদি আমি ব্যবহার করতে পারি এমন কোনও রেফারেন্স থাকে তবে আমি সত্যিই এটির প্রশংসা করব।

অনেক ইন্টারনেট সাইট বলে যে বাইনারি লজিস্টিক রিগ্রেশনটিতে স্বাভাবিকতা অনুমান নয়, ভেরিয়েবলগুলি রূপান্তর করবেন না। তবে আমি অনুভব করি যে আমার ভেরিয়েবলগুলি রূপান্তর না করে আমি অন্যের তুলনায় কিছুটা অসুবিধে রেখেছি এবং এটি শীর্ষ মডেলটি কী তা প্রভাবিত করতে পারে এবং অনুমিতিকে পরিবর্তন করে (ভাল, এটি সাধারণত হয় না তবে কিছু ডেটাসেটে এটি করে)। আমার কিছু ভেরিয়েবলগুলি লগের রূপান্তরিত হওয়ার সময় আরও ভাল সম্পাদন করে, কিছু যখন স্কোয়ার (স্কিউয়ের বিভিন্ন দিক) এবং কিছু অপরিবর্তিত থাকে।

লজিস্টিক রিগ্রেশনের জন্য ব্যাখ্যামূলক ভেরিয়েবলগুলি রুপান্তরিত করার সময় কি সাবধানতা অবলম্বন করা উচিত এবং যদি তা না করে তবে কেউ কেন আমাকে একটি গাইডলাইন দিতে সক্ষম হবেন?


2
প্রকৃতপক্ষে, লজিস্টিক রিগ্রেশনে নরমলাইটির কোনও ধারণা (বা এই ক্ষেত্রে লজিস্টিক বিতরণ) নেই। লিঙ্ক ফাংশন (কখনও কখনও oted চিহ্নিত করা হয়) মাধ্যমে কোভারিয়েটগুলির সাথে ( ) পর্যবেক্ষণের সম্ভাবনার মধ্যে সম্পর্কের মডেলিংয়ের জন্য ব্যবহৃত হয় । লিংক ফাংশনটি বেছে নেওয়ার কারণে একটি দুর্বল ফিট / পারফরম্যান্স হতে পারে। এই সমস্যাটি বাছাইয়ের একটি বিকল্প আরও নমনীয় বিতরণ ব্যবহার করে থাকে, উদাহরণস্বরূপ এই কাগজটি দেখুনFF110P(Y=1|β,X)=F(Xβ)

যদিও ভিন্ন প্রসঙ্গে লিখিত হয়েছে, আপনি যা চেয়েছেন তার বেশিরভাগই আমার উত্তরে (বা আমার উত্তরের লিঙ্কগুলিতে) এখানে: সাধারণত বিতরণ করা হয় এক্স এবং ওয়াই সাধারণত বিতরণকৃত অবশিষ্টাংশের ফলে বেশি?
গুং - মনিকা পুনরায়

উত্তর:


3

শুধু পরিসংখ্যানগত ভিত্তিতে ভেরিয়েবলগুলি রূপান্তর করার বিষয়ে সিদ্ধান্ত নেওয়ার বিষয়ে আপনাকে সতর্ক হওয়া উচিত । আপনার অবশ্যই ব্যাখ্যার দিকে নজর দেওয়া উচিত। It আপনার প্রতিক্রিয়াগুলি লিনিয়ার এটি কি যুক্তিসঙ্গত ? অথবা এটি সম্ভবত লিনিয়ার ? এবং এটি আলোচনা করার জন্য, আমাদের আপনার ভারেবলগুলি জানতে হবে ... ঠিক উদাহরণ হিসাবে: মডেল ফিট থেকে স্বতন্ত্র, আমি মৃত্যুবরণকে বয়সের রৈখিক কার্য বলে বিশ্বাস করব না!xlog(x)

যেহেতু আপনি বলছেন যে আপনার কাছে "বড় ডেটা" রয়েছে, আপনি স্পাইলগুলি দেখে নিতে পারেন, তথ্যটিকে ট্রান্সফর্মেশন সম্পর্কে কথা বলতে দেয় ... উদাহরণস্বরূপ, আরে প্যাকেজ এমজিসিভি। এমনকি এমন প্রযুক্তি ব্যবহার করে (বা অন্য পদ্ধতি স্বয়ংক্রিয়ভাবে রূপান্তরগুলির জন্য অনুসন্ধান করা হয়), চূড়ান্ত পরীক্ষাটি নিজেকে জিজ্ঞাসা করা কী বৈজ্ঞানিক ধারণা তৈরি করে । Your আপনার ক্ষেত্রের অন্যান্য ব্যক্তিরা অনুরূপ ডেটা দিয়ে কী করবেন?


আমার উদ্বেগকে সমর্থন করার জন্য ধন্যবাদ: বাস্তবে জৈবিক অর্থে যা তৈরি হয় তা সম্পর্কে আমার কাছে রয়েছে। সমস্যাটি হ'ল, আমার কাছে দুটি সম্পর্কিত ডেটাসেট রয়েছে এবং আমি একই সাথে উভয় থেকেই উপসংহার আঁকতে চাই। তবে একটি সাবসেটে, অপরিবর্তিত মডেলগুলিতে ঘনত্বের পরিবর্তনশীল সেরা এবং অন্য লগের রূপান্তরটি সেরা। লগ রূপান্তরটি সেই ডেটাশেটের সাথে সম্পর্কের উন্নতি করে যার সেই ভেরিয়েবলের জন্য নিম্ন মান রয়েছে, সুতরাং আমি মনে করি এই দুটি ডাটা্যাসেটের সমন্বয় করা খুব কঠিন হবে, যদি না আমি উভয়টিতে ভেরিয়েবলটি অপরিবর্তিত রাখি।
Zsuzsa

1
একটি ক্ষেত্রের বিশেষজ্ঞরা খুব সহজেই এপ্ররিওরি ভেরিয়েবলের "ডান" রূপান্তরগুলি জানার পক্ষে সক্ষম। আমি প্রায় কখনও লিনিয়ার সম্পর্ক দেখতে পাই না তাই যখন নমুনা আকারের পরোয়ানা হয় তখন আমি রিগ্রেশন স্প্লাইস ব্যবহার করে এই ধারণাটি শিথিল করি। আমি ছবিগুলি দিয়ে ফলাফলটিকে ব্যাখ্যামূলক করে তুলি।
ফ্রাঙ্ক হ্যারেল

3

সমালোচনামূলক সমস্যাটি হ'ল বাস্তব বিশ্বে প্রতিনিধিত্বকারী সংখ্যাগুলি কী এবং সেই পরিবর্তনশীল এবং নির্ভরশীল ভেরিয়েবলের মধ্যে অনুমানযুক্ত সম্পর্ক কী। আপনি আপনার ডেটা 'পরিষ্কার' করে আপনার মডেলটিকে উন্নত করতে পারেন, তবে এটি যদি সত্যিকারের জগতকে আরও ভালভাবে প্রতিফলিত না করে তবে আপনি ব্যর্থ হয়েছিলেন। হতে পারে আপনার ডেটা বিতরণের অর্থ আপনার মডেলিং পদ্ধতির ভুল এবং আপনার সম্পূর্ণরূপে আলাদা পদ্ধতির প্রয়োজন, সম্ভবত আপনার ডেটাতে সমস্যা রয়েছে।

আপনি যদি ভেরিয়েবলগুলি অপসারণ করেন তবে তাদের কাছে যদি> .3 থাকে তবে আমার বাইরে। সম্ভবত। জিনিসগুলি সত্যই সম্পর্কিত এবং উভয়ই নির্ভরশীল পরিবর্তনশীলের পক্ষে গুরুত্বপূর্ণ। আপনি এটির সাথে কোনও সূচক বা কোনও ফাংশন সহ সম্পর্কযুক্ত ভেরিয়েবলের যৌথ অবদানের প্রতিনিধিত্ব করে deal মনে হচ্ছে আপনি অন্বেষণ করে একটি স্বেচ্ছাচারিত পরিসংখ্যানের মাপদণ্ডের ভিত্তিতে তথ্য ছড়িয়ে দিচ্ছেন। কেন ব্যবহার করছেন না> .31, বা .33?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.