ডামি ভেরিয়েবল ট্র্যাপ ইস্যু


10

আমি একটি বড় ওএলএস রিগ্রেশন চালাচ্ছি যেখানে সমস্ত স্বতন্ত্র ভেরিয়েবল (প্রায় 400) ডামি ভেরিয়েবল। যদি সমস্তগুলি অন্তর্ভুক্ত থাকে, তবে নিখুঁত বহুবিধ লাইনারিটি (ডামি ভেরিয়েবল ট্র্যাপ) রয়েছে, তাই রিগ্রেশন চালানোর আগে আমাকে একটি ভেরিয়েবল বাদ দিতে হবে।

আমার প্রথম প্রশ্নটি হল, কোন পরিবর্তনশীল বাদ দেওয়া উচিত? আমি পড়েছি যে কেবলমাত্র কয়েকটিতে উপস্থিত উপস্থিতির তুলনায় অনেকগুলি পর্যবেক্ষণে উপস্থিত একটি পরিবর্তনশীল বাদ দেওয়া ভাল (উদাহরণস্বরূপ যদি প্রায় সমস্ত পর্যবেক্ষণগুলি "পুরুষ" বা "মহিলা" এবং কেবল কয়েকটি অজানা থাকে তবে "," পুরুষ "বা" মহিলা ") বাদ দিন it এটা কি ন্যায়সঙ্গত?

একটি পরিবর্তনশীল বাদ দেওয়া দিয়ে রিগ্রেশন চালানোর পরে, আমি বাদ দেওয়া ভেরিয়েবলের সহগ মানটি অনুমান করতে সক্ষম হয়েছি কারণ আমি জানি যে আমার সমস্ত স্বতন্ত্র ভেরিয়েবলের সামগ্রিক গড়টি 0 হওয়া উচিত So সুতরাং আমি এই সত্যটি ব্যবহার করে সকলের জন্য সহগের মানগুলি স্থানান্তর করতে পারি use ভেরিয়েবল অন্তর্ভুক্ত করুন এবং বাদ দেওয়া ভেরিয়েবলের জন্য একটি অনুমান পান। আমার পরের প্রশ্নটি হ'ল এখানে কিছু অনুরূপ প্রযুক্তি রয়েছে যা বাদ দেওয়া ভেরিয়েবলের সহগ মানের জন্য মান ত্রুটিটি অনুমান করতে ব্যবহার করা যেতে পারে। এটি হ'ল মূলত বাদ দেওয়া ভেরিয়েবলের সহগের জন্য একটি স্ট্যান্ডার্ড ত্রুটি প্রাক্কলন অর্জন করার জন্য আমাকে আলাদা আলাদা ভেরিয়েবল (এবং প্রথমটি রিগ্রেশনটিতে যে পরিবর্তনশীলটি আমি বাদ দিয়েছিলাম) সহ বাদ দিয়ে আবার চালাতে হবে।

পরিশেষে, আমি লক্ষ্য করেছি যে আমি প্রাপ্ত গুণাগুলি অনুমানগুলি (শূন্যের কাছাকাছি পুনরায় কেন্দ্রের পরে) কোন পরিবর্তনশীল বাদ যায় তার উপর নির্ভর করে কিছুটা পৃথক হয়। তত্ত্ব অনুসারে, একাধিক রিগ্রেশন চালানো ভাল, প্রতিটি আলাদা আলাদা চলক বাদ দিয়ে, এবং তারপরে সমস্ত নিবন্ধগুলি থেকে গুণফলের প্রাক্কলন গড় করা ভাল?


"আমার সমস্ত স্বতন্ত্র ভেরিয়েবলের সামগ্রিক গড়টি 0 হওয়া উচিত" এবং আপনি কীভাবে এটি জানেন তা আপনি কী ব্যাখ্যা করতে পারবেন?
onestop

মূলত আমি গড়ের তুলনায় সমস্ত ভেরিয়েবলের মূল্যায়ন করতে চাই (সমস্ত ভেরিয়েবলের গড়)। রিগ্রেশন থেকে সহগগুলি বাদ দেওয়া ভেরিয়েবলের সাথে সম্পর্কিত। সুতরাং আমি যখন প্রতিটি সহগ মানের থেকে সমস্ত সহগের (বাদ দেওয়া ভেরিয়েবলের সহগ সহ 0 এর) বিয়োগ করব, সামঞ্জস্য করা মানগুলি এখন গড় 0 হবে, এবং প্রতিটি সহগের মানকে গড় থেকে দূরত্ব হিসাবে দেখা যায়।
জেমস ডেভিসন

উত্তর:


8

আপনি কোন পরিবর্তনশীল বাদ দিবেন তা বিবেচনা না করে আপনার "একই" অনুমানটি পাওয়া উচিত; কোফিসিয়েন্টস আলাদা হতে পারে, কিন্তু নির্দিষ্ট পরিমাণে বা আনুমানিক পরিসংখ্যান প্রত্যাশা সমস্ত মডেলের জুড়ে একই হতে হবে।

একটি সাধারণ ক্ষেত্রে, পুরুষদের জন্য এবং মহিলাদের জন্য 0 দিন। তারপরে, আমাদের কাছে মডেল রয়েছে: এখন, মহিলাদের জন্য দিন । তারপরে women মহিলাদের জন্য প্রত্যাশিত মান হ'ল এবং এছাড়াও । পুরুষদের ক্ষেত্রে এটিxi=1

E[yixi]=xiE[yixi=1]+(1xi)E[yixi=0]=E[yixi=0]+[E[yixi=1]E[yixi=0]]xi=β0+β1xi.
zi=1
E[yizi]=ziE[yizi=1]+(1zi)E[yizi=0]=E[yizi=0]+[E[yizi=1]E[yizi=0]]zi=γ0+γ1zi.
yβ0γ0+γ1β0+β1এবং ।γ0

এই ফলাফলগুলি দেখায় যে দুটি মডেলের সহগগুলি কীভাবে সম্পর্কিত। উদাহরণস্বরূপ, । আপনার ডেটা ব্যবহার করে অনুরূপ অনুশীলন দেখানো উচিত যে আপনি যে "পৃথক" সহগগুলি পেয়েছেন তা কেবলমাত্র একটি পরিমাণের এবং একে অপরের পার্থক্য।β1=γ1


4

জেমস, প্রথমে কেন রিগ্রেশন বিশ্লেষণ, কিন্তু আনোভা নয় (এই জাতীয় বিশ্লেষণে এমন অনেক বিশেষজ্ঞ আছেন যা আপনাকে সহায়তা করতে পারে)? অনুকূল ANOVA জন্য যে সব আপনি আসলে আগ্রহী (অনন্য বিভাগ বা প্রোফাইল,) ডামি ভেরিয়েবল সমন্বয় দ্বারা বর্ণিত বিভিন্ন গ্রুপের মাধ্যমে পার্থক্য হয়। ঠিক আছে, আপনি যদি অন্তর্ভুক্ত প্রতিটি শ্রেণিবদ্ধ ভেরিয়েবলের প্রভাবগুলি অধ্যয়ন করেন তবে আপনি আবারও রিগ্রেশন চালাতে পারেন।

আমি মনে করি আপনার কাছে এখানে থাকা ডেটাগুলির ধরণটি কনজাইয়েন্ট বিশ্লেষণের অর্থে বর্ণিত হয়েছে : অবজেক্টের অনেকগুলি বৈশিষ্ট্য (লিঙ্গ, বয়স, শিক্ষা ইত্যাদি) যার বিভিন্ন বিভাগ রয়েছে, সুতরাং আপনি পুরো বৃহত্তম প্রোফাইলটি বাদ দেন, কেবলমাত্র নয় একটি ডামি ভেরিয়েবল। একটি সাধারণ অনুশীলনটি নিম্নরূপ হিসাবে অ্যাট্রিবিউটের মধ্যে বিভাগগুলি কোড করা হয় (এই লিঙ্কটি কার্যকর হতে পারে, আপনি সম্ভবত এখানে বিশ্লেষণ বিশ্লেষণ করবেন না, তবে কোডিং একই রকম): মনে করুন আপনার বিভাগ রয়েছে (তিনটি, যেমন আপনি পরামর্শ দিয়েছেন, পুরুষ, মহিলা) , অজানা) এরপরে, প্রথমে দুটি কোড করা হয় যথারীতি আপনি দুটি ডামি (পুরুষ, মহিলা) অন্তর্ভুক্ত করেন, পুরুষ হিসাবে যদি , মহিলা হিসাবে এবংn(1,0)(0,1)(1,1)যদি অজানা। এইভাবে ফলগুলি প্রকৃতপক্ষে ইন্টারসেপ্ট টার্মের চারপাশে স্থাপন করা হবে। তবে আপনি অন্যভাবে কোড করতে পারেন তবে উল্লিখিত ব্যাখ্যার সুবিধাটি হারাবেন। সংক্ষিপ্তসার হিসাবে, আপনি প্রতিটি বিভাগ থেকে একটি বিভাগ রেখেছেন এবং বর্ণিত উপায়ে আপনার পর্যবেক্ষণগুলি কোড করুন। আপনি ইন্টারসেপ্ট মেয়াদও অন্তর্ভুক্ত করবেন না।

সবচেয়ে ভাল প্রোফাইলের বিভাগগুলি বাদ দেওয়া আমার পক্ষে ভাল বলে মনে হচ্ছে, যদিও এটি অত গুরুত্বপূর্ণ নয় তবে কমপক্ষে এটি খালি নয় বলে আমি মনে করি। যেহেতু আপনি ভেরিয়েবলগুলি নির্দিষ্ট পদ্ধতিতে কোড করেন তাই অন্তর্ভুক্ত ডমি ভেরিয়েবলগুলির যৌথ পরিসংখ্যানগত তাত্পর্য (উভয় পুরুষ মহিলা, এফ টেস্ট দ্বারা পরীক্ষা করা যেতে পারে) বাদ দেওয়াটির তাত্পর্য বোঝায়।

এটি ঘটতে পারে যে ফলাফলগুলি কিছুটা আলাদা, তবে এটি হতে পারে এটি ভুল কোডিং যে এটি প্রভাবিত করে?


ক্ষমা প্রার্থনা করুন যদি আমার লেখাটি পরিষ্কার না হয় তবে এটি লিথুয়ানিয়ার মধ্যরাত।
দিমিত্রিজ সেলভ

কেন আপনার অজানা (-1, -1) এর পরিবর্তে (0,0)?
সিয়ামি

1

আপনার বিশ্লেষণের সঠিক প্রকৃতিটি না জেনে আপনি কী কোডিং এফেক্টস বিবেচনা করেছেন? এইভাবে প্রতিটি পরিবর্তনশীল কিছু নির্দিষ্ট বাদ দেওয়া বিভাগের চেয়ে সামগ্রিক গ্র্যান্ড গড়ের তুলনায় সেই বৈশিষ্ট্য / বৈশিষ্ট্যটির প্রভাবকে উপস্থাপন করবে। আমি বিশ্বাস করি আপনি এখনও বিভাগ / বৈশিষ্ট্যগুলির মধ্যে একটির জন্য একটি গুণাগুণ মিস করছেন - আপনি যেটিকে একটি -1 নির্ধারণ করেছেন। তবুও, এই অনেক ডামি দিয়ে আমি ভাবব যে গ্র্যান্ড মানে কোনও নির্দিষ্ট বাদ পড়া বিভাগের চেয়ে আরও অর্থবহ তুলনা গ্রুপ তৈরি করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.