কেন্দ্রীকরণ এবং ডামি ভেরিয়েবল স্কেলিং


13

আমার কাছে একটি ডেটা সেট রয়েছে যা স্পষ্টত ভেরিয়েবল এবং অবিচ্ছিন্ন ভেরিয়েবল উভয়ই অন্তর্ভুক্ত করে। আমাকে প্রতিটি স্তরের (যেমন, A_level1: {0,1}, A_level2: {0,1}) শ্রেণীবদ্ধ ভেরিয়েবলগুলি বাইনারি ভেরিয়েবল হিসাবে রূপান্তর করার পরামর্শ দেওয়া হয়েছিল - আমি মনে করি কেউ কেউ এই "ডামি ভেরিয়েবল" বলেছেন।

এই বলে যে, এটি কি তখন ভ্রান্ত হবে যদি নতুন ভেরিয়েবলের সাথে পুরো ডেটা সেট সেট করে এবং স্কেল করে? দেখে মনে হচ্ছে আমি ভেরিয়েবলের "চালু / বন্ধ" অর্থটি হারাব।

যদি এটি বিভ্রান্তিকর হয় তবে এর অর্থ কি আমার ক্রমাগত পরিবর্তনশীলগুলি আলাদাভাবে কেন্দ্র করা এবং স্কেল করা উচিত এবং তারপরে এটি আমার ডেটা সেটে পুনরায় যুক্ত করা উচিত?

টিয়া।


1
কেন্দ্র এবং / অথবা স্কেল ডামি ভেরিয়েবলগুলি গ্রহণযোগ্য বা যুক্তিসঙ্গত কিনা তা আপনি প্রয়োগ করছেন এমন বিশ্লেষণ এবং টাস্ক-নির্দিষ্ট বিবেচনার উপর নির্ভর করে। সুতরাং কোন একক সঠিক উত্তর নেই। বেশিরভাগ সাধারণভাবে, মোটামুটি কাঠামো তৈরির ক্ষেত্রে ভবিষ্যদ্বাণীকারী ডামি ভেরিয়েবলগুলি দিয়ে প্রায়শই করা ঠিক হয়; প্রতিক্রিয়ার ডামি ভেরিয়েবলগুলি বা ক্লাস্টারিং বা ফ্যাক্টর অ্যানালাইসিসের মতো বহুবিধ পদ্ধতিতে এটি প্রায়শই খারাপ ধারণা।
ttnphns

উত্তর:


13

রিগ্রেশন বিশ্লেষণে ডামি ভেরিয়েবলগুলি তৈরি করার সময়, একটি শ্রেণিবদ্ধ ভেরিয়েবলের প্রতিটি বিভাগের জন্য একটি বাইনারি ভেরিয়েবল পাওয়া উচিত। সুতরাং আপনার যেমন उ। A_level2, A_level3 ইত্যাদি হওয়া উচিত the বিভাগগুলির মধ্যে একটিতে বাইনারি ভেরিয়েবল থাকা উচিত নয় এবং এই বিভাগটি রেফারেন্স বিভাগ হিসাবে কাজ করবে। আপনি যদি বিভাগগুলির মধ্যে একটিও বাদ না দেন তবে আপনার প্রতিরোধ বিশ্লেষণগুলি সঠিকভাবে চলবে না।

আপনি যদি এসপিএসএস বা আর ব্যবহার করেন তবে আমি মনে করি না যে পুরো ডেটা সেট সেট করা এবং স্কেলিং করা সাধারণত সমস্যা হয়ে থাকে কারণ এই সফ্টওয়্যার প্যাকেজগুলি প্রায়শই মাত্র দুটি স্তরের ভেরিয়েবলকে কারণ হিসাবে ব্যাখ্যা করে, তবে এটি ব্যবহৃত নির্দিষ্ট পরিসংখ্যান পদ্ধতির উপর নির্ভর করে । যাই হোক না কেন, বাইনারি (বা শ্রেণীবদ্ধ) ভেরিয়েবলগুলি স্কেল এবং কেন্দ্র করার কোনও ধারণা নেই তাই আপনার যদি এটি করতেই হয় তবে কেবলমাত্র কেন্দ্র এবং ক্রমাগত চলকগুলি স্কেল করা উচিত।


2
আমার দৃ feeling় অনুভূতিটি হ'ল সত্য যে ওপি প্রশ্নের উত্তর দিচ্ছে তার একমাত্র অংশটিই শেষ বাক্য - একটি অংশটি অব্যক্ত নয়। আপনি বলেছিলেন যে এগুলি স্কেল করবেন না তবে কেন ব্যাখ্যা করবেন না। এদিকে, বিষয়টি খুব সহজ নয়।
ttnphns

শ্রেণিবদ্ধ ভেরিয়েবল কোডিংয়ের এটি একমাত্র উপায়। আমার কাছে পুরো উত্তরটি লেখার সময় নেই, তবে "বিপরীতে" অনুসন্ধান করা আপনাকে সহায়তা করতে পারে। একটি প্রাসঙ্গিক উত্তর হ'ল stats.stackexchange.com/questions/60817/…
ব্যবহারকারী 20637

3

আপনি যদি আর ব্যবহার করে থাকেন এবং কেবল 0 এবং 1 এর মধ্যে 0 বা 1 এর স্কেমে থাকা ডামি ভেরিয়েবল বা ভেরিয়েবলগুলি স্কেলিং করে থাকেন তবে এই ভেরিয়েবলের মানগুলিতে কোনও পরিবর্তন হবে না, বাকী কলামগুলি মাপা হবে।

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

আকর্ষণীয় পরামর্শ। ভাগ করার জন্য আপনাকে ধন্যবাদ। আমি জিজ্ঞাসা করে কিছুক্ষণ হয়ে গেছে, তবে এই পুরানো পোস্টগুলি থেকে আমি এখনও শিখতে পারি তা দেখতে ভাল লাগছে।
ব্যবহারকারী 2300643

3

রিগ্রেশনকে কেন্দ্র করে গড়ার বিষয়টি হ'ল ইন্টারসেপটিকে আরও ব্যাখ্যাযোগ্য করে তোলা। অর্থাত্, আইডি বলতে আপনার বোঝা আপনার রেগ্রেশন মডেলের সমস্ত ভেরিয়েবলকে কেন্দ্র করে, তারপরে ইন্টারসেপ্ট (এসপিএসএস আউটপুটে কনস্ট্যান্ট নামে পরিচিত) আপনার ফলাফলের ভেরিয়েবলের সামগ্রিক গ্র্যান্ড মিডের সমান। চূড়ান্ত মডেলটি ব্যাখ্যা করার সময় যা সুবিধাজনক হতে পারে।

ডামি ভেরিয়েবলগুলি কেন্দ্রীকরণ করার অর্থ হিসাবে, আমি কেবলমাত্র আমার এক অধ্যাপকের সাথে একটি রিগ্রেশন মডেলটিতে ডামি ভেরিয়েবলগুলি কেন্দ্র করে গড়ে তোলার বিষয়ে কথোপকথন করেছি (আমার ক্ষেত্রে 3 স্তরের সাথে একটি এলোমেলো ব্লক ডিজাইন মাল্টিলেভেল মডেল) এবং আমার ছাড়ার অর্থটি কেন্দ্রীকরণ করার অর্থ ছিল ডামি ভেরিয়েবলগুলি আসলে রিগ্রেশন কোএফিসিয়েন্টগুলির ব্যাখ্যা পরিবর্তন করে না (সমাধানটি পুরোপুরি মানকৃত করা বাদে)। সাধারণত, আসল ইউনিট স্তরের অর্থ কেন্দ্রিক মান - কেবল সহগগুলি ব্যাখ্যা করার জন্য প্রতিরোধের প্রয়োজন হয় না। এবং এটি মূলত পরিবর্তিত হয় না - বেশিরভাগ অংশের জন্য। তিনি বলেছিলেন যে এটি কিছুটা পরিবর্তিত হয়েছে কারণ এটি মানসম্মত যা ডামিদের পক্ষে বোঝার মতো স্বজ্ঞাত নয়।

ক্যাভ্যাট: আমি যখন আমার অধ্যাপকের অফিস থেকে বের হলাম তখন এটি আমার বুঝতে পেরেছিল। আমি অবশ্যই ভুল বুঝতে পারি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.