আমাদের কেন একটি ডামি ভেরিয়েবল বাতিল করা দরকার?


16

আমি শিখেছি যে, একটি রিগ্রেশন মডেল তৈরি করার জন্য, আমাদের বিভাগীয় ভেরিয়েবলগুলি ডামি ভেরিয়েবলগুলিতে রূপান্তরিত করে তাদের যত্ন নিতে হবে। উদাহরণস্বরূপ, যদি আমাদের ডেটা সেটে, অবস্থানের মতো ভেরিয়েবল থাকে:

Location 
----------
Californian
NY
Florida

আমাদের এগুলিকে রূপান্তর করতে হবে:

1  0  0
0  1  0
0  0  1

যাইহোক, এটি প্রস্তাবিত হয়েছিল যে আমাদের একটি ডামি ভেরিয়েবল বাতিল করতে হবে, যতই ডামি ভেরিয়েবল রয়েছে তা নির্বিশেষে।

আমাদের কেন একটি ডামি ভেরিয়েবল বাতিল করা দরকার?


3
কারণ তৃতীয় ডামিকে প্রথম দুটির লিনিয়ার সংমিশ্রণ হিসাবে ব্যাখ্যা করা যেতে পারে: এফএল = 1 - (সিএ + এনওয়াই)।
18'15 এ 1815 চেইনডি

@ চেইনডি তবে তিনটির বেশি ডামি ভেরিয়েবলের ব্যাখ্যা কী?
মিঠুন সরকার শুভ্র

2
মোট যাই হোক না কেন, এটি আপনার কাছে থাকা বিভাগের মোট সংখ্যার চেয়ে মাত্র 1 কম হবে। আপনার উদাহরণটি প্রসারিত করে বলুন যে সমস্ত 50 টি রাজ্য ডেটাসেটে উপস্থাপিত হয়েছিল। প্রদত্ত ব্যক্তির জন্য, বলুন যে আপনি প্রথম 49 টি ডামি দেখুন যা সমস্ত শূন্য হয়, তারপরে আপনি জানেন যে শেষ ডামিটি 1 না দেখেও 1 (ডেটাসেটের প্রত্যেকটি 50 টির মধ্যে একটির অবস্থা থেকে ধরে নেওয়া)। অন্য কথায়, শেষ ডামির তথ্য ইতিমধ্যে প্রথম 49 এর ফলাফলের মধ্যে রয়েছে, সুতরাং কথা বলতে।
চেইনডি

@ চেইনডি আপনাকে ধন্যবাদ
মিঠুন সরকার শুভ্র

1
যদি এটি বসন্ত না হয়, গ্রীষ্মে এবং শরতের না হয় তবে শীত!
স্টিভ

উত্তর:


10

সহজভাবে বলা যায় কারণ আপনার শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির একটি স্তর (এখানে অবস্থান) রিগ্রেশনের জন্য ডামি এনকোডিংয়ের সময় রেফারেন্স গ্রুপ হয়ে যায় এবং তা অপ্রয়োজনীয়। আমি এখানে ফর্মের উদ্ধৃতি দিচ্ছি "কে বিভাগের বা বিভাগগুলির একটি স্পষ্টতামূলক পরিবর্তনশীল, সাধারণত কে -1 ডামি ভেরিয়েবলের ক্রম হিসাবে একটি রিগ্রেশন প্রবেশ করে This এটি স্তর স্তরের মানে লিনিয়ার অনুমানের মতো is"

এটি ইতিমধ্যে এই খুব সুন্দর স্ট্যাটাসে আলোচনা করা হয়েছে st স্ট্যাকেক্সেক্সঞ্জের উত্তর

আমাকে বলা হয়েছিল কোর্সেরায় ইয়ানডেক্সের একটি উন্নত কোর্স রয়েছে যা এই বিষয়ে আরও বিশদে কভার করে যদি আপনার এখনও সন্দেহ থাকে তবে এখানে দেখুন । দ্রষ্টব্য আপনি সর্বদা বিনা মূল্যে কোর্সের সামগ্রীটি নিরীক্ষণ করতে পারেন। ;-)

আরেকটি চমৎকার পোস্ট আপনি পরিসংখ্যানগত দৃষ্টিভঙ্গি দিয়ে উদাহরণ প্রচুর সঙ্গে একটি পুঙ্খানুপুঙ্খ ব্যাখ্যা চান যদি না সীমাবদ্ধ হচ্ছে শুধুমাত্র কোডিং ডামি দেখুন এই ইউসিএলএ থেকে (রাঃ) এর

মনে রাখবেন যে আপনি যদি ব্যবহার pandas.get_dummiesকরেন তবে একটি প্যারামিটার রয়েছে drop_firstযাতে প্রথম স্তরটি সরিয়ে K-1 ডমিগুলি কে বিভাগীয় স্তর থেকে বের করা যায় কিনা। অনুগ্রহ করে নোট করুন default = False, এর অর্থ হল যে রেফারেন্সটি বাদ পড়ে না এবং K বিভাগীয় স্তর থেকে কে ডামি তৈরি হয়!


4
লক্ষ্য করুন যে এটি কেবলমাত্র যদি আপনার মডেলটির একটি বিরতি থাকে (যেমন, একটি ধ্রুবক শব্দ) থাকে। অন্যথায়, ওয়ান-হট-এনকোডিং ব্যবহার করে এবং একটি ডামি ভেরিয়েবলটি বাদ না দিয়ে, আপনি স্পষ্টতই একটি বিরতি যুক্ত করছেন।
ইলিয়াস স্ট্রহলে

1
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.