আমাদের কেন একটি ডামি ভেরিয়েবল বাতিল করা দরকার?

আমি শিখেছি যে, একটি রিগ্রেশন মডেল তৈরি করার জন্য, আমাদের বিভাগীয় ভেরিয়েবলগুলি ডামি ভেরিয়েবলগুলিতে রূপান্তরিত করে তাদের যত্ন নিতে হবে। উদাহরণস্বরূপ, যদি আমাদের ডেটা সেটে, অবস্থানের মতো ভেরিয়েবল থাকে:

Location 
----------
Californian
NY
Florida

আমাদের এগুলিকে রূপান্তর করতে হবে:

1  0  0
0  1  0
0  0  1

যাইহোক, এটি প্রস্তাবিত হয়েছিল যে আমাদের একটি ডামি ভেরিয়েবল বাতিল করতে হবে, যতই ডামি ভেরিয়েবল রয়েছে তা নির্বিশেষে।

আমাদের কেন একটি ডামি ভেরিয়েবল বাতিল করা দরকার?

machine-learning regression categorical-data

— মিঠুন সরকার শুভ্র
সূত্র

কারণ তৃতীয় ডামিকে প্রথম দুটির লিনিয়ার সংমিশ্রণ হিসাবে ব্যাখ্যা করা যেতে পারে: এফএল = 1 - (সিএ + এনওয়াই)।

— 18'15 এ 1815 চেইনডি

@ চেইনডি তবে তিনটির বেশি ডামি ভেরিয়েবলের ব্যাখ্যা কী?

— মিঠুন সরকার শুভ্র

মোট যাই হোক না কেন, এটি আপনার কাছে থাকা বিভাগের মোট সংখ্যার চেয়ে মাত্র 1 কম হবে। আপনার উদাহরণটি প্রসারিত করে বলুন যে সমস্ত 50 টি রাজ্য ডেটাসেটে উপস্থাপিত হয়েছিল। প্রদত্ত ব্যক্তির জন্য, বলুন যে আপনি প্রথম 49 টি ডামি দেখুন যা সমস্ত শূন্য হয়, তারপরে আপনি জানেন যে শেষ ডামিটি 1 না দেখেও 1 (ডেটাসেটের প্রত্যেকটি 50 টির মধ্যে একটির অবস্থা থেকে ধরে নেওয়া)। অন্য কথায়, শেষ ডামির তথ্য ইতিমধ্যে প্রথম 49 এর ফলাফলের মধ্যে রয়েছে, সুতরাং কথা বলতে।

— চেইনডি

@ চেইনডি আপনাকে ধন্যবাদ

— মিঠুন সরকার শুভ্র

যদি এটি বসন্ত না হয়, গ্রীষ্মে এবং শরতের না হয় তবে শীত!

— স্টিভ

উত্তর:

সহজভাবে বলা যায় কারণ আপনার শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির একটি স্তর (এখানে অবস্থান) রিগ্রেশনের জন্য ডামি এনকোডিংয়ের সময় রেফারেন্স গ্রুপ হয়ে যায় এবং তা অপ্রয়োজনীয়। আমি এখানে ফর্মের উদ্ধৃতি দিচ্ছি "কে বিভাগের বা বিভাগগুলির একটি স্পষ্টতামূলক পরিবর্তনশীল, সাধারণত কে -1 ডামি ভেরিয়েবলের ক্রম হিসাবে একটি রিগ্রেশন প্রবেশ করে This এটি স্তর স্তরের মানে লিনিয়ার অনুমানের মতো is"

এটি ইতিমধ্যে এই খুব সুন্দর স্ট্যাটাসে আলোচনা করা হয়েছে st স্ট্যাকেক্সেক্সঞ্জের উত্তর ।

আমাকে বলা হয়েছিল কোর্সেরায় ইয়ানডেক্সের একটি উন্নত কোর্স রয়েছে যা এই বিষয়ে আরও বিশদে কভার করে যদি আপনার এখনও সন্দেহ থাকে তবে এখানে দেখুন । দ্রষ্টব্য আপনি সর্বদা বিনা মূল্যে কোর্সের সামগ্রীটি নিরীক্ষণ করতে পারেন। ;-)

আরেকটি চমৎকার পোস্ট আপনি পরিসংখ্যানগত দৃষ্টিভঙ্গি দিয়ে উদাহরণ প্রচুর সঙ্গে একটি পুঙ্খানুপুঙ্খ ব্যাখ্যা চান যদি না সীমাবদ্ধ হচ্ছে শুধুমাত্র কোডিং ডামি দেখুন এই ইউসিএলএ থেকে (রাঃ) এর

মনে রাখবেন যে আপনি যদি ব্যবহার pandas.get_dummiesকরেন তবে একটি প্যারামিটার রয়েছে drop_firstযাতে প্রথম স্তরটি সরিয়ে K-1 ডমিগুলি কে বিভাগীয় স্তর থেকে বের করা যায় কিনা। অনুগ্রহ করে নোট করুন default = False, এর অর্থ হল যে রেফারেন্সটি বাদ পড়ে না এবং K বিভাগীয় স্তর থেকে কে ডামি তৈরি হয়!

— TwinPenguins
সূত্র

লক্ষ্য করুন যে এটি কেবলমাত্র যদি আপনার মডেলটির একটি বিরতি থাকে (যেমন, একটি ধ্রুবক শব্দ) থাকে। অন্যথায়, ওয়ান-হট-এনকোডিং ব্যবহার করে এবং একটি ডামি ভেরিয়েবলটি বাদ না দিয়ে, আপনি স্পষ্টতই একটি বিরতি যুক্ত করছেন।

— ইলিয়াস স্ট্রহলে

আপনি না প্রয়োজন আপনার ব্যবহার কেস উপর নির্ভর করে একটি স্তর ড্রপ।

দেখুন
কোন ক্ষেত্রে আমাদের প্রথম স্তরের শ্রেণিবদ্ধ ভেরিয়েবলগুলি বাদ দেওয়া উচিত নয়?
এবং আরও সাধারণ প্রশ্ন
তত্ত্বাবধানে শেখার ক্ষেত্রে, পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি কেন খারাপ?

— বেন রেইনিগার
সূত্র