আমাদের ডামি কোড শ্রেণীবদ্ধ ভেরিয়েবলগুলি কেন দরকার


22

আমি নিশ্চিত নন কেন আমাদের ডামি কোড শ্রেণিবদ্ধ ভেরিয়েবলগুলি দরকার। উদাহরণস্বরূপ, যদি আমার চারটি সম্ভাব্য মান 0,1,2,3 সহ একটি স্পষ্টিক পরিবর্তনশীল থাকে তবে আমি এটিকে দুটি মাত্রা দ্বারা প্রতিস্থাপন করতে পারি। যদি ভেরিয়েবলটির মান 0 হয় তবে এর দুটি মাত্রায় 0,0 থাকবে, যদি এটি 3 থাকে, তবে এটি দুটি মাত্রায় 1,1 থাকত এবং এ জাতীয়।

আমি নিশ্চিত না কেন আমাদের এটি করা দরকার?

উত্তর:


21

মনে করুন আপনার চারটি বিভাগ হ'ল চোখের রঙ (কোড): বাদামী (1), নীল (2), সবুজ (3), হ্যাজেল (4) -ইনিংয়ের হিটারোক্রোমিয়া, ভায়োলেট, লাল, ধূসর ইত্যাদি।

কোনওভাবেই (যেটি আমি বর্তমানে কল্পনা করতে পারি) তার অর্থ কি আমাদের সবুজ বাদামী, বা আমাদের কোডগুলি বোঝায় যে হ্যাজেল নীল, যদিও এবং ।= 2 × 3 = 3 × 1 4 = 2 × 2=3×=2×3=3×14=2×2

অতএব (যদি না আমরা কোনও কারণে আমাদের বিশ্লেষণগুলিতে এই জাতীয় অর্থ স্লিপ করতে চাই) তবে আমাদের কিছু ধরণের কোডিং ব্যবহার করা দরকার। ডামি কোডিং একটি উদাহরণ, যা চোখের রঙ সম্পর্কে আমরা বলতে চাই এমন স্ট্যাটিস্টিকাল গল্পগুলি থেকে এই ধরনের সম্পর্ককে সরিয়ে দেয়। ইফেক্ট কোডিং এবং হেকম্যান কোডিং অন্যান্য উদাহরণ।

আপডেট: আপনার চারটি বিভাগের জন্য দুটি ভেরিয়েবলের উদাহরণ "ডামি কোড" শব্দের সাথে আমার বোঝার ব্যবহারের সাথে মেলে না যা সাধারণত বিভাগে প্রতিস্থাপন করে (4 বলে) ডামি ভেরিয়েবল (বিভাগ অনুসারে পর্যালোচনা বাছাই করে) যুক্ত করে:k - 1kk1

id  category  dummy1 dummy2 dummy3
 1         1       1      0      0
 2         1       1      0      0
 3         2       0      1      0
 4         2       0      1      0
 5         3       0      0      1
 6         3       0      0      1
 7         4       0      0      0
 8         4       0      0      0

এখানে 4 বিভাগটি হল রেফারেন্স বিভাগ, ধরে নেওয়া আপনার মডেলটিতে ধ্রুবক রয়েছে যেমন:

y=β0+β1d1+β2d2+β3d3+ε

যেখানে যখন = এর মান হয় তবে বিভাগ = 4 হয় এবং প্রতিটি সাথে যুক্ত শর্তগুলি নির্দেশ করে যে এই বিভাগের জন্য থেকে কোন পরিমাণে পরিবর্তন হয় y β y β 0β0yβyβ0

আপনি যদি না একটি ধ্রুবক (আছে ) মডেল শব্দটি, তাহলে আপনি মডেল ধ্রুবক হিসেবে আরো "ডামি" predictor (সম্ভবত কম প্রায়ই বলা "সূচকটি ভেরিয়েবল"), কার্যকরী নকলগুলির তারপর প্রতিটি আচরণ প্রয়োজন প্রতিটি বিভাগের জন্য:β0

y=β1d1+β2d2+β3d3+β4d4+ε

সুতরাং এটি প্রথমে আমি উল্লিখিত বিভাগ কোডগুলির মধ্যে অযৌক্তিক পরিমাণগত সম্পর্ক তৈরির ইস্যুটির আশেপাশের একটি পেয়ে যাব তবে আপনি যেভাবে 121211 কোডিং ব্যবহার করবেন তা আপনার পরামর্শ অনুসারে ব্যবহার করবেন না কেন ? ব্যবহারকারী १२৩৩১-কোডিং প্রার্থী এ:

id  category   code1  code2
 1         1       0      ?
 2         1       0      ?
 3         2       1      ?
 4         2       1      ?
 5         3       ?      0
 6         3       ?      0
 7         4       ?      1
 8         4       ?      1

আপনি উল্লেখ করতে যথেষ্ট সঠিক যে কেউ 2 বাইনারি ভেরিয়েবল (অর্থাত্ দ্বি-বিট) ব্যবহার করে 4 টি মান উপস্থাপন করতে পারে । দুর্ভাগ্যক্রমে, এগুলির একটি পদ্ধতির (বিভাগ 1 এবং 2 বিভাগের কোড কোড এবং 3 এবং 4 বিভাগের কোড 2) প্রশ্ন চিহ্ন দ্বারা নির্দেশিত অস্পষ্টতা ছেড়ে দেয়: সেখানে কোন মান থাকবে ?!

ঠিক আছে, দ্বিতীয় পদ্ধতির কী, এটিকে ইউজার 12331-কোডিং প্রার্থী বি বলুন:

id  category   code1  code2
 1         1       0      0
 2         1       0      0
 3         2       0      1
 4         2       0      1
 5         3       1      0
 6         3       1      0
 7         4       1      1
 8         4       1      1

সেখানে! অস্পষ্টতা নেই, তাই না? রাইট! দুর্ভাগ্যক্রমে, এই সমস্ত কোডিংটি বাইনারি স্বরলিপিতে 1 quant4 (বা 0–3) সংখ্যার পরিমাণকে প্রতিনিধিত্ব করে , যা বিভাগগুলিতে সেই অনাকাঙ্ক্ষিত পরিমাণগত সম্পর্ক দেওয়ার সমস্যা অক্ষুণ্ণ রাখে।

অতএব, অন্য কোডিং প্রকল্পের প্রয়োজন।

মডেলটির বিভাগগুলির সাথে ইন্টারঅ্যাকশন শর্তাদি অন্তর্ভুক্ত না করাতে আমি এই সতর্কতার সাথে বন্ধ করে দেব যে বিভিন্ন কোডিং প্রকল্পগুলি কমবেশি কোনও বিষয় বা শৈলীর (অর্থাত্ একটি নির্দিষ্ট বলতে কী বোঝায় ) । তারপরে ডামি কোডিং একটি কৃত্রিম ভিন্ন ভিন্ন বৈশিষ্ট্য প্রবর্তন করবে এবং স্ট্যান্ডার্ড ত্রুটিগুলিকে পক্ষপাত করবে, সুতরাং আপনি এই জাতীয় ক্ষেত্রে কার্যকর কোডিং দিয়ে আটকে থাকতে চাইবেন (এমন কোনও কোডিং সিস্টেম থাকতে পারে যা সেই পরিস্থিতিতে একজনকে নিরাপদ রাখে, তবে আমি তাদের সাথে অপরিচিত)।β


5
যদিও এই উত্তরটি প্রমাণ করে যে আমরা কেন একটি ভেরিয়েবল ব্যবহার করতে পারি না (অর্থাত্ আমাদের অবশ্যই কিছু প্রকারের কোডিং দরকার) তবে এটি (এখনও) ব্যাখ্যা করে না যে আমরা কেন দুটি ভেরিয়েবল বলার সাথে এটি করতে পারি না , ওপিতে প্রশ্নে পরামর্শ দেওয়া হয়েছে।
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি আপনাকে ধন্যবাদ আমি আশা করি আমার আপডেটটি ঠিকানাটিতে সহায়তা করেছে।
অ্যালেক্সিস

2
নোট করুন যে 2 বাইনারি ভেরিয়েবলগুলি 4 টি বিভাগ ([0,0), (0,1), (1,0), (1,1)] উপস্থাপনের জন্য যথেষ্ট তবে বিশ্লেষণের জন্য ডামি কোডের উপযুক্ত উপায় নয়। ওপি মনে হচ্ছে ভুলভাবে কোডিং করছে।
এলিস ভ্যালেন্টাইনার

@ ব্যবহারকারী 12202013 হ্যাঁ। আমার শেষ উদাহরণ হিসাবে।
অ্যালেক্সিস

আমি যদি ওপি দ্বারা প্রস্তাবিত দুটি ভেরিয়েবল ব্যবহার করে বাইনারি কোডিং করি, তবে যদি লক্ষ্যটি পূর্বাভাস হয়, তবে কোনও প্যারামিমেট্রিক, নন-লিনিয়ার শ্রেণিবদ্ধ / রেজিস্ট্রার সমানভাবে কাজ করবে না?
টুল.শ

1

এই প্রশ্নে আমার গ্রহণযোগ্যতাটি হল, মাত্র দুটি ভেরিয়েবলের সাথে চারটি সম্ভাব্য রাজ্যের কোডিং করা 4 টি ভেরিয়েবল ব্যবহারের চেয়ে কিছু মেশিন লার্নিং অ্যালগরিদমের সাথে কম ভাবপূর্ণ।

উদাহরণস্বরূপ, কল্পনা করুন যে আপনি লিনিয়ার রিগ্রেশন করতে চান এবং আপনার প্রকৃত ম্যাপিং মান 0,1 এবং 2 থেকে 0 এবং মান 3 থেকে 1 মানচিত্রের মানচিত্রের মানচিত্র করে দেয় আপনি কোডিং করার সময় লিনিয়ার রিগ্রেশন সহ এই ম্যাপিং শেখার কোনও উপায় নেই তা আপনি দ্রুত পরীক্ষা করতে পারেন You মাত্র দুটি বাইনারি বেশী দিয়ে আপনার শ্রেণিবদ্ধ ভেরিয়েবল (কেবল আপনার মাথার সাথে সম্পর্কিত বিমানটি ফিট করার চেষ্টা করুন)। অন্যদিকে, আপনি যখন 1-অফ-কে কোডিং ব্যবহার করেন, এটি কোনও সমস্যা হবে না।


0

আপনার বিকল্পটিও একটি ডামি কোড। আপনি ডামি কোডটি চয়ন করেন যা আপনার নির্ভরশীল ভেরিয়েবলের সাথে সম্পর্কটিকে সর্বোত্তমভাবে প্রকাশ করে। উদাহরণস্বরূপ বর্ণটি এন এর 1 হিসাবে প্রকাশ করা যেতে পারে, বা আপনি সংখ্যার আরজিবি উপাদানগুলিতে রূপান্তর করতে পারেন, বা আপনি শ্রেণিবদ্ধ করতে পারেন: গিরলি / কাদা / ... 1 এর মূলত প্রতিটি উদাহরণ পৃথকভাবে শেখা হয় যা কোনও সম্পর্ক না থাকলে ভাল। .. তবে যেখানে এমন কোনও সম্পর্ক রয়েছে যেখানে আপনি আপনার ডেটা নষ্ট করছেন..তবে আপনাকে বিভাগের প্রতিটি উদাহরণের জন্য পৃথকভাবে গুণাগুলি অনুমান করতে হবে ... চাকরিকে একটি শ্রেণিবদ্ধ পরিবর্তনশীল হিসাবে বিবেচনা করুন। আপনি বাজার খাত এবং জ্যেষ্ঠতা হিসাবে আবার শ্রেণিবদ্ধ হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.