আমাদের ডামি কোড শ্রেণীবদ্ধ ভেরিয়েবলগুলি কেন দরকার

আমি নিশ্চিত নন কেন আমাদের ডামি কোড শ্রেণিবদ্ধ ভেরিয়েবলগুলি দরকার। উদাহরণস্বরূপ, যদি আমার চারটি সম্ভাব্য মান 0,1,2,3 সহ একটি স্পষ্টিক পরিবর্তনশীল থাকে তবে আমি এটিকে দুটি মাত্রা দ্বারা প্রতিস্থাপন করতে পারি। যদি ভেরিয়েবলটির মান 0 হয় তবে এর দুটি মাত্রায় 0,0 থাকবে, যদি এটি 3 থাকে, তবে এটি দুটি মাত্রায় 1,1 থাকত এবং এ জাতীয়।

আমি নিশ্চিত না কেন আমাদের এটি করা দরকার?

categorical-data categorical-encoding

— user12331
সূত্র

মনে করুন আপনার চারটি বিভাগ হ'ল চোখের রঙ (কোড): বাদামী (1), নীল (2), সবুজ (3), হ্যাজেল (4) -ইনিংয়ের হিটারোক্রোমিয়া, ভায়োলেট, লাল, ধূসর ইত্যাদি।

কোনওভাবেই (যেটি আমি বর্তমানে কল্পনা করতে পারি) তার অর্থ কি আমাদের সবুজ বাদামী, বা আমাদের কোডগুলি বোঝায় যে হ্যাজেল নীল, যদিও এবং । $= 3\times$ $=2\times$ $3=3\times1$ $4 = 2 \times 2$

অতএব (যদি না আমরা কোনও কারণে আমাদের বিশ্লেষণগুলিতে এই জাতীয় অর্থ স্লিপ করতে চাই) তবে আমাদের কিছু ধরণের কোডিং ব্যবহার করা দরকার। ডামি কোডিং একটি উদাহরণ, যা চোখের রঙ সম্পর্কে আমরা বলতে চাই এমন স্ট্যাটিস্টিকাল গল্পগুলি থেকে এই ধরনের সম্পর্ককে সরিয়ে দেয়। ইফেক্ট কোডিং এবং হেকম্যান কোডিং অন্যান্য উদাহরণ।

আপডেট: আপনার চারটি বিভাগের জন্য দুটি ভেরিয়েবলের উদাহরণ "ডামি কোড" শব্দের সাথে আমার বোঝার ব্যবহারের সাথে মেলে না যা সাধারণত বিভাগে প্রতিস্থাপন করে (4 বলে) ডামি ভেরিয়েবল (বিভাগ অনুসারে পর্যালোচনা বাছাই করে) যুক্ত করে: $k$ $k-1$

id  category  dummy1 dummy2 dummy3
 1         1       1      0      0
 2         1       1      0      0
 3         2       0      1      0
 4         2       0      1      0
 5         3       0      0      1
 6         3       0      0      1
 7         4       0      0      0
 8         4       0      0      0

এখানে 4 বিভাগটি হল রেফারেন্স বিভাগ, ধরে নেওয়া আপনার মডেলটিতে ধ্রুবক রয়েছে যেমন:

y = β_{0} + β_{1} d 1 + β_{2} d 2 + β_{3} d 3 + ε

$y = \beta_{0} + \beta_{1}d1 + \beta_{2}d2 + \beta_{3}d3 + \varepsilon$

যেখানে যখন = এর মান হয় তবে বিভাগ = 4 হয় এবং প্রতিটি সাথে যুক্ত শর্তগুলি নির্দেশ করে যে এই বিভাগের জন্য থেকে কোন পরিমাণে পরিবর্তন হয় । $\beta_{0}$ $y$ $\beta$ $y$ $\beta_{0}$

আপনি যদি না একটি ধ্রুবক (আছে ) মডেল শব্দটি, তাহলে আপনি মডেল ধ্রুবক হিসেবে আরো "ডামি" predictor (সম্ভবত কম প্রায়ই বলা "সূচকটি ভেরিয়েবল"), কার্যকরী নকলগুলির তারপর প্রতিটি আচরণ প্রয়োজন প্রতিটি বিভাগের জন্য: $\beta_{0}$

y = β_{1} d 1 + β_{2} d 2 + β_{3} d 3 + β_{4} d 4 + ε

$y = \beta_{1}d1 + \beta_{2}d2 + \beta_{3}d3 + \beta_{4}d4 + \varepsilon$

সুতরাং এটি প্রথমে আমি উল্লিখিত বিভাগ কোডগুলির মধ্যে অযৌক্তিক পরিমাণগত সম্পর্ক তৈরির ইস্যুটির আশেপাশের একটি পেয়ে যাব তবে আপনি যেভাবে 121211 কোডিং ব্যবহার করবেন তা আপনার পরামর্শ অনুসারে ব্যবহার করবেন না কেন ? ব্যবহারকারী १२৩৩১-কোডিং প্রার্থী এ:

id  category   code1  code2
 1         1       0      ?
 2         1       0      ?
 3         2       1      ?
 4         2       1      ?
 5         3       ?      0
 6         3       ?      0
 7         4       ?      1
 8         4       ?      1

আপনি উল্লেখ করতে যথেষ্ট সঠিক যে কেউ 2 বাইনারি ভেরিয়েবল (অর্থাত্ দ্বি-বিট) ব্যবহার করে 4 টি মান উপস্থাপন করতে পারে । দুর্ভাগ্যক্রমে, এগুলির একটি পদ্ধতির (বিভাগ 1 এবং 2 বিভাগের কোড কোড এবং 3 এবং 4 বিভাগের কোড 2) প্রশ্ন চিহ্ন দ্বারা নির্দেশিত অস্পষ্টতা ছেড়ে দেয়: সেখানে কোন মান থাকবে ?!

ঠিক আছে, দ্বিতীয় পদ্ধতির কী, এটিকে ইউজার 12331-কোডিং প্রার্থী বি বলুন:

id  category   code1  code2
 1         1       0      0
 2         1       0      0
 3         2       0      1
 4         2       0      1
 5         3       1      0
 6         3       1      0
 7         4       1      1
 8         4       1      1

সেখানে! অস্পষ্টতা নেই, তাই না? রাইট! দুর্ভাগ্যক্রমে, এই সমস্ত কোডিংটি বাইনারি স্বরলিপিতে 1 quant4 (বা 0–3) সংখ্যার পরিমাণকে প্রতিনিধিত্ব করে , যা বিভাগগুলিতে সেই অনাকাঙ্ক্ষিত পরিমাণগত সম্পর্ক দেওয়ার সমস্যা অক্ষুণ্ণ রাখে।

অতএব, অন্য কোডিং প্রকল্পের প্রয়োজন।

মডেলটির বিভাগগুলির সাথে ইন্টারঅ্যাকশন শর্তাদি অন্তর্ভুক্ত না করাতে আমি এই সতর্কতার সাথে বন্ধ করে দেব যে বিভিন্ন কোডিং প্রকল্পগুলি কমবেশি কোনও বিষয় বা শৈলীর (অর্থাত্ একটি নির্দিষ্ট বলতে কী বোঝায় ) । তারপরে ডামি কোডিং একটি কৃত্রিম ভিন্ন ভিন্ন বৈশিষ্ট্য প্রবর্তন করবে এবং স্ট্যান্ডার্ড ত্রুটিগুলিকে পক্ষপাত করবে, সুতরাং আপনি এই জাতীয় ক্ষেত্রে কার্যকর কোডিং দিয়ে আটকে থাকতে চাইবেন (এমন কোনও কোডিং সিস্টেম থাকতে পারে যা সেই পরিস্থিতিতে একজনকে নিরাপদ রাখে, তবে আমি তাদের সাথে অপরিচিত)। $\beta$

— অ্যালেক্সিস
সূত্র

যদিও এই উত্তরটি প্রমাণ করে যে আমরা কেন একটি ভেরিয়েবল ব্যবহার করতে পারি না (অর্থাত্ আমাদের অবশ্যই কিছু প্রকারের কোডিং দরকার) তবে এটি (এখনও) ব্যাখ্যা করে না যে আমরা কেন দুটি ভেরিয়েবল বলার সাথে এটি করতে পারি না , ওপিতে প্রশ্নে পরামর্শ দেওয়া হয়েছে।

— গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি আপনাকে ধন্যবাদ আমি আশা করি আমার আপডেটটি ঠিকানাটিতে সহায়তা করেছে।

— অ্যালেক্সিস

নোট করুন যে 2 বাইনারি ভেরিয়েবলগুলি 4 টি বিভাগ ([0,0), (0,1), (1,0), (1,1)] উপস্থাপনের জন্য যথেষ্ট তবে বিশ্লেষণের জন্য ডামি কোডের উপযুক্ত উপায় নয়। ওপি মনে হচ্ছে ভুলভাবে কোডিং করছে।

— এলিস ভ্যালেন্টাইনার

@ ব্যবহারকারী 12202013 হ্যাঁ। আমার শেষ উদাহরণ হিসাবে।

— অ্যালেক্সিস

আমি যদি ওপি দ্বারা প্রস্তাবিত দুটি ভেরিয়েবল ব্যবহার করে বাইনারি কোডিং করি, তবে যদি লক্ষ্যটি পূর্বাভাস হয়, তবে কোনও প্যারামিমেট্রিক, নন-লিনিয়ার শ্রেণিবদ্ধ / রেজিস্ট্রার সমানভাবে কাজ করবে না?

— টুল.শ

এই প্রশ্নে আমার গ্রহণযোগ্যতাটি হল, মাত্র দুটি ভেরিয়েবলের সাথে চারটি সম্ভাব্য রাজ্যের কোডিং করা 4 টি ভেরিয়েবল ব্যবহারের চেয়ে কিছু মেশিন লার্নিং অ্যালগরিদমের সাথে কম ভাবপূর্ণ।

উদাহরণস্বরূপ, কল্পনা করুন যে আপনি লিনিয়ার রিগ্রেশন করতে চান এবং আপনার প্রকৃত ম্যাপিং মান 0,1 এবং 2 থেকে 0 এবং মান 3 থেকে 1 মানচিত্রের মানচিত্রের মানচিত্র করে দেয় আপনি কোডিং করার সময় লিনিয়ার রিগ্রেশন সহ এই ম্যাপিং শেখার কোনও উপায় নেই তা আপনি দ্রুত পরীক্ষা করতে পারেন You মাত্র দুটি বাইনারি বেশী দিয়ে আপনার শ্রেণিবদ্ধ ভেরিয়েবল (কেবল আপনার মাথার সাথে সম্পর্কিত বিমানটি ফিট করার চেষ্টা করুন)। অন্যদিকে, আপনি যখন 1-অফ-কে কোডিং ব্যবহার করেন, এটি কোনও সমস্যা হবে না।

— Tobias
সূত্র

আপনার বিকল্পটিও একটি ডামি কোড। আপনি ডামি কোডটি চয়ন করেন যা আপনার নির্ভরশীল ভেরিয়েবলের সাথে সম্পর্কটিকে সর্বোত্তমভাবে প্রকাশ করে। উদাহরণস্বরূপ বর্ণটি এন এর 1 হিসাবে প্রকাশ করা যেতে পারে, বা আপনি সংখ্যার আরজিবি উপাদানগুলিতে রূপান্তর করতে পারেন, বা আপনি শ্রেণিবদ্ধ করতে পারেন: গিরলি / কাদা / ... 1 এর মূলত প্রতিটি উদাহরণ পৃথকভাবে শেখা হয় যা কোনও সম্পর্ক না থাকলে ভাল। .. তবে যেখানে এমন কোনও সম্পর্ক রয়েছে যেখানে আপনি আপনার ডেটা নষ্ট করছেন..তবে আপনাকে বিভাগের প্রতিটি উদাহরণের জন্য পৃথকভাবে গুণাগুলি অনুমান করতে হবে ... চাকরিকে একটি শ্রেণিবদ্ধ পরিবর্তনশীল হিসাবে বিবেচনা করুন। আপনি বাজার খাত এবং জ্যেষ্ঠতা হিসাবে আবার শ্রেণিবদ্ধ হতে পারে।

— seanv507
সূত্র