ওয়ান-হট এনকোডিং বনাম ডামি এনকোডিংয়ের সমস্যা


11

আমি এই সত্যটি সম্পর্কে সচেতন যে কে স্তরের সাথে শ্রেণিবদ্ধ ভেরিয়েবলগুলি ডামি এনকোডিংয়ে (1 একইভাবে বহু-মূল্যবান শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য) কে -1 ভেরিয়েবলের সাথে এনকোড করা উচিত। আমি ভাবছিলাম যে বিভিন্ন রিগ্রেশন পদ্ধতির জন্য মূলত লিনিয়ার রিগ্রেশন, পেনালাইড লিনিয়ার রিগ্রেশন (লাসো, রিজ, ইলাস্টিক নেট), বৃক্ষভিত্তিক (এলোমেলো বন) এক-হট এনকোডিং (যেমন পরিবর্তে কে ভেরিয়েবল ব্যবহার করে) কতটা সমস্যা করে? , গ্রেডিয়েন্ট বুস্টিং মেশিন)।

আমি জানি যে লিনিয়ার রিগ্রেশন, মাল্টি-কোলাইনারিটি সমস্যা দেখা দেয় (যদিও বাস্তবে আমি কোনও সমস্যা ছাড়াই ওএইচই ব্যবহার করে লিনিয়ার রিগ্রেশন লাগিয়েছি)।

যাইহোক, ডামি এনকোডিংগুলি কী কী সেগুলি সবগুলিতেই ব্যবহার করা দরকার এবং যদি কেউ একটি-হট এনকোডিং ব্যবহার করে তবে ফলাফলগুলি কী ভুল হতে পারে?

আমার ফোকাস একাধিক (উচ্চ কার্ডিনালিটি) শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে রিগ্রেশন মডেলগুলির পূর্বাভাসের দিকে রয়েছে, তাই আমি আত্মবিশ্বাসের অন্তরগুলিতে আগ্রহী নই।


10
আমি দাবি করি যে এই দু'টি পার্থক্য করা ভুল। ডামি ভেরিয়েবল এবং এক-গরম ভেরিয়েবলগুলি সম্পূর্ণ প্রতিশব্দ। প্রথম শব্দটি পুরানো এবং পরিসংখ্যান থেকে আসে, যখন দ্বিতীয়টি ছোট এবং মেশিন লার্নিং থেকে আসে। তৃতীয় এবং আরও আনুষ্ঠানিক প্রতিশব্দ হ'ল সূচক প্রকারের বিপরীতে ভেরিয়েবল। এই জাতীয় প্রাথমিক ভেরিয়েবলের সেটগুলিতে সমস্ত কে বা কে -1 ননরেডানডেন্ট ভেরিয়েবলগুলি ব্যবহার করা হবে কিনা এই প্রশ্নের পরিভাষাটির কোনও সম্পর্ক নেই এবং এটি বিশ্লেষণের ধরণের এবং কংক্রিটের অ্যালগরিদম বা প্রোগ্রামের উপর নির্ভর করে।
ttnphns

2
(নিয়মিত) উদাহরণস্বরূপ, একটি রিগ্রেশন সফ্টওয়্যার সাধারণত এককতার কারণে সমস্ত কেতে প্রবেশ করতে দেয় না, তবে সমপরিমাণ সাধারণ লিনিয়ার মডেলিং সফ্টওয়্যার এটির অনুমতি দেয় কারণ এটি সিউডোয়েন্টার পদ্ধতির ব্যবহার করে।
ttnphns

1
আমি @ttnphns এর সাথে আছি, এই দু'টিই কেবল ভয়াবহ নাম। আমি পূর্ণ-এনকোডিং এবং লে-ওয়ান-আউট এনকোডিং পছন্দ করি
ম্যাথু ড্রুরি

2
পরিভাষাটির জন্য ক্ষমাপ্রার্থনা, এটি প্রমিত পেশাদার (এবং একইভাবে ওরিয়েন্টেড বই) দ্বারা ব্যবহৃত স্ট্যান্ডার্ড পদগুলি। কোলাইনারিটির বিষয়টি কেবল লিনিয়ার (আনপেনালাইজড মডেল) এ প্রদর্শিত হয়? সমস্ত সফ্টওয়্যার সমস্ত কেতে প্রবেশ করা বন্ধ করে না (উদাহরণস্বরূপ পাইথনের বিজ্ঞান-শিখুন, আমি ভুল হলে আমাকে সংশোধন করুন)
user90772

@ ম্যাথহেড্রুরি আমার পোষা প্রাণীর অন্যতম একটি হল হ'ল "ওয়ান-হট এনকোডিং" এবং "এ / বি পরীক্ষার" মতো পরিসংখ্যান বিশ্লেষণের ক্ষেত্রে নকল শর্তাদি / বাক্যাংশ। বিভ্রান্তি এড়াতে প্রত্যেকেরই পুরানো "ডামি কোডিং" এবং "হাইপোথিসিস টেস্টিং" দিয়ে থাকা উচিত।
রবার্টএফ

উত্তর:


7

রিগ্রেশনে ভেরিয়েবলের সাথে স্তর রয়েছে এমন একটি শ্রেণিবদ্ধ ভেরিয়েবল উপস্থাপনের বিষয়টি হ'ল, যদি মডেলটিরও একটি ধ্রুবক শব্দ থাকে, তবে শর্তগুলি রৈখিকভাবে নির্ভরশীল এবং সুতরাং মডেলটি অজানা। উদাহরণস্বরূপ, যদি মডেলটি এবং হয় তবে প্যারামিটার ভেক্টরের যে কোনও পছন্দ থেকে আলাদা করা যায় না । সুতরাং যদিও সফ্টওয়্যার আপনাকে এই প্যারামিটারগুলির জন্য প্রাক্কলন দিতে রাজি হতে পারে, তারা অনন্যভাবে নির্ধারিত হয় না এবং তাই সম্ভবত এটি খুব কার্যকর হবে না।kkμ=a0+a1X1+a2X2X2=1X1(β0,β1,β2)(β0+β2,β1β2,0)

পেনালাইজেশনটি মডেলটিকে শনাক্তযোগ্য করে তুলবে, তবে অতিরিক্ত হিসাবে উপরে বর্ণিত কোডগুলি অদ্ভুত উপায়ে প্যারামিটার মানগুলিকে প্রভাবিত করবে।

কোনও সিদ্ধান্ত গাছের (বা গাছের টুকরো টুকরো টুকরো টুকরো) গায়ে রিডানড্যান্ট কোডিংয়ের প্রভাব সম্ভবত অন্যের তুলনায় প্রশ্নে বৈশিষ্ট্যটির ওজন বেশি হতে পারে, যেহেতু এটি একটি অতিরিক্ত রিলান্ড্যান্ট ভেরিয়েবলের সাথে প্রতিনিধিত্ব করা হয় এবং অন্যথায় এর চেয়ে তার চেয়ে বেশি বার বেছে নেওয়া হবে will টুকরা।


1
আমি মনে করি না যে কোনও গাছে বা গাছের গোলাগুলির মধ্যে একটি বাধা অন্তর্ভুক্ত করার কোনও কারণ আছে। আমি বিশ্বাস করি এটি লিনিয়ার টাইপ মডেলগুলির পক্ষে বিশেষ একটি জিনিস। সুতরাং গাছ ভিত্তিক মডেলগুলির জন্য, আমি মনে করি সঠিক ধারণাটি ইন্টারসেপ্ট নয়, সম্পূর্ণ এনকোডিং।
ম্যাথু ড্রুরি

@ ম্যাথেজড্রুরি আমি মনে করি আপনি ইন্টারসেপ্ট সম্পর্কে ঠিক বলেছেন, তবে তারপরেও গাছের জন্য অপ্রয়োজনীয় কোডিংয়ের ব্যবহার সীমিত ব্যবহার বলে মনে হচ্ছে না। উদাহরণস্বরূপ, যদি কোনও বৈশিষ্ট্য বাইনারি হয় তবে প্রথম শ্রেণিতে বিভক্ত হওয়া এবং দ্বিতীয় শ্রেণিতে বিভাজনের মধ্যে পার্থক্য কী? কিছুই না, যতদূর আমি বলতে পারি।
কোডিওলজিস্ট

এটি সত্য, তবে আমি মনে করি সম্পূর্ণ প্রতিসাম্যতা বজায় রাখা হ'ল সবকিছু পরিষ্কারভাবে সুস্পষ্ট এবং ব্যাখ্যাযোগ্য রাখার সহজ উপায়।
ম্যাথু ড্রুরি

1

কোডিওলজিস্টের দুর্দান্ত উত্তর ছিল (+1)। ওয়ান-হট এনকোডিং বনাম ডামি এনকোডিং এনকোডিং পদ্ধতি একই, ডিজাইনের ক্ষেত্রে ম্যাট্রিক্স একই জায়গাতে, বিভিন্ন ভিত্তিতে। (যদিও এক-গরম এনকোডিংয়ের আরও কলাম রয়েছে)

সুতরাং যদি আপনি ব্যাখ্যাযোগ্যতার পরিবর্তে নির্ভুলতার দিকে মনোনিবেশ করেন। দুটি এনকোডিং পদ্ধতি কোনও পার্থক্য করে না।


1
পেডেন্টিক হতে, ওয়ান-হট সংস্করণটি কোনও ভিত্তি নয় (কারণ এটি রৈখিকভাবে নির্ভরশীল); এটি ঠিক একই স্থান বিস্তৃত। তবে আপনি কি নিশ্চিত যে এনকোডিংটি নির্ভুলতার জন্য কোনও পার্থক্য রাখে না? বিশেষত দণ্ডিত রিগ্রেশনের ক্ষেত্রে, আমি মনে করি চূড়ান্ত নির্বাচিত মডেলটি বিভিন্ন পূর্বাভাস দেবে।
কোডিওলজিস্ট

ভিত্তি ইস্যুতে আমাকে সংশোধন করার জন্য @ কোডিওলজিস্ট ধন্যবাদ thanks
হাইতাও ডু

@ কোডিওলজিস্ট নিয়মিত রৈখিক পদ্ধতিতে সঠিকতা কেন আলাদা হবে?
হাইতাও ডু

4
নিয়ন্ত্রিত রিগ্রেশনগুলিতে আপনার সর্বদা একটি পূর্ণ এনকোডিং ব্যবহার করা উচিত (অর্থাত্ আপনি নামটি সোজা রাখতে পারবেন না এবং সেগুলি নিজেই ব্যবহার না করা) prefer এর কারণ হ'ল ইন্টারসেপ্টটি দন্ডিত নয়, সুতরাং যদি আপনি কোনও স্তরের প্রভাবকে বিরতি হিসাবে বিবেচনা না করে থাকেন তবে আপনি যে সমস্ত স্তরকে সমানভাবে শাস্তি দিচ্ছেন তা বলা শক্ত। পরিবর্তে, সর্বদা সমস্ত স্তর অন্তর্ভুক্ত করুন, সুতরাং প্রতিটি জরিমানার ক্ষেত্রে সম্মিলিত।
ম্যাথু ড্রুরি

1
@ ম্যাথু ড্রুরি, এই শেষ মন্তব্যের জন্য আপনাকে ধন্যবাদ। আপনি দয়া করে একটি উত্তরে এটি প্রসারিত করতে পারেন? সুতরাং এটি কেবল প্লেইন লিনিয়ার রিগ্রেশনের জন্য যেখানে ডমি এনকোডিং প্রয়োজনীয়?
ব্যবহারকারী 90772

1

আমি এই প্রশ্নের সেরা উত্তর @MatthewDrury, যা যে মন্তব্য সমাহিত করা বোধ হয় একটা পার্থক্য এবং আপনি যে কোনো নিয়মিত পদ্ধতির মধ্যে আপাতদৃষ্টিতে অপ্রয়োজনীয় কলাম ব্যবহার করা উচিত যে। @ ম্যাথিউড্রুরির যুক্তিটি হ'ল

[নিয়মিত রেজিস্ট্রেশনে], ইন্টারসেপ্টটি দন্ডিত নয়, সুতরাং যদি আপনি কোনও স্তরের প্রভাবকে বাধা দেওয়ার অংশ হিসাবে অনুমান করছেন তবে আপনি সমস্ত স্তরের সমানভাবে দণ্ড দিচ্ছেন তা বলা শক্ত নয়। পরিবর্তে, সর্বদা সমস্ত স্তর অন্তর্ভুক্ত করুন, সুতরাং প্রতিটি জরিমানার ক্ষেত্রে সম্মিলিত।

আমার মনে হয় সে একটা পয়েন্ট পেয়েছে।


সুতরাং আপনার kস্তরের সাথে বা k-1স্তরের সাথে পরিস্থিতি অনুসারে একটি গরম এনকোড পরিবর্তনশীল হওয়া উচিত । আপনার বিবৃতি ছাড়াও (নিয়মিত করা / নিয়মিত করা হয়নি) সমস্ত ক্ষেত্রে কী করা উচিত সে সম্পর্কে কি গাইডলাইন থাকবে?
ড্যান চালটিয়েল

আমার নিয়মটি যদি নিয়মিতকরণ না হয়, যেমন শাস্ত্রীয় আনোভা হিসাবে, কে -1 স্তর ব্যবহার করুন। যদি নিয়মিতকরণ হয়, যেমন বায়েশিয়ান পদ্ধতিগুলিতে বা এল 2 নিয়মিতকরণের সাথে রিগ্রেশন, কে স্তর ব্যবহার করুন।
বেন ওগোরেক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.