বৈশিষ্ট্য নির্মাণ এবং মেশিন লার্নিংয়ের স্বাভাবিককরণ

বলি যে আমি একটি চলচ্চিত্র এম এর জন্য লজিস্টিক শ্রেণিবদ্ধ তৈরি করতে চাই। আমার বৈশিষ্ট্যগুলি ব্যক্তির বয়সের মতো, লিঙ্গ, পেশা, অবস্থানের মতো কিছু হবে। প্রশিক্ষণের সেটটি এমন কিছু হবে:

বয়স লিঙ্গ পেশার অবস্থানের মতো (1) / অপছন্দ (0)
23 এম সফটওয়্যার মার্কিন 1
24 এফ ডাক্তার ইউ কে 0

এবং এইভাবেই .... এখন আমার প্রশ্ন হল কীভাবে আমার বৈশিষ্ট্যগুলি স্কেল এবং উপস্থাপন করা উচিত। একটি উপায় আমি ভেবেছিলাম: বয়সকে গ্রুপের হিসাবে ভাগ করুন, সুতরাং 18-25, 25-35, 35-উপরে, এম, এফ, জেন্ডার হিসাবে মার্কিন, যুক্তরাজ্য, অন্যান্য। এখন এই সমস্ত মানগুলির জন্য একটি বাইনারি বৈশিষ্ট্য তৈরি করুন, অতএব বয়সের প্রত্যেকটি বয়সের সাথে সম্পর্কিত হবে বাইনারি বৈশিষ্ট্য প্রতিটি বয়সের সাথে সম্পর্কিত এবং অন্যান্য। সুতরাং, মার্কিন যুক্তরাষ্ট্রের একজন 28 বছর বয়সী পুরুষ 010 10 100 (010-> বয়স গ্রুপ 25-35, 10 -> পুরুষ, 100 -> মার্কিন) হিসাবে প্রতিনিধিত্ব করা হবে

এখানে বৈশিষ্ট্য উপস্থাপনের সেরা উপায় কী হতে পারে? এছাড়াও, আমি কিছু ই-জিএস-তে লক্ষ্য করেছি স্কেলেনের যে সমস্ত বৈশিষ্ট্য কোনও উপায়ে স্কেল / নরমাল করা হয়েছে, যেমন জেন্ডারটি দুটি মান দ্বারা প্রতিনিধিত্ব করা হয়, পুরুষ এবং মহিলা জন্য 0.0045 এবং -.0.0045। এভাবে স্কেলিং / মর্মালাইজেশন কীভাবে করা যায় সে সম্পর্কে আমার কোনও ধারণা নেই?

machine-learning feature-construction

— তুষার চিতা
সূত্র

আমার কাছে এটি পরিষ্কার নয় যে আপনি কেন আপনার বৈশিষ্ট্যগুলি স্কেল করতে চান? প্রায়শই বৈশিষ্ট্যগুলিকে 0 টির মতো unityক্যবদ্ধভাবে স্ট্যান্ড ডেভাস হিসাবে স্বাভাবিক করা হয়। ক্লাসগুলি যেগুলি আপনি শ্রেণিবদ্ধ করার চেষ্টা করছেন সে অনুসারে আপনার সমস্যাটি সংজ্ঞায়নের প্রয়োজন হতে পারে, বাইনারি শ্রেণিবদ্ধকরণের জন্য লজিস্টিক রিগ্রেশন উপকারী।

— বিগ্রেন

আপনি অবশ্যই বয়সগুলি শ্রেণীবদ্ধ করতে চান না। "চলচ্চিত্রের রেটিং" কীভাবে পরিমাপ করা হয়? এটি 1 থেকে 10 স্কেল, একটি "পছন্দ / অপছন্দ" বা কী?

— পিটার ফ্লুম - মনিকা পুনরায়

সরলতার জন্য, ধরে নেওয়া যাক যে কেবল দুটি শ্রেণিই রয়েছে, পছন্দ এবং অপছন্দ। এটি 1 এবং অপছন্দ হওয়ার মতো 0 টির প্রতিফলিত করতে সমস্যার বিবৃতি পরিবর্তন করেছে।

— তুষার_সংঘত

বাইনারি কেস

আপনি যদি নিজের বৈশিষ্ট্যগুলি বাইনারি হতে চান তবে শ্রেণীবদ্ধ (সম্মানিত বাস্তব ) মানগুলির জন্য ভাল উপস্থাপনাগুলি হট (রেস। থার্মোমিটার ) এনকোডিং। আপনি না তাদের স্বাভাবিক করতে হবে।

জন্য এক গরম একটি এনকোডিং শ্রেণীগত বৈশিষ্ট্য, আপনি কেবল প্রতিটি বর্গ জন্য এক বিট রাখি। এই এনকোডিংয়ের দৈর্ঘ্য তাই আপনার বৈশিষ্ট্যটির ক্লাসের সংখ্যা। আপনার দেশের উদাহরণ নিতে দিন,

00001 মার্কিন যুক্তরাষ্ট্রের জন্য
ইউ কে জন্য 10,00010
00100 এশিয়ার জন্য
01000 ইউরোপের জন্য
10000 অন্যের জন্য

জন্য থার্মোমিটার একটি এনকোডিং বাস্তব / পূর্ণসংখ্যা বৈশিষ্ট্য, আপনি একটি দৈর্ঘ্য এবং প্রান্তিক মান বেছে নিতে হবে। আপনার বয়সের উদাহরণের জন্য, আপনি 18,25 এবং 35 এর চৌম্বক অনুযায়ী বয়সকে বিভক্ত করতে বেছে নিয়েছেন The কোডিংটি হবে

0-17 এর জন্য 000
18-25 এর জন্য 001
25-34 এর জন্য 011
111 35-উপরে জন্য

\overset{U K}{\overset{⏞}{0 \cdot 0 \cdot 0 \cdot 1 \cdot 0}} \cdot \overset{30 y o}{\overset{⏞}{0 \cdot 1 \cdot 1}}

$\overbrace{0 \cdot 0 \cdot 0 \cdot 1 \cdot 0}^{UK}\cdot \overbrace{0 \cdot 1 \cdot 1 }^{30yo}$

একটানা মামলা

\overset{U K}{\overset{⏞}{0 \cdot 0 \cdot 0 \cdot 1 \cdot 0}} \cdot \overset{30 y o}{\overset{⏞}{30}}

$\overbrace{0 \cdot 0 \cdot 0 \cdot 1 \cdot 0 }^{UK}\cdot \overbrace{30 }^{30yo}$

বিগ্রিন যেমন বলেছে, তারপরে আপনার 0 টির গড় এবং 1 এর মানক বিচ্যুতি রাখতে এই মানটিকে স্বাভাবিক করা উচিত, যা অনেকগুলি রিগ্রেশন মডেলের স্থায়িত্বের বীমা করে। এটি করার জন্য, কেবল অভিজ্ঞতাগত গড়কে বিয়োগ করুন এবং বোধগম্য মানক বিচ্যুতি দ্বারা ভাগ করুন।

Y_normalized = ( Y - mean(Y) ) / std(Y)

$(30-25)/10 = 0.5$

\overset{U K}{\overset{⏞}{0 \cdot 0 \cdot 0 \cdot 1 \cdot 0}} \cdot \overset{30 y o}{\overset{⏞}{0.5}}

$\overbrace{0 \cdot 0 \cdot 0 \cdot 1 \cdot 0}^{UK}\cdot \overbrace{0.5 }^{30yo}$

— এমিল
সূত্র

শীতল ... সুতরাং আসুন আমরা বলতে পারি যে আমাদের কাছে নিম্নলিখিত ব্যক্তি হিসাবে একটি উদাহরণ রয়েছে: দেশ: যুক্তরাজ্য, এজগ্রুপ: 25-34। এটি যদি আমরা একটি হট এনকোডিং ব্যবহার করি তবে এটি দেশ: 2 , এজগ্রুপ: 4 হিসাবে মান হিসাবে নিয়ে যাবে । এখন একটি বৈশিষ্ট্য ভেক্টর তৈরি করার সময় আমাদের এগুলি স্বাভাবিক করা উচিত। সুতরাং আসুন তারা 0.4 এবং 0.6 হিসাবে আসুন, তারপরে আমাদের ইনপুট বৈশিষ্ট্যটির ভেক্টরটি মডেলগুলিতে মূলত [0.4, 0.6] হয়ে যায়, সঠিক?

— তুষার_সংঘত

হুম .. আমি যদি "ওয়ান হট" এনকোডিং ব্যবহার করি তবে আমি কী এনকোডিং মানটিকে তার পূর্ণসংখ্যার উপস্থাপনায় বৈশিষ্ট্য হিসাবে রূপান্তর করব? উদাহরণস্বরূপ, 0010 হয়ে যায়। অথবা আমি কি 4 টি বৈশিষ্ট্যের একটি সেট হিসাবে ব্যবহার করব যার মধ্যে কেবল একটি চালু থাকবে? প্রাক্তন ক্ষেত্রে এটি এমন ধারণাটি প্রবর্তন করে না যে 1000 এর পরে আরও 0001 তারপর 0100 হয় যা আমরা উদ্দেশ্য করতে পারি না কারণ আমরা চাই না যে মার্কিন বৈশিষ্ট্যটির মান যুক্তরাজ্যের বৈশিষ্ট্যের মানের নিকটবর্তী হোক তখন এশিয়া মান বা অন্য কিছু?

— তুষার_সংঘত

আমি এই উত্তরগুলি পরিষ্কার করার জন্য আমার উত্তর সম্পাদনা করেছি। আপনার বাইনারি বৈশিষ্ট্যগুলি স্বাভাবিক করার দরকার নেই এবং আপনাকে সেগুলি ভেক্টর হিসাবে বিবেচনা করতে হবে, এগুলি একটি পূর্ণসংখ্যায় রূপান্তর করবেন না।

— এমিল

সত্যই সহায়ক এবং স্ফটিক পরিষ্কার ব্যাখ্যা। ধন্যবাদ!

— জর্জ লিউ