লিনিয়ার এসভিএম এর সাথে অবিচ্ছিন্ন এবং বাইনারি ডেটা মিশ্রণ?


15

সুতরাং আমি এসভিএমগুলির সাথে ঘুরে বেড়াচ্ছি এবং আমি ভাবছি এটি করা ভাল কি না:

আমার কাছে অবিচ্ছিন্ন বৈশিষ্ট্যগুলির একটি সেট (0 থেকে 1) এবং ধরণের বৈশিষ্ট্যগুলির একটি সেট রয়েছে যা আমি ডামি ভেরিয়েবলগুলিতে রূপান্তর করেছি। এই বিশেষ ক্ষেত্রে, আমি একটি ডামি ভেরিয়েবলের মধ্যে পরিমাপের তারিখটি এনকোড করেছি:

এখানে 3 টি পিরিয়ড রয়েছে যা থেকে আমার কাছে ডেটা রয়েছে এবং আমি তাদের জন্য 3 টি বৈশিষ্ট্য নম্বর সংরক্ষণ করেছি:

20: 21: 22:

সুতরাং ডেটাটি কোন সময় থেকে আসে তার উপর নির্ভর করে বিভিন্ন বৈশিষ্ট্যগুলি 1 বরাদ্দ পাবেন; অন্যরা 0 পাবে।

এসভিএম কি এটির সাথে সঠিকভাবে কাজ করবে বা এটি করা খারাপ কাজ?

আমি এসভিএমএলাইট এবং একটি লিনিয়ার কার্নেল ব্যবহার করি।


এটি কাজ করে।
মার্ক ক্লিসেন

আপনি যা করেছেন তা যথেষ্ট ভাল। আমি এখানে সামান্য বিস্তারিত উত্তর দিয়েছি - quora.com/Machine-Learning/...
TenaliRaman

@ তেনালিরামান দয়া করে এমন কিছু লিঙ্ক পোস্ট করবেন না যেগুলিতে আসলে কিছু পড়ার আগে লগইন করা দরকার require
মার্ক ক্লেসেন

@ মার্কক্লেসেন আমি নীচের উত্তরটির প্রতিলিপি করেছি।
তেরালিরামান

উত্তর:


8

এসভিএমগুলি বাইনারি এবং অবিচ্ছিন্ন দুটি পরিবর্তনশীল হ্যান্ডেল করবে যতক্ষণ আপনি কিছু প্রিপ্রোসেসিং করেন: সমস্ত বৈশিষ্ট্যকে ছোট বা সাধারণ করা উচিত। এই পদক্ষেপের পরে, অ্যালগরিদমের দৃষ্টিকোণ থেকে এটি বৈশিষ্ট্যগুলি অবিচ্ছিন্ন বা বাইনারি কিনা তা বিবেচনা করে না: বাইনারিগুলির জন্য, এটি এমন নমুনা দেখায় যা হয় "দূরে" দূরে, বা খুব অনুরূপ; অবিচ্ছিন্নতার জন্য মানগুলির মধ্যেও রয়েছে। ভেরিয়েবলের ধরণের ক্ষেত্রে কার্নেল কোনও ব্যাপার নয়।


1
এবং সেরা নরমালাইজেশন কৌশলটি কী হবে?
Shlomi শোয়ার্জ

23

Http://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1 থেকে আমার উত্তরটি প্রতিলিপি করা হচ্ছে

  • Rescale একটানা বৈশিষ্ট্য বেষ্টিত: সকল একটানা ইনপুট যে বেষ্টিত করা হয়, তাদের rescale মাধ্যমে এক্স = 2 x এর - সর্বোচ্চ - সর্বনিম্ন[1,1]x=2xmaxminmaxmin
  • সব একটানা বৈশিষ্ট্য প্রমিত: সকল একটানা ইনপুট মান করা উচিত এবং এই দ্বারা আমি বলতে চাচ্ছি, যে ক্রমাগত বৈশিষ্ট্যের জন্য, গনা তার গড় ( ) এবং স্ট্যান্ডার্ড ডেভিয়েশন ( σ ) এবং না এক্স = এক্স - μμσx=xμσ
  • শ্রেণীবদ্ধ / বিচ্ছিন্ন বৈশিষ্ট্যগুলিকে বাইনারি করুন: সমস্ত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য এগুলি একাধিক বুলিয়ান বৈশিষ্ট্য হিসাবে উপস্থাপন করুন। উদাহরণস্বরূপ, বিবাহ_স্তাতাস নামে একটি বৈশিষ্ট্য রাখার পরিবর্তে 3 টি বুলিয়ান বৈশিষ্ট্য রয়েছে - বিবাহিত_স্ট্যাটাস_সিংসেল, বিবাহিত_স্ট্যাটাস_ বিবাহিত, বিবাহিত_স্তাস_বিভক্ত এবং যথাযথভাবে এই বৈশিষ্ট্যগুলিকে 1 বা -1 এ সেট করুন। আপনি দেখতে পাচ্ছেন যে প্রতিটি শ্রেণিবদ্ধ বৈশিষ্ট্যের জন্য আপনি কে বাইনারি বৈশিষ্ট্য যুক্ত করছেন যেখানে k হল শ্রেণিবদ্ধ বৈশিষ্ট্যটি গ্রহণের মানগুলির সংখ্যা।

এখন, আপনি একক ভেক্টরের সমস্ত বৈশিষ্ট্য উপস্থাপন করতে পারেন যা আমরা এমবেড করা এবং ধরে নিতে পারি শ্রেণিবদ্ধকরণ / রিগ্রেশন ইত্যাদির জন্য অফ-দ্য শেল্ফ প্যাকেজগুলি ব্যবহার শুরু করতে canRn

Rn


ভাল, এই নিবন্ধটি বিভাগীয় বৈশিষ্ট্যগুলি সম্পর্কে বেশ আকর্ষণীয়। এটি বলা হয় নি যে ও-হট এনকোডিংটি শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য সেরা পছন্দটি এটি থেকে আমি কীভাবে বেরিয়ে আসছি।
displayname

1
এটি একটি দুর্দান্ত উত্তর, আমি @ ডিসপ্লে নাম মন্তব্যে লিঙ্কটি পড়েছি এবং এটি একটি দরকারী তুলনা। নিবন্ধ থেকে, এটি দেখা যাচ্ছে যে বাইনারি এনকোডিং সেরা, (এই উত্তরে বর্ণিত এক নয়) এবং বেশ সহজ সরল) লিঙ্কটি থেকে "বাইনারি: প্রথমে বিভাগগুলি অর্ডিনাল হিসাবে এনকোড করা হয়, তারপরে সেই পূর্ণসংখ্যাগুলি বাইনারি রূপান্তরিত হয় কোড, তারপরে সেই বাইনারি স্ট্রিংয়ের অঙ্কগুলি পৃথক কলামগুলিতে বিভক্ত হয়ে যায় the
শেলবিপিরেরা

@ ডিসপ্লে নাম দিয়ে দেওয়া নিবন্ধটি একটি ভাল নিবন্ধ, তবে মুখের মূল্যে নেওয়া উচিত নয়। মনে রাখতে হবে প্রথম জিনিসটি হ'ল প্রায় সমস্ত এমএল পদ্ধতিই মিল বা দূরত্ব পরিমাপের সাথে কাজ করে। এনকোডিং পদ্ধতির পছন্দটি সরাসরি প্রভাব ফেলে যে কীভাবে দূরত্ব বা মিল দুটি পয়েন্টের মধ্যে পরিমাপ করা হয়। একটি 1 হট এনকোডিং বলে যে একটি বিভাগের একটি বস্তু কেবল নিজের বা সমতুল্য সমান, এটি সমস্ত বিভাগকে একে অপরের সমান দূরত্বে রাখে। তবে এমন কিছু ঘটনা রয়েছে যেখানে নির্দিষ্ট বিভাগগুলি অন্যের চেয়ে নিকটবর্তী হয়। কোন ক্ষেত্রে, একটি পৃথক এনকোডিং সাহায্য করতে পারে।
তেরালিরামান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.