বিভাগ এবং সংখ্যা হিসাবে মাস এবং ঘন্টা এর মতো এনকোডিং বৈশিষ্ট্য?


23

মেশিন লার্নিং মডেলটিতে ফ্যাক্টর বা সংখ্যা হিসাবে মাস এবং ঘন্টাের মতো বৈশিষ্ট্যগুলি এনকোড করা ভাল?

একদিকে আমি অনুভব করেছি যে সংখ্যার এনকোডিংটি যুক্তিসঙ্গত হতে পারে, কারণ সময়টি একটি অগ্রগতির অগ্রগতি প্রক্রিয়া (পঞ্চম মাসের পরে ষষ্ঠ মাস অনুসরণ করা হয়) তবে অন্যদিকে আমি মনে করি চক্রীয় প্রকৃতির কারণে শ্রেণিবদ্ধ এনকোডিং আরও যুক্তিসঙ্গত হতে পারে বছর এবং দিন (দ্বাদশ মাস প্রথমটি অনুসরণ করে)

এর জন্য কি কোনও সাধারণ সমাধান বা সম্মেলন রয়েছে?


আরএফ মডেলটিতে দিনের ঘন্টা (1 থেকে 24) ভেরিয়েবল সংজ্ঞায়নে আমি একই সমস্যার মুখোমুখি হয়েছিলাম। আমি যদি পরিবর্তনটিকে শ্রেণীবদ্ধ হিসাবে রূপান্তর করি তবে ভারিম্প ফাংশন প্রতিটি ঘন্টাের জন্য গুরুত্বের মান দেখায় এবং এটি দেখতে খুব বিশৃঙ্খলাযুক্ত দেখাচ্ছে। আমি কেবল ভাবছি যে 'দিনের ঘন্টা' টাইপ সংখ্যার ভেরিয়েবলকে শ্রেণিবদ্ধে রূপান্তর করা প্রয়োজন?
মাহমুদুর রহমান

উত্তর:


19

আপনি কি দিনের পরিবর্তকের সময়ের (সাইন, কোসাইন) রূপান্তর যুক্ত করার কথা বিবেচনা করেছেন? এটি নিশ্চিত করবে যে উদাহরণস্বরূপ 0 এবং 23 ঘন্টা একে অপরের কাছাকাছি রয়েছে, এভাবে ভেরিয়েবলের চক্রীয় প্রকৃতির মাধ্যমে আলোকিত হতে পারে।

( আরও তথ্য )


এ জাতীয় ধরণের সমস্যা আছে কারণ যদি আমি এটি করি: পাপ (পাই * এক্স / ২৪) যেখানে এক্স ইন [০, ২৩] আমাদের পাপ হিসাবে am.০০ এবং সন্ধ্যা for টার জন্য একই মূল্যায়ন আছে (পিআই * / / ২৪) == পাপ (PI * 18/24)। তবে এটি সম্পূর্ণ আলাদা ঘন্টা
ইরান মোশে

চক্রটি এর মতো করতে পারে: পাপ (পাই * এক্স / 12)। ধন্যবাদ ইরান:]
এরান মোশে

উপরের লিঙ্কটিতে ইরানমোশে ফাই পোস্টে তারা পরিবর্তে 2 * পিআই এর একটি ফ্যাক্টর ব্যবহার করেছেন, সুতরাং এটি পাপ হবে (2 * পাই * এক্স / 12) - তারা মন্তব্যগুলিতে এর জন্য কিছু যুক্তি দিয়েছিলেন
tsando

এবং এটির (২ * পিআই এক্স / ২৪) যা (পাই x / 12):] আপনি দেখতে পান যে আমি ঠিক একই সমস্যার সাথে লড়াই করেছি ব্লগ.ডাভিডকালেকো / ফিচার - ইঞ্জিনিয়ারিং - সাইক্লিক্যাল - ফিচারস html সঙ্গে সংগ্রাম করা হয়েছিল। এবং মন্তব্যে আপনি দেখতে পাচ্ছেন যে "মেরিল জি" তাকে ঠিক সংশোধন করতে পেরেছি আমি বুঝতে পেরেছি: পাই * এক্স / 12 দিনের এক ঘন্টা চলবে। আমি যা শিখতে এসেছি তা হল সত্যিকারের 24 ঘন্টা সময়কাল নির্ধারণ করতে আপনাকে অবশ্যই এর কোস এবং পাপ উপাদানগুলি গ্রহণ করতে হবে! (আপনার সত্যিকারের বৃত্ত প্রয়োজন, এবং কেবলমাত্র পর্যায়ক্রমিক ক্রিয়াকলাপ নয়)
এরান মোশে

@ ইরানমোশে আহা হ্যাঁ, আপনি যদি কয়েক ঘন্টা ধরে করতে চান তবে এটি পিক্স / 12 এ কমিয়ে দেওয়া যেতে পারে, তবে আপনি যদি কয়েক মাস করতে চান তবে এটি 2piX / 12 অর্থাত্ পাই / 6 হবে। সুতরাং সাধারণভাবে এটি 2 পিক্স / সময়কাল হবে

9

উত্তরটি সময়ের বৈশিষ্ট্য এবং লক্ষ্য পরিবর্তনশীলের মধ্যে আপনি যে ধরনের সম্পর্কের প্রতিনিধিত্ব করতে চান তার উপর নির্ভর করে।

যদি আপনি সময়টিকে সংখ্যাসূচক হিসাবে এনকোড করেন, তবে আপনি মডেলটিতে কিছু নির্দিষ্ট বিধিনিষেধ আরোপ করছেন। লিনিয়ার রিগ্রেশন মডেলটির জন্য, সময়ের প্রভাব এখন একঘেয়েমি, হয় লক্ষ্য সময়ের সাথে বৃদ্ধি বা হ্রাস পাবে। সিদ্ধান্ত গাছের জন্য, একে অপরের নিকটবর্তী সময়ের মানগুলি একত্রে গোষ্ঠীভুক্ত করা হবে।

শ্রেণিবদ্ধ হিসাবে এনকোডিংয়ের সময়টি মডেলটিকে আরও স্বচ্ছন্দতা দেয় তবে কিছু ক্ষেত্রে মডেলটি ভালভাবে শিখার জন্য পর্যাপ্ত ডেটা নাও থাকতে পারে। একটি কৌশল যা কার্যকর হতে পারে তা হ'ল কয়েকটি মানকে কিছু সংখ্যক সেটগুলিতে একত্রিত করে সেটটিকে শ্রেণীবদ্ধ বৈশিষ্ট্য হিসাবে ব্যবহার করুন।

কিছু উদাহরণ গ্রুপিং:

  • মাসের জন্য, ব্যবহারের ক্ষেত্রে উপর নির্ভর করে কোয়ার্টার বা মরসুমে গ্রুপ করুন। যেমন: জান-মার, এপ্রিল-জুন, ইত্যাদি
  • ঘন্টা-দিনের জন্য, দিনের সময়ের বালতিগুলিতে গ্রুপ করুন: সকাল, সন্ধ্যা ইত্যাদি,
  • সপ্তাহের দিনের জন্য, সপ্তাহের দিন, সপ্তাহান্তে গ্রুপ করুন।

উপরের প্রত্যেকটি যথেষ্ট পরিমাণে ডেটা প্রদান করে সরাসরি একটি শ্রেণিবদ্ধ বৈশিষ্ট্য হিসাবেও ব্যবহার করা যেতে পারে। এছাড়াও, ডোমেন জ্ঞান ভিত্তিক পদ্ধতির পরিপূরক হিসাবে ডেটা বিশ্লেষণের মাধ্যমে গ্রুপিংগুলিও আবিষ্কার করা যায় be


4

আমি সংখ্যাযুক্ত বৈশিষ্ট্যগুলি ব্যবহার করার পরামর্শ দিচ্ছি। শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি ব্যবহারের মূলত অর্থ হল যে আপনি দুটি বিভাগের মধ্যে দূরত্বকে প্রাসঙ্গিক হিসাবে বিবেচনা করবেন না (উদাহরণস্বরূপ বিভাগ 1 বিভাগ 3 এর সাথে যেমন বিভাগ 2 এর কাছাকাছি)। এটি অবশ্যই ঘন্টা বা মাসের ক্ষেত্রে হয় না।

তবে, আপনি যে বিষয়টি উত্থাপন করেছেন তা হ'ল আপনি ঘন্টা এবং মাসগুলিকে এমনভাবে উপস্থাপন করতে চান যেখানে 12 টি 11 এর সমান কাছাকাছি। 1 এটি অর্জনের জন্য, আমি মন্তব্যে যা প্রস্তাবিত হয়েছিল তা দিয়ে যেতে এবং ব্যবহার করার পরামর্শ দিচ্ছি সংখ্যাগত বৈশিষ্ট্য হিসাবে ঘন্টা / মাস ব্যবহার করার আগে একটি সাইন / কোসাইন ফাংশন।


3

এটি আপনি কোন অ্যালগরিদম ব্যবহার করছেন তার উপর নির্ভর করে।

আপনি যদি এলোমেলো বনের মতো গাছ ভিত্তিক অ্যালগোরিদম ব্যবহার করেন তবে এই প্রশ্নটি পাস করুন pass গাছ ভিত্তিক অ্যালগোরিদমগুলির জন্য শ্রেণিবদ্ধ এনকোডিং প্রয়োজনীয় নয়।

নিউরাল নেটওয়ার্কের মতো অন্যান্য অ্যালগরিদমের জন্য, আমি উভয় পদ্ধতির চেষ্টা করার পরামর্শ দিচ্ছি (ধারাবাহিক এবং শ্রেণিবদ্ধ)। প্রভাব বিভিন্ন পরিস্থিতিতে পার্থক্য।


এটি গাছ ভিত্তিক বাস্তবায়নের উপর নির্ভর করে। সাইকিট-লার্ন এবং এক্সজিবিস্টের মতো বহুল ব্যবহৃত প্যাকেজগুলি শ্রেণীবদ্ধ ভেরিয়েবলগুলি সনাক্ত করে না। আপনি সেগুলি এক-গরম এনকোডিংয়ের প্রত্যাশা করছেন।
রিকার্ডো ক্রুজ

এই পোস্টটি থেকে: ডেটাসায়েন্স.com/ … সিদ্ধান্ত গাছের উপর ভিত্তি করে যে কোনও কিছুর জন্য আপনার একটি গরম ব্যবহার করা উচিত নয়, যা আমি খুব সহজ উপায় খুঁজে পাচ্ছি।
অ্যাশলে

1

আপনার কাছে থাকা সমস্ত ডেটার কারণে আপনি সংজ্ঞায়িত এনকোডিংয়ের পরামর্শ দিচ্ছি যা প্রয়োগ করাও সহজ।


1

ভিন্নরূপে বা অন্য কথায় করার @raghu দ্বারা উপলব্ধ উত্তর । শ্রেণিবদ্ধ এবং সংখ্যাসূচক বৈশিষ্ট্যের মধ্যে একটি প্রধান পার্থক্য হ'ল সংখ্যার দৈর্ঘ্য তুলনাযোগ্য, অর্থাত্ 2019 সালের চেয়ে 2019 বা ডিসেম্বর (12) মার্চ (3) এর চেয়ে বড়? আসলে তা না. এই সংখ্যায় একটি ক্রমিক ক্রম থাকা সত্ত্বেও তাদের দৈর্ঘ্য তুলনীয় নয়। সুতরাং, একটি শ্রেণিবদ্ধ মান রূপান্তর আরও বোধগম্য হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.