আমি কীভাবে ডেটার প্রাসঙ্গিক বৈশিষ্ট্যগুলি নির্বাচন করব?


11

কিছু নির্দিষ্ট উত্সের জন্য আমার ব্যয়ের ব্যয় বিশ্লেষণ করতে সম্প্রতি আমি একটি সমস্যা নিয়ে কাজ করছি। আমি সাধারণত বিশ্লেষণ থেকে কিছু ম্যানুয়াল সিদ্ধান্ত গ্রহণ করি এবং সে অনুযায়ী পরিকল্পনা করি।

আমার কাছে এক্সেল ফর্ম্যাটে এবং বিভিন্ন কলাম ফ্রেম এবং প্রকারে (অন্যান্য বিভিন্ন বিস্তৃত ব্যবহার) রিসোর্সের ব্যবহার সংজ্ঞায়িত করে কয়েকশ কলাম সহ একটি বড় ডেটা রয়েছে। আমার কাছে আমার আগের 4 বছরের ডেটা এবং প্রকৃত সম্পদ ব্যবহার এবং তদনুসারে ব্যয় সম্পর্কিত তথ্যও রয়েছে have

আমি কোনও এনএনকে আগেই আমার ব্যয়টি পূর্বাভাস দেওয়ার জন্য প্রশিক্ষণ দেওয়ার এবং আমি নিজেই ব্যয় বিশ্লেষণ করার আগেই পরিকল্পনা করার আশা করছিলাম।

তবে সবচেয়ে বড় সমস্যার মুখোমুখি হ'ল এই জাতীয় বিশ্লেষণের জন্য বৈশিষ্ট্যগুলি চিহ্নিত করা। আমি আশা করছিলাম যে ডেটা সেট থেকে বৈশিষ্ট্যগুলি সনাক্ত করার কোনও উপায় আছে।

পিএস - আমার পিসিএ এবং কিছু অন্যান্য বৈশিষ্ট্য নির্ধারণের হ্রাস কৌশল সম্পর্কে ধারণা আছে, আমি যা দেখছি তা হ'ল প্রথম স্থানে তাদের সনাক্ত করার উপায়।

উত্তর:


1

যেহেতু একটি টেবিলের মধ্যে আপনার সমস্ত ডেটা রয়েছে তাই অপেক্ষাকৃত সহজ কাজটি হ'ল প্রতিটি কলামকে স্বতন্ত্রভাবে বিবেচনা করা এবং তারপরে আউটপুট ভেরিয়েবলের (ব্যয় ব্যয় হওয়া) এর সাথে কোনও সম্পর্ক রয়েছে কিনা তা দেখুন।

যদি আউটপুট ভেরিয়েবলের সাথে কলামটির কোনও (বা খুব কম সম্পর্ক) থাকে না, তবে এটি গুরুত্বপূর্ণ নয় বলে বিবেচনা করুন। যেগুলি কাটা তৈরি করে তাদের আরও বিবেচনা করা হয়।

সিদ্ধান্ত গাছের অ্যালগোরিদম কীভাবে কাজ করবে (যেমন আইডি 3) এর থেকে এটি স্পষ্টতই আলাদা নয়।


0

বৈশিষ্ট্য নির্বাচনের জন্য কোনও কঠোর এবং দ্রুত-নিয়ম নেই, আপনাকে ম্যানুয়ালি ডেটাसेटটি পরীক্ষা করতে হবে এবং বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের জন্য বিভিন্ন কৌশল চেষ্টা করতে হবে। এবং কোনও নিয়ম নেই যে এর জন্য আপনার নিউরাল নেটওয়ার্ক প্রয়োগ করা উচিত, নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণের জন্য সময়সাপেক্ষ, পরিবর্তে আপনি সিদ্ধান্ত গাছ ভিত্তিক পদ্ধতিগুলি (এলোমেলো বন) নিয়ে পরীক্ষা করতে পারেন যেহেতু আপনার ডেটা সারণী কাঠামোর ক্ষেত্রে যাইহোক।


ইনপুটটির জন্য ধন্যবাদ, ১. আমি সম্মতি দিচ্ছি যে এনএন হাইপোথিসিস পরীক্ষা করার সর্বোত্তম উপায় নয়, তবে আমি অনুমান করি যে এনএন ব্যবহার করে আমরা বৈশিষ্ট্যের মধ্যে আরও বিস্তৃত সম্পর্ক অর্জন করতে পারি, আরও ভাল ফলাফল পেতে (বেশিরভাগ ক্ষেত্রে)। ২. আমি যে সমস্যার মুখোমুখি হয়েছিলাম তা ছিল বৈশিষ্ট্যগুলি নির্বাচন করা, যা আসলে আমার সমস্যার প্যাটার্নটি সংজ্ঞায়িত করবে এবং বৈশিষ্ট্য ওজনকে কীভাবে সংজ্ঞায়িত করতে হবে।
করণ চোপড়া

0

এটি একটি দুর্দান্ত প্রশ্ন এবং সম্ভবত এমএল এর মধ্যে অন্যতম কঠিন কাজ।

আপনার কাছে কয়েকটি বিকল্প রয়েছে:

  1. আপনার আউটপুটটিতে কোন বৈশিষ্ট্যগুলি সর্বাধিক অবদান রাখছে তা বোঝার জন্য আপনি ওজনযুক্ত অ্যালগরিদমগুলি (যেমন চি-স্কোয়ার্ড) ব্যবহার করতে পারেন
  2. কোনও বৈশিষ্ট্য আপনার পূর্বাভাসে অবদান রাখছে কি না তা শ্রেণিবদ্ধ করতে আপনি অন্যান্য এমএল অ্যালগরিদম ব্যবহার করতে পারেন
  3. আপনি অন্যান্য এমএল অ্যালগরিদম (এনএন ব্যতীত) ব্যবহার করতে পারেন যা অন্তর্নিহিতভাবে আপনাকে বৈশিষ্ট্য ওজন প্রদান করে (যেমন র‌্যান্ডম ফরেস্ট)

আশা করি এইটি কাজ করবে


0

কেবলমাত্র খরচের সাথে সংস্থান সম্পদ সম্পর্কিত নয়, তবে সংস্থান সম্পদের ব্যয় ব্যয়ের পিছনেও বিবেচনা করা বুদ্ধিমানের কাজ। সাধারণ চ্যালেঞ্জটি হ'ল সেই রিটার্নগুলি প্রায় সবসময়ই ক্রমযুক্ত বা বিলম্বিত হয়। সংশ্লেষের একটি ক্ষেত্রে যখন সংস্থানটি ক্রমাগত সুরকরণ বা কোনও প্রক্রিয়াটির উন্নতি হয় যার অনুপস্থিতি উপার্জনের উত্পাদনকে ধীর করে দেয়। বিলম্বের একটি ঘটনা যখন গবেষণার সংস্থানগুলি সময়কালের জন্য রাজস্ব প্রভাব ছাড়াই ব্যয় করে তবে গবেষণাটি যদি উত্পাদনশীল ফলাফল সরবরাহ করে তবে বিতরণ করা ফলাফলের মোট ব্যয়ের চেয়ে যথেষ্ট পরিমাণে হতে পারে এমন রাজস্ব উত্সাহ শুরু হয়।

ব্যয়ের উপাত্ত নিজে থেকে ক্ষতিকারক নেটওয়ার্ক শেখার দিকে পরিচালিত করতে পারে কারণ হ'ল বিপণন ব্যয়গুলি তাদের শূন্য করে দেবে এমন একটি নেটওয়ার্ক যা হ্রাস করার প্রশিক্ষণপ্রাপ্ত। এটি ব্যবসায়ের ভাঁজ না হওয়া পর্যন্ত সাধারণত বিক্রয় সীসা প্রবণতা হ্রাস করে। প্রশিক্ষণের তথ্যগুলিতে রিটার্ন অন্তর্ভুক্ত না করে কোনও কার্যকর শিখন হতে পারে না।

একটি মৌলিক এমএলপি (মাল্টি-লেয়ার পারসেপেট্রন) ডেটাগুলির অস্থায়ী বৈশিষ্ট্যগুলি, জমা এবং বিলম্বের দিকগুলি শিখবে না। আপনার একটি রাষ্ট্রীয় নেটওয়ার্কের প্রয়োজন হবে। এই লেখার মতো এই ধরণের শেখার জন্য সর্বাধিক ধারাবাহিকভাবে সফল নেটওয়ার্ক টাইপ হ'ল এলএসটিএম (দীর্ঘ স্বল্পমেয়াদী মেমরি) নেটওয়ার্ক টাইপ বা এর একটি ডেরাইভেটিভ ভেরিয়েন্ট। প্রস্তাবিত রিসোর্স ব্যস্ততার (প্রদত্ত সম্পদ সংক্রান্ত ব্যস্ততার কোনও সম্পূর্ণ ক্রম) পুরো ফলাফলের জন্য ব্যবসায়িক ফলাফলের পূর্বাভাস দেওয়ার জন্য নেটওয়ার্ককে প্রশিক্ষণের জন্য ব্যয় উপাত্তের সাথে একত্রে রাজস্ব এবং ভারসাম্য ডেটা ব্যবহার করতে হবে।

ক্ষতির ফাংশনটি অবশ্যই মাঝারি এবং দীর্ঘমেয়াদী আর্থিক উদ্দেশ্যগুলির সাথে বাছাইয়ের মেয়াদ যথাযথভাবে ব্যালেন্স করতে হবে। Gণাত্মক উপলভ্য নগদ লোকসানের কার্যক্রমে একটি সুস্পষ্ট বৃদ্ধি ঘটানো উচিত যাতে খ্যাতির ক্ষেত্রে মৌলিক ঝুঁকির এড়ানো এবং creditণের ব্যয় শিখে নেওয়া যায়।

আপনার ডেটাতে কোন কলামগুলির বিনিয়োগের ফেরতের সাথে দৃ strong় সম্পর্ক রয়েছে তা আগে থেকেই নির্ধারণ করা কঠিন determine আপনি অবিলম্বে কলামগুলি বাদ দিতে পারেন যা নীচের যে কোনও একটি মানদণ্ডের সাথে সঙ্গতিপূর্ণ।

  • সর্বদা খালি
  • অন্যান্য ধ্রুবক, প্রতি সারির একই মান রয়েছে
  • এগুলি সর্বদা অন্যান্য কলামগুলি থেকে নেওয়া যেতে পারে

অন্যান্য উপায়ে ডেটা হ্রাস করা যায়

  • প্রবণতাগুলি সহজ উপায়ে চিহ্নিত করে পুরোপুরি ডেটা বর্ণনা করে describ
  • প্রতিটি স্ট্রিংয়ের জন্য একটি নম্বর নির্ধারণ করে 100% নির্ভুলতার সাথে দীর্ঘ স্ট্রিং নির্দিষ্ট করতে সূচকগুলি ব্যবহার করে
  • সঙ্কোচন
  • অন্যথায় তথ্যগুলিতে অপ্রয়োজনীয়তা হ্রাস করা

আরবিএমগুলি (সীমাবদ্ধ বোল্টজম্যান মেশিন) ডেটা থেকে বৈশিষ্ট্যগুলি বের করতে পারে এবং পিসিএরা কম তথ্যের বিষয়বস্তু কলামগুলি আলোকিত করতে পারে, তবে আয়ের সাথে তাদের সম্পর্কের ক্ষেত্রে কলামগুলির তাত্পর্যটি তাদের ডিভাইসগুলি তাদের মৌলিক আকারে ব্যবহার করে চিহ্নিত করা যাবে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.