বৈশিষ্ট্য নির্বাচন বনাম বৈশিষ্ট্য নিষ্কাশন। কোনটি কখন ব্যবহার করবেন?


16

বৈশিষ্ট্য নিষ্কাশন এবং বৈশিষ্ট্য নির্বাচন মূলত ডেটার মাত্রিকতা হ্রাস করে, তবে বৈশিষ্ট্য নিষ্কাশনটি যদি আমি সঠিক থাকি তবে ডেটাটিকে আরও বিভাজ্য করে তোলে।

কোন কৌশলটি অন্যের চেয়ে বেশি পছন্দ হবে এবং কখন?

আমি ভাবছিলাম, যেহেতু বৈশিষ্ট্য নির্বাচনটি মূল ডেটা এবং এর বৈশিষ্ট্যগুলিকে সংশোধন করে না, তাই আমি ধরে নিয়েছি যে আপনি যে বৈশিষ্ট্যগুলি প্রশিক্ষণ দিচ্ছেন সেগুলি অপরিবর্তিত হওয়া গুরুত্বপূর্ণ। তবে আপনি কেন এমন কিছু চাইবেন তা আমি ভাবতে পারি না ..

উত্তর:


18

টরোসের দেওয়া উত্তরে যোগ করা,

এগুলি (বুলেটগুলির নীচে দেখুন) তিনটি বেশ একই রকম তবে একটি সূক্ষ্ম পার্থক্য সহ: --( সংক্ষিপ্ত এবং মনে রাখা সহজ)

  • বৈশিষ্ট্য নিষ্কাশন এবং বৈশিষ্ট্য ইঞ্জিনিয়ারিং : মডেলিংয়ের জন্য উপযুক্ত বৈশিষ্ট্যগুলিতে কাঁচা ডেটার রূপান্তর;

  • বৈশিষ্ট্য রূপান্তর : অ্যালগরিদমের যথার্থতা উন্নত করতে তথ্যের রূপান্তর;

  • বৈশিষ্ট্য নির্বাচন : অপ্রয়োজনীয় বৈশিষ্ট্য অপসারণ।

একই উদাহরণ যোগ করতে,

বৈশিষ্ট্য এক্সট্রাকশন এবং ইঞ্জিনিয়ারিং (আমরা সেগুলি থেকে কিছু বের করতে পারি)

  • পাঠ্য (এনগ্রাম, ওয়ার্ড টুভেক, টিএফ-আইডিএফ ইত্যাদি)
  • চিত্রগুলি (সিএনএন'স, পাঠ্য, প্রশ্নোত্তর & ক)
  • ভূ-স্থান সংক্রান্ত ডেটা (ল্যাট, লম্বা ইত্যাদি)
  • তারিখ এবং সময় (দিন, মাস, সপ্তাহ, বছর, ঘূর্ণায়মান ভিত্তিক)
  • সময়ের সিরিজ, ওয়েব ইত্যাদি
  • মাত্রিক হ্রাস কৌশল (পিসিএ, এসভিডি, ইজেন-ফেসস ইত্যাদি)
  • হতে পারে আমরা ক্লাস্টারিংও ব্যবহার করতে পারি (ডিবিএসসিএন ইত্যাদি)
  • .....(এবং আরও অনেক কিছু)

ফিচার ট্রান্সফর্মেশনস (সেগুলি রূপান্তরিত করে বোঝার জন্য)

  • সাধারণকরণ এবং পরিবর্তনের বিতরণ (স্কেলিং)
  • ইন্টারঅ্যাকশনগুলি
  • অনুপস্থিত মান পূরণ করা (মিডিয়ান ফিলিং ইত্যাদি)
  • .....(এবং আরও অনেক কিছু)

বৈশিষ্ট্য নির্বাচন (এই নির্বাচিত বৈশিষ্ট্যগুলিতে আপনার মডেল তৈরি করা)

  • পরিসংখ্যানগত পন্থা
  • মডেলিং দ্বারা নির্বাচন
  • গ্রিড অনুসন্ধান
  • ক্রস বৈধতা
  • .....(এবং আরও অনেক কিছু)

আশাকরি এটা সাহায্য করবে...

অন্যদের দ্বারা ভাগ করা লিঙ্কগুলি দেখুন। তারা বেশ সুন্দর ...


এর জন্য +1 উত্তর দেওয়ার দুর্দান্ত উপায়।
Toros91

এই সম্প্রদায়ের কাছে কুডোস .. এর থেকে অনেক কিছু শেখা ..
আদিত্য

1
সত্য যে মানুষ, আমি অক্টোবর, 2017 থেকে সদস্য হয়েছি। আমি অনেক কিছু শিখেছি। আশা করি এটিও আপনার জন্য একই রকম হবে। আমি আপনার উত্তরগুলি পড়ছি, তারা ভাল B আমি পুরো জিনিসটি দেখতে পেলাম না তবে নীল স্লেটার যেমনটি ভাল বলেছিলেন আপনি শেষ পর্যন্ত আপনার ঠাণ্ডা রেখেছেন। এটা বজায় রাখা! আমরা এখনও যেতে একটি দীর্ঘ পথ আছে। :)
Toros91

এই প্রক্রিয়া করা উচিত যাতে ক্রম কি? ডেটা পরিষ্কার এবং ডেটা বিভাজন ছাড়াও। 5 টির মধ্যে কোনটি প্রথম পদক্ষেপ?
টেকনিকাজি 20:38

আপনি মডেলিংয়ের জন্য ডেটা প্রেরণের জন্য প্রস্তুত কিনা তা নিশ্চিত করে নেওয়ার সময় ডেটা বিভক্তকরণ করা হয় ... এবং ওহো উপরে বর্ণিত জিনিসগুলির জন্য এমন কোনও অর্ডার নেই কারণ তারা বেশ কয়েকবার ওভারল্যাপ করে (বৈশিষ্ট্য নিষ্কাশন, বৈশিষ্ট্য ইঞ্জিনিয়ারিং, বৈশিষ্ট্য রূপান্তর।) তবে বৈশিষ্ট্য নির্বাচন অবশ্যই ডেটাটিকে ট্রেনের মধ্যে বৈধকরণ হিসাবে বিভক্ত করার পরে নিশ্চিত করা হয়েছে যে আপনি আপনার মডেলগুলি মেট্রিক বা কোনও বৈধতা ডেটাশেটের সমতুল্য কিছু ব্যবহার করছেন (এর পারফরম্যান্স পরিমাপ করতে) ক্রস বৈধকরণ বা সমমানের জন্য কিছু, আপনি পুনরাবৃত্তি শুরু করতে পারেন কলামগুলি ছাড়ছে এবং ইমপ কলসারিমটি দেখুন
আদিত্য

5

আদিত্য বলেছিলেন, এখানে 3 টি বৈশিষ্ট্য-সম্পর্কিত পদ রয়েছে যা কখনও কখনও একে অপরের সাথে বিভ্রান্ত হয়। আমি চেষ্টা করব এবং তাদের প্রত্যেককে সংক্ষিপ্ত বিবরণ দেব:

  • বৈশিষ্ট্য নিষ্কাশন: সরাসরি বিশ্লেষণ করা কঠিন / সরাসরি তুলনাযোগ্য নয় এমন ফর্ম্যাটে থাকা ডেটা থেকে এমন বৈশিষ্ট্য উত্পন্ন করা (যেমন চিত্র, সময়-সিরিজ ইত্যাদি) সময়-সিরিজের উদাহরণে কিছু সাধারণ বৈশিষ্ট্য হতে পারে উদাহরণস্বরূপ: সময়-সিরিজের দৈর্ঘ্য, সময়কাল, গড় মান, স্ট্যান্ড ইত্যাদি
  • বৈশিষ্ট্য রূপান্তর: পুরানোগুলির উপর ভিত্তি করে নতুন বৈশিষ্ট্য তৈরি করতে বিদ্যমান বৈশিষ্ট্যগুলির রূপান্তর । মাত্রিকতা হ্রাসের জন্য একটি খুব জনপ্রিয় ব্যবহৃত কৌশল হ'ল প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) যা ভেরিয়েবলের প্রাথমিক সেটের উপর ভিত্তি করে রৈখিক অ-পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলের একটি সেট তৈরি করতে কিছু অরথোগোনাল রূপান্তর ব্যবহার করে।
  • বৈশিষ্ট্য নির্বাচন: বিদ্যমান বৈশিষ্ট্যগুলির একটি সেট থেকে লক্ষ্য ভেরিয়েবলের উপর সর্বোচ্চ "গুরুত্ব" / প্রভাব সহ বৈশিষ্ট্যগুলির নির্বাচন । এটি বিভিন্ন কৌশল দ্বারা করা যেতে পারে: যেমন লিনিয়ার রিগ্রেশন, সিদ্ধান্ত গাছ, "গুরুত্ব" ওজনের গণনা (যেমন ফিশার স্কোর, রিলিফএফ)

যদি আপনি কেবলমাত্র বিদ্যমান ডেটাসেটের মাত্রিকতা হ্রাস করতে চান তবে আপনি বৈশিষ্ট্য রূপান্তর বা বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করতে পারেন। তবে যদি আপনাকে "গুরুত্বপূর্ণ" হিসাবে চিহ্নিত করা বৈশিষ্ট্যগুলির শারীরিক ব্যাখ্যা জানতে হয় বা আপনার বিশ্লেষণের জন্য যে পরিমাণ ডেটা সংগ্রহ করতে হবে তা সীমাবদ্ধ করার চেষ্টা করছেন (বৈশিষ্ট্য রূপান্তরের জন্য আপনার সমস্ত বৈশিষ্ট্যের প্রাথমিক সেট প্রয়োজন), তবে কেবল বৈশিষ্ট্য নির্বাচন কাজ করতে পারে।

আপনি নীচের লিঙ্কগুলিতে বৈশিষ্ট্য নির্বাচন এবং মাত্রা হ্রাস সম্পর্কে আরও বিশদ জানতে পারেন :


4

আমার মনে হয় এগুলি 2 টি আলাদা জিনিস,

বৈশিষ্ট্য নির্বাচন দিয়ে শুরু করা যাক :

এই কৌশলটি বৈশিষ্ট্যগুলি নির্বাচনের জন্য ব্যবহৃত হয় যা লক্ষ্যমাত্রার ভেরিয়েবলের সর্বাধিক ব্যাখ্যা করে (লক্ষ্য ভেরিয়েবলের সাথে একটি সম্পর্ক রয়েছে) theএই পরীক্ষাটি মডেলটি ডেটা প্রয়োগ করার ঠিক আগে চালানো হয়।

এটির আরও ভাল ব্যাখ্যা করার জন্য আসুন একটি উদাহরণ দেওয়া যাক: এখানে 10 টি বৈশিষ্ট্য এবং 1 টার্গেট ভেরিয়েবল রয়েছে, 9 টি বৈশিষ্ট্য 90% টার্গেট ভেরিয়েবল এবং 10 টি বৈশিষ্ট্য একসাথে লক্ষ্য ভেরিয়েবলের 91% ব্যাখ্যা করে। সুতরাং 1 ভেরিয়েবল খুব বেশি পার্থক্য তৈরি করছে না তাই আপনি মডেলিংয়ের আগে এটি সরিয়ে ফেলেন (এটি ব্যবসায়ের ক্ষেত্রেও বিষয়গত)। আমাকে ভবিষ্যদ্বাণীপূর্ণ গুরুত্ব হিসাবেও বলা যেতে পারে।

ফিচার এক্সট্রাকশন সম্পর্কে এখন কথা বলা যাক ,

যা আনসভের্বাইজড লার্নিংয়ে ব্যবহৃত হয়, ছবিগুলিতে কনট্যুর এক্সট্রাকশন, একটি টেক্সট থেকে দ্বি-গ্রাম উত্তোলন, কথ্য পাঠ্য রেকর্ডিং থেকে ফোনমেস নিষ্কাশন। আপনি যখন ডেটা অভিধানের মতো ডেটা সম্পর্কে কিছু জানেন না, তখন অনেকগুলি বৈশিষ্ট্য যার অর্থ ডেটা বোধগম্য বিন্যাসে নয়। তারপরে আপনি এমন কিছু বৈশিষ্ট্য পাওয়ার জন্য এই কৌশলটি প্রয়োগ করার চেষ্টা করছেন যা ডেটা সর্বাধিক ব্যাখ্যা করে। বৈশিষ্ট্য নিষ্কাশন বৈশিষ্ট্যগুলির একটি রূপান্তর জড়িত, যা প্রায়শই বিপরীত হয় না কারণ মাত্রা হ্রাস প্রক্রিয়ায় কিছু তথ্য হারিয়ে যায়।

বৈশিষ্ট্যগুলি নিষ্কাশন করতে আপনি প্রদত্ত ডেটাতে ফিচার এক্সট্রাকশন প্রয়োগ করতে পারেন এবং তারপরে সাবসেটটি নির্বাচন করার জন্য টার্গেট ভেরিয়েবলের সাথে সম্মান সহ ফিচার নির্বাচন প্রয়োগ করতে পারেন যা ভাল ফলাফলের সাথে একটি ভাল মডেল তৈরি করতে সহায়তা করতে পারে।

আরও ভাল বোঝার জন্য আপনি এই লিঙ্ক -১ , লিংক -২ দিয়ে যেতে পারেন।

আমরা সেগুলি আর, পাইথন, এসপিএসে প্রয়োগ করতে পারি।

আরও কিছু স্পষ্টতা প্রয়োজন হলে আমাকে জানান।


3

দুটি খুব আলাদা: বৈশিষ্ট্য নির্বাচন প্রকৃতপক্ষে মাত্রা হ্রাস, কিন্তু বৈশিষ্ট্য নিষ্কাশন মাত্রা যোগ করে যা অন্যান্য বৈশিষ্ট্য থেকে গণনা করা হয়।

প্যানেল বা সময় সিরিজের ডেটাগুলির জন্য, একজনের সাধারণত ডেটটাইম ভেরিয়েবল থাকে এবং ভবিষ্যতে যে ঘটনা ঘটে না সেহেতু একজনই তারিখের উপর নির্ভরশীল পরিবর্তনশীলকে প্রশিক্ষণ দিতে চান না। সুতরাং আপনার তারিখের সময়টি দূর করতে হবে: বৈশিষ্ট্য অপসারণ।

অন্যদিকে, সপ্তাহের দিন / উইকএন্ডের দিনটি খুব প্রাসঙ্গিক হতে পারে, তাই আমাদের তারিখের সময় থেকে বৈশিষ্ট্য নিষ্কাশন থেকে সপ্তাহের দিনের অবস্থা গণনা করা দরকার।


0

একটি মেশিন লার্নিং প্রকল্পের সাফল্যের একটি গুরুত্বপূর্ণ অংশ প্রশিক্ষণ দেওয়ার জন্য একটি দুর্দান্ত বৈশিষ্ট্য নিয়ে হাজির হচ্ছে। ফিচার ইঞ্জিনিয়ারিং নামে পরিচিত এই প্রক্রিয়াটিতে জড়িত:

Ature বৈশিষ্ট্য নির্বাচন: বিদ্যমান বৈশিষ্ট্যগুলির মধ্যে প্রশিক্ষণের জন্য সবচেয়ে দরকারী বৈশিষ্ট্য নির্বাচন করা select
Ature বৈশিষ্ট্য নিষ্কাশন: আরও কার্যকর একটি উত্পাদন করতে বিদ্যমান বৈশিষ্ট্যগুলির সংমিশ্রণ (যেমন আমরা আগে দেখেছি, মাত্রা হ্রাস অ্যালগরিদমগুলি সহায়তা করতে পারে)।
New নতুন ডেটা সংগ্রহ করে নতুন বৈশিষ্ট্য তৈরি করা

উদ্ধৃতি: "সাইকিট-লার্ন, কেরাস এবং টেনস্রোফ্লো - অরেলিন জেরন সহ মেশিন লার্নিংয়ের একটি হাত"

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.