বৈশিষ্ট্য নির্বাচন এবং শ্রেণিবদ্ধকরণ নির্ভুলতার সম্পর্ক


10

আপনার শ্রেণিবদ্ধের জন্য আপনার উপলভ্য বৈশিষ্ট্যগুলির একটি উপসেটটি নির্বাচন করার পদ্ধতিগুলির মধ্যে একটি হ'ল মানদণ্ড (যেমন তথ্য লাভ) এর অনুসারে র‌্যাঙ্ক করা এবং তারপরে আপনার শ্রেণিবদ্ধ ব্যবহার করে যথাযথতা এবং র‌্যাঙ্কড বৈশিষ্ট্যগুলির একটি উপসেট গণনা করা।

উদাহরণস্বরূপ, যদি আপনার বৈশিষ্ট্যগুলি হয় A, B, C, D, Eএবং সেগুলি যদি অনুসরণ অনুসারে র‌্যাঙ্ক করা হয় D,B,C,E,Aতবে আপনি যথার্থতা ব্যবহার করে গণনা করুন D, D, Bতারপরে D, B, C, তারপরে D, B, C, E... যতক্ষণ না আপনার নির্ভুলতা হ্রাস শুরু হয়। এটি হ্রাস শুরু হওয়ার পরে, আপনি বৈশিষ্ট্য যুক্ত করা বন্ধ করুন

Example1

উদাহরণস্বরূপ (উপরে) উদাহরণস্বরূপ, আপনি বৈশিষ্ট্যগুলি বেছে নেবেন F, C, D, Aএবং অন্যান্য বৈশিষ্ট্যগুলি আপনার যথার্থতা হ্রাস করার সাথে সাথে বাদ দেবেন drop

এই পদ্ধতিটি ধরে নিয়েছে যে আপনার মডেলটিতে আরও বৈশিষ্ট্য যুক্ত করা আপনার নির্দিষ্টকরণের নির্দিষ্ট সময় পর্যন্ত আপনার শ্রেণিবদ্ধের যথার্থতা বাড়িয়ে তোলে যার পরে অতিরিক্ত বৈশিষ্ট্য যুক্ত করা হলে নির্ভুলতা হ্রাস পায় (উদাহরণস্বরূপ দেখুন 1)

তবে আমার পরিস্থিতি আলাদা। আমি উপরে বর্ণিত পদ্ধতিটি প্রয়োগ করেছি এবং আমি দেখতে পেয়েছি যে আরও বেশি বৈশিষ্ট্য যুক্ত করার ফলে সঠিকতা হ্রাস হয়ে যায় যতক্ষণ না এটি বাড়ার পরে।

Example2

এটির মতো একটি দৃশ্যে আপনি কীভাবে আপনার বৈশিষ্ট্যগুলি বেছে নেবেন? আপনি কি Fবাকী বাছাই করে ফেলে দিন? সঠিকতা হ্রাস হবে এবং তারপরে কেন বৃদ্ধি পাবে আপনার কোনও ধারণা আছে?

উত্তর:


4

বৈশিষ্ট্য নির্বাচন যেমন মেশিন শেখার পদ্ধতির মতো বিভিন্ন পদ্ধতি জড়িত। আইডিয়াটি ভবিষ্যদ্বাণীপূর্ণ মডেলের জন্য সর্বাধিক প্রাসঙ্গিক তবে অপ্রয়োজনীয় বৈশিষ্ট্য রাখতে হবে যা অনুকূল নির্ভুলতা অর্জন করতে পারে।

আপনার ক্ষেত্রে, বৈশিষ্ট্য নির্বাচনের জন্য আপনি কোন পদ্ধতিটি ব্যবহার করছেন তা আমি দেখতে পাচ্ছি না তবে ধরে নিচ্ছি যে আপনি বৈশিষ্ট্যের উপর নির্ভরশীলতার বহুবিধ প্রকৃতির অ্যাকাউন্ট গ্রহণ করছেন না। বলুন আপনার এন বৈশিষ্ট্য রয়েছে, সম্ভবত আপনার মডেল যথার্থতা এন টপ ফিচার (গুলি) এর পরে নেমে আসে তবে এন + কে যোগ করার মাধ্যমে উন্নত হয় (যেখানে এন <কে <এন যখন বৈশিষ্ট্যগুলি তথ্য লাভের ভিত্তিতে অবতরণ ক্রমে থাকে) আন্তঃ- শীর্ষস্থানীয় এন এবং কে বৈশিষ্ট্যগুলির নির্ভরতা (আরও প্রাসঙ্গিকতা এবং কম অপ্রয়োজনীয়)। বৈশিষ্ট্যগুলি আন্তঃনির্ভরশীল এবং পারস্পরিক একচেটিয়া না হলে অবিচ্ছিন্ন বৈশিষ্ট্য নির্বাচন অগত্যা অনুকূল মডেলের যথার্থতা পায় না। দার্শনিক দৃষ্টিকোণ থেকে, অনুকূল বৈশিষ্ট্যগুলির সেট সেটটি অ্যারিস্টটলের একটি উক্তিটির সাথে সাদৃশ্য: "পুরোপুরি তার অংশগুলির যোগফলের চেয়ে বড়"!

অনুকূল বৈশিষ্ট্য নির্বাচনের জন্য, আমি প্রায়শই ভাষায় ক্যারেট প্যাকেজ Rযেখানে একাধিক অন্যান্য পদ্ধতির মধ্যে পুনরাবৃত্ত বৈশিষ্ট্য নির্মূলকরণ (আরএফই) ব্যবহার করে বৈশিষ্ট্য নির্বাচন করতে পারে । সর্বাধিক প্রাসঙ্গিকতা, ন্যূনতম রিন্ডন্ডেন্সির ভিত্তিতে বৈশিষ্ট্য নির্বাচন করতে এমআরএমআর নামে একটি প্যাকেজও রয়েছে ।

সেরা,
সমির


আমি মোবাইল থেকে উত্তরটি খসড়া করছিলাম এবং বুঝতে পারি না যে আগের দুটি উত্তর বেশ একরকম! সেগুলিতে মন্তব্য না করা এবং পরিবর্তে পৃথকভাবে উত্তর দেওয়ার ক্ষেত্রে আমার ভুল।
সমীর

অপ্রয়োজনীয় বৈশিষ্ট্যগুলি সম্পর্কে আপনার পয়েন্টটি স্পট রয়েছে on আমি যাচাই করে দেখেছি এবং আমি নিশ্চিত করতে পারি যে উচ্চ তথ্য অর্জনের সাথে 3 টি বৈশিষ্ট্যগুলি সত্যই অপ্রয়োজনীয় (একে অপরের সাথে অত্যন্ত সংযুক্ত)। এটি ব্যাখ্যা করে যে এই বৈশিষ্ট্যগুলি আনুষ্ঠানিকভাবে ব্যবহার করার সময় নির্ভুলতা কেন হ্রাস পাবে: প্রথম বৈশিষ্ট্যটি অতীতে, অতিরিক্ত বৈশিষ্ট্যটি আমার ডেটাসেটে একটি নতুন "ডেটা মাত্রা" যুক্ত করে না এবং পরিবর্তে, তারা শব্দ তৈরি করে কারণ শ্রেণিবদ্ধরা ইতিমধ্যে ধন্যবাদ জানেন যা তারা কেবল "পুনরাবৃত্তি" করে প্রথম বৈশিষ্ট্য। অন্যান্য বৈশিষ্ট্যগুলি যদিও কম তথ্য লাভের সাথে একটি নতুন ডেটা মাত্রা যুক্ত করে।
পলিন

1

নির্দিষ্ট প্রশ্ন সম্পর্কে

বৈশিষ্ট্যগুলির উপসেটটি নির্বাচন করার সময় আপনার কোনও নির্দিষ্ট আচরণ (যথাযথতা বৃদ্ধি এবং তারপরে হ্রাস) আশা করা উচিত নয়, কারণ এটি সমস্যার উপর সম্পূর্ণ নির্ভরশীল হবে (এবং প্রতিটি মডেল)

আপনি যখন বৈশিষ্ট্যের পরিবর্তনশীল গুরুত্ব গণনা করেন, আপনি একই সাথে সমস্ত বৈশিষ্ট্যের অবদানকে বিবেচনা করছেন। একবার আপনি বৈশিষ্ট্যগুলির একটি উপসেট নির্বাচন করে এবং একটি নতুন মডেল তৈরি করার পরে, আপনি সমস্যার আলাদা উপস্থাপনা বা মডেলিং পাবেন (যা অন্যান্য বৈশিষ্ট্যগুলিকে বিবেচনা করে না - তথ্যপূর্ণ বা না -)।

এখন, আপনি বৈশিষ্ট্যগুলির সেরা সংখ্যাটি নির্বাচন করতে চান। এটি আপনার সমস্যা এবং আপনার যে বৈশিষ্ট্য বা শর্তাদি পূরণ করতে হবে তা থেকেও নির্ভর করবে। পূর্বাভাসের নির্ভুলতাটি অনুকূল করার সময় আপনার যদি কম সংখ্যক বৈশিষ্ট্য থাকা দরকার তবে আপনি সর্বনিম্ন সংখ্যার বৈশিষ্ট্যগুলি বেছে নিতে পারেন যা সর্বনিম্ন ত্রুটি অর্জন করে ... এবং, যদি আপনার খুব অনুরূপ ত্রুটিযুক্ত বিভিন্ন ক্ষেত্রে থাকে, তবে একটি চৌম্বকটি বেছে নিন, পর্যবেক্ষণ করুন শীর্ষস্থানীয় কেসগুলির ক্ষেত্রে ত্রুটিগুলির যুগলতর পার্থক্য প্রান্তিকের চেয়ে কম এবং একটি নির্বাচন করুন (উদাহরণস্বরূপ, বৈশিষ্ট্যগুলির সংখ্যার সাথে একটি - যেহেতু ত্রুটিগুলি প্রান্তিকভাবে একই -)।

পুনরাবৃত্ত বৈশিষ্ট্য নির্মূল বিবেচনা করুন

আপনি যে পদ্ধতিটি ব্যবহার করছেন সেটি সম্ভবত সবচেয়ে স্থিতিশীল নয় not আপনার পুনরাবৃত্ত বৈশিষ্ট্য নির্মূলকরণ (আরএফই) এর মতো কিছু চেষ্টা করার কথা বিবেচনা করা উচিত, যেখানে আপনি একটি শ্রেণিবদ্ধ তৈরি করেন, সমস্ত বৈশিষ্ট্যগুলি র‌্যাঙ্ক করুন, সবচেয়ে খারাপটি সরিয়ে ফেলুন এবং বাকি বৈশিষ্ট্যগুলিতে মডেলটি পুনর্নির্মাণ করুন। তারপরে আপনি আবার পদ্ধতিটি পুনরাবৃত্তি করুন। এটি আরও স্থিতিশীল হয়ে উঠবে ... এবং প্রতিবার আপনার আলাদা র‌্যাঙ্কিং আশা করা উচিত।

বৈচিত্র্য একটি সমালোচনামূলক কারণও

প্রকৃত ত্রুটি (বা যথার্থতা) ছাড়িয়ে মডেল আপনাকে প্রতিটি উপসেট দিয়ে দিচ্ছে, আপনার প্রতিটি মডেলকে ক্রস-বৈধকরণ পদ্ধতির মাধ্যমে তৈরি করার কথা ভাবা উচিত এবং ভাঁজগুলির গড় ত্রুটি এবং এই ত্রুটিগুলির স্ট্যান্ডার্ড বিচ্যুতি উভয় বিবেচনায় নেওয়া উচিত। মানক বিচ্যুতি যদি উচ্চ হয়, তবে বৈশিষ্ট্যগুলির নির্বাচিত উপসেট স্থিতিশীল নয় এবং অদেখা তথ্যের সাথে পরীক্ষার সময় প্রচুর পরিমাণে পরিবর্তিত হবে। মডেলের প্রত্যাশিত সাধারণকরণের ক্ষমতাগুলি মূল্যায়নের জন্য এটি গুরুত্বপূর্ণ, এবং মডেলগুলির মধ্যে সিদ্ধান্ত নেওয়ার জন্য সহায়ক হতে পারে (বিভিন্ন সাবসেট দিয়ে নির্মিত)।


1

আপনাকে আপনার ডেটা সেট থেকে অপ্রয়োজনীয় এবং অপ্রাসঙ্গিক বৈশিষ্ট্যগুলি সরিয়ে ফেলতে হবে। এটি দেখা যায় যে আপনার ডেটা সেটে অপ্রাসঙ্গিক এবং অপ্রয়োজনীয় বৈশিষ্ট্য রয়েছে।

আমি আপনাকে ন্যূনতম রিডানডেন্সি সর্বোচ্চ প্রাসঙ্গিক বৈশিষ্ট্য নির্বাচন (এমআরএমআর) অ্যালগরিদমটি দেখার পরামর্শ দিচ্ছি। এটি আপনার ট্রেনের মডেলটির আগে একটি খুব জনপ্রিয় এবং শক্তিশালী ফিল্টার।

"তবে, আমার পরিস্থিতি আলাদা above আমি উপরে বর্ণিত পদ্ধতিটি প্রয়োগ করেছি এবং আমি দেখতে পেয়েছি যে আরও বৈশিষ্ট্য যুক্ত করা এক পর্যায়ে যথাযথতা হ্রাস করে যার পরে এটি বৃদ্ধি পায়"

এটিও সম্ভব, তবে এটি আরও জটিল মডেলের দিকে পরিচালিত করবে।


1

সাধারণত বৈশিষ্ট্য নির্বাচন অ্যালগরিদমের তিনটি শ্রেণি থাকে।

  • ফিল্টার পদ্ধতিগুলি যা ডেটার অভ্যন্তরীণ বৈশিষ্ট্য বিশ্লেষণ করে এবং কোনও বৈশিষ্ট্যকে কোনও স্কোর অর্পণ করে, কোনও মডেল জড়িত না। কিছু উদাহরণগুলি ভাঁজ পরিবর্তন, শিক্ষার্থীদের টি-টেস্ট।

  • র্যাপার পদ্ধতিগুলি যা বৈশিষ্ট্যের বিভিন্ন উপসর্গ নির্দিষ্ট অ্যালগরিদমের মাধ্যমে নির্বাচিত হয়। তারপরে আমরা প্রতিটি নির্বাচনের মূল্যায়ন করতে এবং সর্বোত্তম ফিটনেস মান সহ একটি বাছাই করতে শ্রেণিবদ্ধকরণ বা রিগ্রেশন মডেলটিতে ফিট করি। বৈশিষ্ট্য নির্বাচনের জন্য জেনেটিক অ্যালগরিদম, বৈশিষ্ট্য নির্বাচনের জন্য মন্টে কার্লো অপ্টিমাইজেশন, ফরোয়ার্ড / পশ্চাদপদ পদক্ষেপের নির্বাচনের কয়েকটি উদাহরণ রয়েছে।

  • এম্বেডড পদ্ধতিগুলি যা মডেলকে ফিটনেসে সেরা অবদান রাখার বৈশিষ্ট্যগুলি চয়ন করতে দেয় pick সাধারণগুলি হ'ল লাসো, রিজ রিগ্রেশন।

এখানে বিশদ বিবরণ এখানে একটি মহান নিবন্ধ বৈশিষ্ট্য নির্বাচন ভূমিকা


পোস্টে উপস্থাপন পদ্ধতিটি একটি ফিল্টারের উদাহরণ। ফিল্টারটি সমস্ত বৈশিষ্ট্যকে র‌্যাঙ্ক করেছে এবং বিষয়টি এই র‌্যাঙ্কড বৈশিষ্ট্যগুলির একটি উপসেট কীভাবে নির্বাচন করবেন তা।
পলিন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.