অনিশ্চিত শ্রেণীর লেবেলের জন্য শ্রেণিবদ্ধকারী


11

ধরা যাক আমার কাছে ক্লাস লেবেলের সাথে সংযুক্ত উদাহরণ রয়েছে। এটা কোন ব্যাপার না কিভাবে এই দৃষ্টান্ত লেবেল করা হয়েছে, কিন্তু কিভাবে নির্দিষ্ট তাদের বর্গ সদস্যপদ। প্রতিটি ইনস্ট্যানস ঠিক এক শ্রেণির অন্তর্গত । ধরা যাক আমি 1 থেকে 3 (যথাক্রমে অনিশ্চিত, খুব নির্দিষ্ট) থেকে যায় এমন নামমাত্র বৈশিষ্ট্য সহ প্রতিটি শ্রেণীর সদস্যপদটির নিশ্চিতকরণের পরিমাণ নির্ধারণ করতে পারি।

এমন কোনও শ্রেণিবদ্ধকারী রয়েছে যা এই ধরণের একটি নির্দিষ্টতা পরিমাপ বিবেচনা করে এবং যদি হ্যাঁ, তবে এটি WEKA সরঞ্জামকিটটিতে পাওয়া যায়?

আমি ধারণা করি এই পরিস্থিতি প্রায়শই ঘটে থাকে, উদাহরণস্বরূপ যখন উদাহরণগুলি মানব দ্বারা শ্রেণিবদ্ধ করা হয় যা সর্বদা সম্পূর্ণ নিশ্চিত হয় না। আমার ক্ষেত্রে, আমাকে চিত্রগুলি শ্রেণিবদ্ধ করতে হবে এবং কখনও কখনও একটি চিত্র একাধিক শ্রেণীর অন্তর্গত হতে পারে। যদি এটি ঘটে তবে আমি ক্লাসটিকে একটি উচ্চ অনিশ্চয়তা দিই, তবে এখনও এটি কেবল একটি শ্রেণির সাথে শ্রেণিবদ্ধ করছি ify

বা বিশেষায়িত শ্রেণিবদ্ধ না করে এই সমস্যাটির জন্য অন্য কোনও পন্থা রয়েছে? যেমন প্রশিক্ষণের জন্য কেবল "নির্দিষ্ট" শ্রেণিবিন্যাস গ্রহণ করা হয়? আমি আশঙ্কা করি যে এই ক্ষেত্রে আরও বিবিধ শ্রেণিবদ্ধতা হবে কারণ "সীমান্ত" কেসগুলি আওতায় আনা হয়নি।


1
প্রতিটি এন্ট্রি ঠিক এক শ্রেণীর অন্তর্গত? অথবা এটি সম্ভব যে কিছু এন্ট্রি 12 ম শ্রেণির সাথে নিশ্চিত 1 এবং 34 নম্বর শ্রেণির সাথে নিশ্চিত 2?
user31264

প্রতিটি এন্ট্রি এক্ষেত্রে ঠিক এক শ্রেণির অন্তর্গত।
wnstnsmth

উত্তর:


8

সবার আগে, যেমন @ মারক ক্লেসেন ইতিমধ্যে ব্যাখ্যা করেছেন, আপনি যে ক্লাসগুলি সত্যই স্বতন্ত্র জানেন যে পরিস্থিতিটি যত্ন নেওয়ার জন্য আধা-তত্ত্বাবধানের শ্রেণিবিন্যাস একটি কৌশল, তবে কেসটি আসলে কোন শ্রেণীর অন্তর্গত তা আপনি নিশ্চিত নন।

তবে এর সাথে সম্পর্কিত পরিস্থিতিও রয়েছে, যেখানে "বাস্তবতা" তেমন পরিষ্কার নয়, এবং সত্যই পৃথক শ্রেণীর থাকার ধারণাটি মেটেনি: সীমান্তের কেসগুলি "শারীরিক" বাস্তবতা হতে পারে (কোনও অ্যাপ্লিকেশন সম্পর্কিত কাগজপত্রের জন্য নীচে দেখুন) যেখানে আমরা এরকম একটি শর্ত পূরণ করেছি)।

আধা-তত্ত্বাবধানে শ্রেণিবদ্ধারদের জন্য একটি গুরুতর ধারণা রয়েছে যা আপনার নিশ্চিত হওয়া উচিত: বৈশিষ্ট্য স্পেসে, শ্রেণির সীমানা কম নমুনার ঘনত্বের সাথে আসে এমন ধারণা । এটি ক্লাস্টার অনুমান হিসাবে উল্লেখ করা হয়।
এমনকি যদি আপনার ডেটা অন্তর্নিহিত বাস্তবতার স্বতন্ত্র শ্রেণি থাকে তবে আপনার ডেটা সেটটিতে অপ্রয়োজনীয়ভাবে আরও সীমান্তরেখার কেস থাকতে পারে: যেমন যদি আপনার শ্রেণিবিন্যাস কৌশলটি জটিল ক্ষেত্রে শ্রেণিবদ্ধকরণে লক্ষ্যযুক্ত থাকে, তবে পরিষ্কার এবং সহজ ক্ষেত্রে আগ্রহী না হয় এবং ইতিমধ্যে আপনার প্রশিক্ষণ ডেটা এটি প্রতিফলিত করে পরিস্থিতি.

প্রশিক্ষণের জন্য কেবল "নির্দিষ্ট" শ্রেণিবিন্যাস গ্রহণ করছেন? আমি আশঙ্কা করি যে এই ক্ষেত্রে আরও বিবিধ শ্রেণিবদ্ধতা হবে কারণ "সীমান্ত" কেসগুলি আওতায় আনা হয়নি।

আমি আপনার সাথে সম্পূর্ণরূপে একমত যে সীমান্তরেখার কেসগুলি বাদ দেওয়া প্রায়শই একটি খারাপ ধারণা: সমস্ত কঠিন ক্ষেত্রে সরিয়ে আপনি কৃত্রিমভাবে সহজ সমস্যাটি শেষ করেন up আইএমএইচও এটি আরও খারাপ যে বর্ডারলাইন কেসগুলি বাদ দিয়ে সাধারণত মডেল প্রশিক্ষণ দেওয়া বন্ধ হয় না, তবে সীমান্তরেখার কেসগুলিও পরীক্ষা থেকে বাদ দেওয়া হয়, সুতরাং কেবল সহজ ক্ষেত্রেই মডেলটির পরীক্ষা করা হয়। এর সাথে আপনি বুঝতেও পারবেন না যে সীমান্তের ক্ষেত্রে মডেলগুলি ভাল অভিনয় করে না।

এখানে দুটি প্রবন্ধ রয়েছে যা আমরা আপনার সমস্যার চেয়ে পৃথক হয়েছি যা আমাদের প্রয়োগে বাস্তবতার সাথে "মিশ্র" ক্লাসও থাকতে পারে (আপনার সমস্যার আরও সাধারণ সংস্করণ: রেফারেন্স লেবেলে অনিশ্চয়তাও আচ্ছাদিত)।

পারফরম্যান্স গণনার জন্য লিংকগুলি আমি বিকাশিত একটি আর প্যাকেজের একটি প্রকল্পের পৃষ্ঠায় যায়। অফিসিয়াল ওয়েব পৃষ্ঠা এবং কাগজপত্রগুলির আমার পাণ্ডুলিপি উভয়ের জন্য আরও লিঙ্ক রয়েছে। যদিও আমি এখনও পর্যন্ত ওয়েকা ব্যবহার করি নি, আমি বুঝতে পারি যে আর এর সাথে একটি ইন্টারফেস উপলব্ধ


ব্যবহারিক সিদ্ধান্ত:

  • যদিও অনুলিপি-এবং-লেবেল-ভিন্নরূপে সোজাসুজি, এটি সমস্ত শ্রেণিবদ্ধ এবং বাস্তবায়নের সাথে কার্যকরভাবে কাজ করে না। উদাহরণস্বরূপ আফিক্স libSVMক্রস বৈধকরণের মাধ্যমে টিউন করার কোনও উপায় নেই যে প্রতিটি ডাটা পয়েন্টের সমস্ত অনুলিপি একই ক্রস বৈধকরণ ভাঁজে রাখা দরকার। সুতরাং libSVMএর টিউনিং সম্ভবত একটি ব্যাপকভাবে ওভারফিট মডেল উত্পাদন করবে।
  • এছাড়াও লজিস্টিক রিগ্রেশন জন্য, আমি দেখতে পেলাম যে অনেকগুলি বাস্তবায়ন আমার প্রয়োজনীয় আংশিক সদস্যতার লেবেলগুলিকে মঞ্জুরি দেয় না।
  • উপরের কাগজপত্রগুলির জন্য আমি যে বাস্তবায়নটি ব্যবহার করেছি তা আসলে সিগময়েডাল লিঙ্ক ফাংশন ( nnet::multinom) হিসাবে লজিস্টিক ব্যবহার করে লুকানো স্তর ছাড়াই একটি এএনএন ।

আপনার প্রথম ব্যবহারিক বিবেচনা, সত্য হলেও libsvmএটি বিশেষভাবে প্রযোজ্য নয় । libsvmলেখক, প্রত্যেক ছবি মুক্তি পাওয়ার যা উদাহরণস্বরূপ-ভরযুক্ত শ্রেণীবিন্যাস সম্ভব একটি বিকল্প সংস্করণ প্রদান এই সমস্যা পুরাপুরি এড়ানো। এটি এই ধরণের জিনিস যা আমাকে সাধারণত ওয়েকা / স্কিপি / ... সিএসই.এনটিউ.ইডু.টিউ
মার্ক

@ মার্কক্লেসেন: ধন্যবাদ - আমি তা দেখিনি। তবে আপনার কি একই ধরণের দুটি ভারসাম্য সরবরাহের প্রয়োজন হবে না যার একটি ভারতে বলা হয় 1/3 ক্লাস এ এবং অন্যটি 2/3 ক্লাস বি দিয়ে? যাইহোক, পরিষ্কার মামলার প্রচুর অনুলিপি সরবরাহের প্রয়োজন না হওয়াই টিউনিংকে কম সমস্যাযুক্ত করে তুলবে (আমার তথ্যের জন্য আমার বাহ্যিকভাবে টিউনিংটি বিভক্ত করতে হবে কারণ সত্যিকারের মামলার একাধিক পরিমাপের সাথে আমার "শ্রেণিবদ্ধ" ডেটা কাঠামো রয়েছে) )
সিবিলেটরা SX

@cbeiteles যখন কোনও দৃষ্টান্ত একাধিক শ্রেণীর অন্তর্ভুক্ত হতে পারে তবে আপনাকে প্রকৃতপক্ষে এটি একাধিকবার সরবরাহ করতে হবে, এমনকি এই উদাহরণটি ওজন সহ। আমি সেই সম্ভাবনা বিবেচনা করি নি।
মার্ক ক্লিসেন

6

এটি শ্রেণিবিন্যাসের একটি সাধারণীকরণ যা আধা তত্ত্বাবধানে শিক্ষায় দক্ষ হয়। আপনার যদি নির্দিষ্টতার পরিমাপ থাকে তবে আপনি এমন পদ্ধতির ব্যবহার করতে পারেন যা প্রশিক্ষণের উদাহরণগুলিকে ওজন করতে দেয়। তত বেশি নিশ্চিত হওয়া, এর সাথে সম্পর্কিত ওজন তত বেশি। এই জাতীয় পদ্ধতির উদাহরণগুলির মধ্যে উদাহরণস্বরূপ-ভারিত এসভিএম এবং লজিস্টিক রিগ্রেশন অন্তর্ভুক্ত রয়েছে।

আমি নিশ্চিত ওয়েকার এই অ্যালগোরিদমগুলির বাস্তবায়ন আছে। অন্য সব কিছু যদি ব্যর্থ হয় তবে উচ্চ সুনির্দিষ্টতার সাথে দৃষ্টান্তগুলি থেকে একাধিক উদাহরণ স্যাম্পল করুন। আপনি এই পদ্ধতিটি traditionalতিহ্যগত এসভিএম বা এলআর এর জন্য ব্যবহার করতে পারেন।

উদাহরণ: এসভিএম

যদি আমার ভুল না হয় তবে ওয়েকের এলআইবিএসভিএম-এর ইন্টারফেস রয়েছে । এলআইবিএসভিএম আপনাকে তার সমস্ত রিলিজে শ্রেণি-ভারিত এসভিএম এবং প্রতিটি রিলিজের বিশেষ সংস্করণগুলিতে উদাহরণস্বরূপ - ভারী এসভিএম সমাধান করতে দেয়। আমি ধরে নেব যে ওয়েকা পরেরটি সমর্থন করে না (যা আপনার প্রয়োজন তা)।

শ্রেণিবদ্ধ ভারী এসভিএম নিম্নলিখিত উদ্দেশ্য ফাংশনটি হ্রাস করে: সঙ্গে বৈশিষ্ট্য স্থান পৃথক hyperplane, স্ল্যাক ভেরিয়েবলগুলি (যা মডেল প্রশিক্ষণের ভুল সংশোধন) এবং যথাক্রমে ধনাত্মক এবং নেতিবাচক শ্রেণীর অন্তর্ভুক্ত সমর্থন ভেক্টরগুলির সেট এবং । এবং the ওজন ব্যবহার করে আপনি ক্লাসগুলির মধ্যে বিভিন্ন বিভ্রান্তিকর জরিমানা নির্ধারণ করতে পারেন।

minw,ξw2+CposiPξi+CnegiNξi,
wξPNCposCneg

আপনার প্রশ্নের ভিত্তিতে, দেখে মনে হচ্ছে আপনি আদর্শভাবে 6 টি আলাদা ওজন (2 শ্রেণি 3 নিশ্চিততার স্তর) ব্যবহার করতে চান। উচ্চ সুনিশ্চিততার সাথে পয়েন্টগুলির নমুনাগুলি নকল করে আপনি অনেকগুলি পদ্ধতির জন্য এটি অর্জন করতে পারেন।×

উদাহরণস্বরূপ, এসভিএমের ক্ষেত্রে, একই ডেটা ইনস্ট্যান্সটি দু'বার ব্যবহার করা এর সাথে সম্পর্কিত মান দ্বিগুণ করার জন্য একটি অভিন্ন সমাধান দেয় । নির্দিষ্ট ডেটা দৃষ্টান্তগুলিতে উচ্চতর বিযুক্তি জরিমানা নির্ধারণের এটি খুব সহজ উপায়। আপনি লজিস্টিক রিগ্রেশন জন্য একই পদ্ধতি অনুসরণ করতে পারেন।C


(+1) এটি! বিভিন্ন লেবেল এবং উদাহরণের ওজনগুলির সাথে উদাহরণগুলি নকল করে (ওরফে লেবেল নিশ্চিততা), কেউ এলোমেলোথ যেমন র্যান্ডম ফরেস্টস, নাইভ বেইস ইত্যাদি প্রয়োগ করতে পারে Inst উদাহরণের ওজন এত সাধারণ, ওয়েকা এটির সমর্থকরা থাকতে পারে have র‌্যাপিডমিনিয়ার (ওয়েকার প্রতিযোগী) করেন। 1-তে নিশ্চিতকরণ সেট করে, কেউ "খাস্তা" মাল্টি-লেবেল-সমস্যাগুলিও মডেল করতে পারে।
স্টিফেন

আপনি সঠিক, WEKA LIBSVM সমর্থন করে, কিন্তু উদাহরণ ওজন সমর্থন করে না, আফাক। উদাহরণগুলি নকল করার ধারণাটি খুব ভাল, আমি মনে করি, বিশেষত কারণ প্রতিটি "traditionalতিহ্যবাহী" শিক্ষার্থী এটি মোকাবেলা করতে পারে।
wnstnsmth

2

সমস্যাটির সমস্যাটি অনিশ্চিত লেবেলগুলি কতটা ভুল হতে পারে তার উপর নির্ভর করে। যদি অনিশ্চিত লেবেলগুলি সঠিক থাকে তবে বলুন, 90% সময়, আপনি সম্ভবত কেবলমাত্র লজিস্টিক রিগ্রেশন ব্যবহার করে পালিয়ে যেতে পারেন। অন্যদিকে, লেবেলগুলি প্রায় অর্ধেক সময় ভুল হলে আপনাকে কিছু বিশেষ কৌশল অবলম্বন করতে হতে পারে। এখানে একটি ছুরিকাঘাত আমি খুব অনুরূপ সমস্যা নিয়েছিলাম। (আমাদের প্রতি লেবেল একাধিক পর্যবেক্ষণ ছিল, তবে অন্যথায় সেটআপটি বেশ অনুরূপ))


-5

আমি চিত্র স্বীকৃতি এবং শ্রেণিবিন্যাস সঙ্গে একটি সংক্ষিপ্ত রান ছিল।

র্যান্ডম অরণ্য একটি কৌশল ব্যবহার করা সহজ। আমি এটি আর তে প্রয়োগ করেছি, এটি ওয়েকার উপরও পাওয়া উচিত। সহজেই ব্যবহারের ট্রাম্পস পূর্বাভাসের নির্ভুলতা। আপনার যদি যথেষ্ট পরিমাণে প্রশিক্ষণের সেট থাকে তবে এটি একাধিক লেবেল শ্রেণিবদ্ধ করতে পারে।

এটি হস্তাক্ষর ডিজিটগুলি বেশ ভালভাবে চিনতে কাজ করেছিল, তবে যদি আপনার চিত্রগুলি আরও জটিল হয় তবে কেবল একটি পরীক্ষা আপনাকে বলবে এটি ভাল হয় কিনা।


4
এটি অনিশ্চিত শ্রেণীর লেবেলগুলির সাথে কী করেছে?
wnstnsmth
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.