একটি মুদ্রা উল্টিয়ে ক্লাসিফায়ারের সংমিশ্রণ করা


15

আমি একটি মেশিন লার্নিং কোর্স অধ্যয়ন করছি এবং লেকচার স্লাইডগুলিতে এমন তথ্য রয়েছে যা আমি প্রস্তাবিত বইয়ের সাথে বিরোধিতা পাই।

সমস্যাটি নিম্নলিখিত: তিনটি শ্রেণিবদ্ধ রয়েছে:

  • শ্রেণিবদ্ধ একটি থ্রেশহোল্ডগুলির নিম্ন সীমার মধ্যে আরও ভাল পারফরম্যান্স সরবরাহ করে,
  • শ্রেণিবদ্ধ বি প্রান্তিকের উচ্চতর পরিসরে আরও ভাল কর্মক্ষমতা সরবরাহ করে,
  • শ্রেণিবদ্ধ সি আমরা একটি পি-কয়েন উল্টিয়ে এবং দুটি শ্রেণিবদ্ধ থেকে নির্বাচন করে কী পাই।

একটি আরওসি বক্ররেখা হিসাবে শ্রেণিবদ্ধ সি এর কর্মক্ষমতা কেমন হবে?

লেকচারের স্লাইডগুলিতে উল্লেখ করা হয়েছে যে এই মুদ্রাকে উল্টিয়ে আমরা শ্রেণিবদ্ধ এ এবং বি এর আরওসি বক্ররেখার যাদুকরী " উত্তল হাল " পেতে যাচ্ছি ।

আমি এই বিষয়টি বুঝতে পারি না। কেবল একটি মুদ্রা উল্টিয়ে আমরা কীভাবে তথ্য অর্জন করতে পারি?

বক্তৃতা স্লাইড

বক্তৃতা স্লাইড

বই কি বলে

অন্যদিকে প্রস্তাবিত বই ( ডেটা মাইনিং ... আয়ান এইচ। উইটেন, আইবে ফ্র্যাঙ্ক এবং মার্ক এ। হল ) লিখেছেন যে:

এটি দেখতে, পদ্ধতি A এর জন্য একটি নির্দিষ্ট সম্ভাবনার কাটফট চয়ন করুন যা যথাক্রমে টিএ এবং এফএর সত্য এবং মিথ্যা ধনাত্মক হার দেয় এবং বি বি এবং এফবি দেয় এমন পদ্ধতি বিয়ের জন্য আরও একটি কাটঅফ বেছে নিন। আপনি যদি সম্ভাব্যতা p এবং q এর সাথে এলোমেলোভাবে এই দুটি স্কিম ব্যবহার করেন, যেখানে p + q = 1, তবে আপনি পি এর সত্য এবং মিথ্যা ধনাত্মক হার পাবেন। tA + q। টিবি এবং পি। এফএ + কিউ। FB। এটি পয়েন্ট (টিএ, এফএ) এবং (টিবি, এফবি) যোগ করে সোজা রেখার উপর অবস্থিত একটি বিন্দুর প্রতিনিধিত্ব করে এবং পি এবং কিউ পরিবর্তিত করে আপনি এই দুটি পয়েন্টের মধ্যে পুরো লাইনটি বের করতে পারেন।

আমার বোধগম্যতার সাথে বইটি যা বলেছে তা হ'ল আসলে তথ্য অর্জন করতে এবং উত্তল হলের কাছে পৌঁছানোর জন্য আমাদের কেবল পি-কয়েন উল্টানোর চেয়ে আরও উন্নত কিছু করা দরকার।

আফাইক, সঠিক উপায় (বইয়ের পরামর্শ অনুসারে) নিম্নলিখিত:

  1. শ্রেণিবদ্ধ A এর জন্য আমাদের সর্বোত্তম প্রান্তিক ওয়া খুঁজে পাওয়া উচিত
  2. শ্রেণিবদ্ধ বি এর জন্য আমাদের একটি সর্বোত্তম প্রান্তিক ওব খুঁজে পাওয়া উচিত
  3. সি হিসাবে নিম্নলিখিত হিসাবে সংজ্ঞায়িত:

    • যদি টি <ওআ, টি দিয়ে শ্রেণিবদ্ধ A ব্যবহার করুন
    • যদি টি> ওব, টি সহ শ্রেণিবদ্ধ বি ব্যবহার করুন
    • যদি ওএ <টি <ওব, আমরা ওএ এবং ওব এর মধ্যে যেখানে আছি তার একটি রৈখিক সংমিশ্রণ হিসাবে সম্ভাব্যতার দ্বারা ওএ এবং বি এর সাথে শ্রেণীবদ্ধ A এর মধ্যে বেছে নিন।

এটা কি সঠিক? যদি হ্যাঁ, স্লাইডগুলির পরামর্শের তুলনায় কয়েকটি মূল পার্থক্য রয়েছে।

  1. এটি কোনও সাধারণ মুদ্রা উল্টানো নয়, বরং একটি আরও উন্নত অ্যালগরিদম যার জন্য ম্যানুয়ালি সংজ্ঞায়িত পয়েন্ট দরকার হয় এবং আমরা কোন অঞ্চলে পড়ি তার উপর ভিত্তি করে বেছে নেওয়া হয়।
  2. এটি কখনই ওএ ও ওবের মধ্যে প্রান্তিক মান সহ শ্রেণিবদ্ধ A এবং B ব্যবহার করে না।

আপনি কি আমাকে এই সমস্যাটি ব্যাখ্যা করতে পারেন এবং এটি বোঝার সঠিক উপায় কী , যদি আমার বোঝাটি সঠিক না হত?

স্লাইডগুলির পরামর্শ মতো আমরা কেবল একটি পি-কয়েন উল্টাতে চাইলে কী হবে? আমি ভাবব যে আমরা একটি আরওসি বক্ররেখা পেতে চাই যা এ এবং বি এর মধ্যে থাকে তবে কোনও নির্দিষ্ট বিন্দুতে এর চেয়ে ভাল কখনই "ভাল" হতে পারে না।

আমি যতদূর দেখতে পাচ্ছি, কীভাবে স্লাইডগুলি সঠিক হতে পারে তা আমি সত্যিই বুঝতে পারি না। বাম দিকে সম্ভাব্য গণনা আমার কাছে তা বোঝায় না।

আপডেট: মূল লেখকের লেখা নিবন্ধটি পাওয়া গেছে যিনি উত্তল হাল পদ্ধতিটি আবিষ্কার করেছিলেন: http://www.bmva.org/bmvc/1998/pdf/p082.pdf


আপনার পোস্ট করা স্লাইড এবং বইয়ের উদ্ধৃতি উভয়ই আমার পড়া থেকে তারা মনে হয় ঠিক একই জিনিসটি বর্ণনা করছে এবং স্লাইডগুলি ত্রুটিযুক্ত নয়।
কার্ডিনাল

দ্রষ্টব্য যে স্লাইডে বর্ণিত সত্যকে নিজেকে বোঝানোর জন্য একটি সিমুলেশন তৈরি করা খুব বেশি কঠিন নয়। আপনার কেবলমাত্র অসুবিধা হ'ল দুটি আরওসি বক্ররেখাগুলি নির্মাণ করা যা মোটামুটি এর মতো দেখতে পাওয়া যায় তবে এটি পরিচালনাযোগ্য, বলুন পর্যবেক্ষণগুলি তৈরি করার জন্য কোনও গাউসীয় মিশ্রণ মডেল ব্যবহার করে এবং কিছু সাব-আপিমাল সিদ্ধান্ত নীতিগুলি।
কার্ডিনাল

উত্তর:


12

(সম্পাদিত)

বক্তৃতার স্লাইডগুলি সঠিক।

পদ্ধতি এ এর ​​একটি "অনুকূল পয়েন্ট" রয়েছে যা যথাক্রমে সত্য এবং মিথ্যা ধনাত্মক হার দেয় (গ্রাফে টিপিএ, এফপিএ)। এই পয়েন্টটি একটি প্রান্তিকের সাথে মিলবে বা আরও সাধারণভাবে [*] এ এর ​​জন্য অনুকূল সিদ্ধান্তের সীমানা বি এর জন্য একই রকম হয় (তবে প্রান্তিকতা এবং সীমানা সম্পর্কিত নয়)।

দেখা গেছে যে শ্রেণিবদ্ধকারী এ যখন "" সত্যিকারের ইতিবাচককে সর্বাধিকীকরণ করতে "(আগ্রহী কৌশল) পছন্দ করেন তখন" মিথ্যা ধনাত্মককে ছোট করুন "(রক্ষণশীল কৌশল) এবং শ্রেণিবদ্ধ বিয়ের পছন্দ অনুসারে দুর্দান্ত পরিবেশনা করেন।

আপনার প্রথম প্রশ্নের উত্তরটি মূলত হ্যাঁ, মুদ্রার সম্ভাবনাটি (এক অর্থে) নির্বিচারে। চূড়ান্ত ক্লাসিফায়ারটি হ'ল:

xxp

(সংশোধন করা হয়েছে: আসলে, বক্তৃতাগুলি সম্পূর্ণ সঠিক, আমরা যে কোনও ক্ষেত্রে কেবল মুদ্রাটি ফ্লিপ করতে পারি dia চিত্র দেখুন)

p

[*] আপনার এখানে সাধারণ হওয়া উচিত: আপনি যদি একটি একক স্কেলারের প্রান্তিকের দিক থেকে মনে করেন, তবে এগুলি কিছুটা বোঝায় না; একটি চৌম্বক-ভিত্তিক শ্রেণিবদ্ধের সাথে একটি মাত্রিক বৈশিষ্ট্য আপনাকে এ এবং বি হিসাবে আলাদা আলাদা শ্রেণীবদ্ধ করার জন্য পর্যাপ্ত স্বাধীনতা দেয় না, যখন মুক্ত প্যারামেন্টারগুলি (সিদ্ধান্তের সীমানা = প্রান্তিক) পরিবর্তিত হয় তখন বিভিন্ন বক্ররেখার সাথে সম্পাদন করে forms অন্য কথায়: এ এবং বি কে "পদ্ধতি" বা "সিস্টেম" বলা হয়, "শ্রেণিবদ্ধ" নয়; কারণ এ হ'ল একটি শ্রেণিবদ্ধের পুরো পরিবার, কিছু প্যারামিটারের দ্বারা প্যারামিটারাইজড (স্কেলার) যা সিদ্ধান্তের সীমা নির্ধারণ করে, কেবল একটি স্কেলার নয়]

এটিকে আরও স্পষ্ট করতে আমি কয়েকটি চিত্র যুক্ত করেছি:

এখানে চিত্র বর্ণনা লিখুন

ttttA=2ttB=4

এই দৃশ্যে, তখন কেউ বলতে পারেন যে পূর্ণ কমলা রেখাটি হ'ল "অনুকূল একটি শ্রেণিবদ্ধ" (এটি তার পরিবারের অভ্যন্তরে), এবং বি এর ক্ষেত্রে একই But আমরা যখন ভুয়া ধনাত্মকগুলিকে উচ্চ ব্যয় নির্ধারণ করি তখন আরও ভাল, অন্যটি যখন মিথ্যা sণাত্মক হয় বেশি ব্যয়বহুল।

এখানে চিত্র বর্ণনা লিখুন

এখন, এটি ঘটতে পারে যে এই দুটি শ্রেণিবদ্ধকারীগুলি আমাদের প্রয়োজনের জন্য অত্যন্ত চূড়ান্ত, আমরা চাই যে উভয় ধরণের ত্রুটি একই রকম ওজনযুক্ত। আমরা তাদের মধ্যে পারফরম্যান্স অর্জনের জন্য শ্রেণিবদ্ধ A (কমলা বিন্দু) বা বি (নীল বিন্দু) ব্যবহার না করে পছন্দ করব। অবশ্যই বলা যায় যে, কেউ কেবল একটি মুদ্রা উল্টিয়ে এবং এলোমেলোভাবে শ্রেণিবদ্ধীদের মধ্যে একটি চয়ন করে ফলাফল অর্জন করতে পারে।

কেবল একটি মুদ্রা উল্টিয়ে, কীভাবে আমরা তথ্য অর্জন করতে পারি?

আমরা তথ্য অর্জন করি না। আমাদের নতুন এলোমেলোনা শ্রেণিবদ্ধকারী এ বা বি এর তুলনায় কেবল "ভাল" নয়, এটির পারফরম্যান্স এ এবং বি এর গড় ক্রমান্বয়ে, প্রতিটি ধরণের ত্রুটির জন্য নির্ধারিত ব্যয়ের ক্ষেত্রে কী পরিমাণ বিবেচনা করা হয়। আমাদের ব্যয়গুলি কিসের উপর নির্ভর করে তা আমাদের পক্ষে উপকারী হতে পারে না।

আফাইক, সঠিক উপায় (বইয়ের পরামর্শ অনুসারে) নিম্নলিখিতটি ... এটি কি সঠিক?

p


@ লেওনবয় আমি বিশ্বাস করি যে এক্সটি একটি প্রান্তিক এবং এক্স শ্রেণিবদ্ধের স্বল্প মানের জন্য এ সবচেয়ে ভাল কাজ করে। এক্স শ্রেণিবদ্ধের উচ্চ মানের জন্য বি সবচেয়ে ভাল কাজ করে। সর্বোপরি আমি প্রদত্ত মিথ্যা ধনাত্মক হারের অর্থ সত্য ধনাত্মক হার সর্বাধিক। যদি আমরা কেবল জানি যে এগুলি একক বিন্দু পর্যন্ত সর্বোত্তমভাবে কাজ করে যেখানে তারা উপরের সমস্ত প্রান্তিকের জন্য ক্রস করে এবং বি তারপরে যে সমস্ত এলগরিদম এফপিএ এবং এফপিবির মধ্যবর্তী অঞ্চলে 1 থেকে A এর চেয়ে কম ওজন দেয় যেখানে A উচ্চতর টিপি করতে পারে না পাশাপাশি এ। সুতরাং এই জাতীয় একটি অ্যালগরিদম সি সেই অঞ্চলে এ এর ​​নীচে পড়তে হবে।
মাইকেল আর চেরনিক

তেমনি FPa এবং FPb এর মধ্যে যে অঞ্চলে TP B এর চেয়ে বেশি নয়, p এর চেয়ে বড় অ্যালগরিদম B এর চেয়ে বেশি ভাল সম্পাদন করবে TPc এর সূত্রটি সঠিক তবে TPb এবং TPa এর মধ্যে একটি নির্দিষ্ট ওজন গড় TPa এর চেয়ে বড় হতে পারে না এবং টিপিবি। এটা তাদের মধ্যে পড়তে হবে। তবে চিত্রটি সর্বদা এফপিএ এবং এফপিবি থেকে অঞ্চলজুড়ে টিপিসি এবং টিপিবির উপরে টিপিসি দেখায়। আপনি কি এখানে কিছু দেখছেন যা আমরা অনুপস্থিত? আপনার উত্তরে আমি এটি পাই না।
মাইকেল আর চেরনিক

1
ঠিক আছে লাইট বাল্ব চলে গেল! এক্স আপনার স্কেলারের প্রান্তিকের চেয়ে ভেক্টর। সত্যিই কি কিছু পরিবর্তন হয়? এফপি আইসিস একটি স্কেলারের সম্ভাবনা। আমার ক্রসিং পয়েন্ট হ'ল এ এবং বি এর সমতার এফপি পয়েন্ট হ'ল অনেক ভেক্টর এক্স থাকতে পারে যা এটির দিকে নিয়ে যায়। আমি কেবল এটিই বলছি যে কোনও সময়ে এফপি এবং এফপিবির মধ্যে এফপি অক্ষ বরাবর। টিপিসি = পি টিপিএ + (1-পি) টিপিবি। প্লটের লাইনটি টিপি বনাম এফপি বিমানে রয়েছে। ওপেন প্রশ্ন (যেমন আমি সঠিকভাবে মনে করি) জিজ্ঞাসা করে যে লাইনটি A এবং B উভয়ের জন্য বক্ররেখার উপরের পয়েন্টগুলির মধ্য দিয়ে কীভাবে যেতে পারে?
মাইকেল আর চেরনিক

1
@ মিশেল: আমি মনে করি এ এবং বি পৃথক পদ্ধতি হিসাবে আলাদা সীমানা সিদ্ধান্ত দেয়। প্রত্যেকের একটি সমন্বয়যোগ্য প্যারামিটার থাকে (1 ডি-তে একটি প্রান্তিক কী), পরামিতিগুলি স্বতন্ত্র এবং (প্রত্যেকের জন্য) শ্রেণিবদ্ধের পরিবার দেয়। আমি স্পষ্ট করে বলার চেষ্টা করার জন্য একটি চিত্র আঁকার চেষ্টা করব।
লিওনব্লায়

1
আমি সুন্দর বর্ণনার জন্য লেওনব্লয়কে একটি উত্সাহ দিয়েছি। তবে আমি কার্ডিনালের চূড়ান্ত মন্তব্য পছন্দ করি কারণ সে যুক্তিটি আমার কাছে স্পষ্ট এবং আমার সর্বশেষ চিন্তার সাথে একমত। @ লিওব্লয় আপনার ডায়াগ্রাম থেকে একটি জিনিস অনুপস্থিত যা এলোমেলো নিয়মের জন্য বিন্দুগুলির একটি প্লট যা উভয়কেই পৃথকভাবে মারধর করে। আমার ধারণা আপনি নতুন নিয়মটিকে এমন দুটি হিসাবে বর্ণনা করতে পারেন যা দুটি ত্রুটিকে আলাদাভাবে ওজন করে তবে এটি প্রয়োজনীয় নয় এবং আপনি যদি এই যুক্তিটি ছেড়ে দেন তবে আমি কম বিভ্রান্তিকর বলে মনে করি।
মাইকেল আর চেরনিক

2

আমি আপনার যুক্তি সঙ্গে একমত। আপনি যখন পয়েন্ট A এবং B এর মধ্যে থাকেন তখন একটি বাছাইয়ের জন্য মুদ্রা দ্বারা উল্লিখিত ক্লাসিফায়ারটি যদি আপনার বক্ররেখার বিন্দুটি সর্বদা ভাল শ্রেণিবদ্ধের নীচে এবং দরিদ্রের উপরে থাকে এবং সম্ভবত উভয়ের উপরে না থাকে! ডায়াগ্রামে অবশ্যই কিছু সমস্যা আছে। যেখানে 2 টি আরওসি বক্ররেখা এলোমেলো নির্বাচন অ্যালগরিদমকে অতিক্রম করবে সেখানে দুটি অ্যালগরিদমের মতোই পারফর্মেন্স থাকবে। ডায়াগ্রামটি যেভাবে চিত্রিত করে এটি এটির উপরে থাকবে না।


1
আমি বিশ্বাস করি স্লাইডটি সঠিক। আপনি যদি দুটি পৃথক প্রান্তিকের সাথে দুটি পৃথক সিদ্ধান্ত পদ্ধতি ব্যবহার করেন এবং তারপরে একটি এলোমেলোভাবে সিদ্ধান্ত নেন, আপনি একটি উত্তল সংমিশ্রণ পাবেন যা উভয়ের মধ্যে থাকা একটি বিন্দু দেবে। এই বিন্দুটি একই মিথ্যা ধনাত্মক হারে কার্ভের ( ! ) উভয়ের উপরে হতে পারে । এটি কারণ প্রতিটি পদ্ধতির জন্য ব্যবহৃত চৌম্বকটি সেই সময়ে আলাদা।
কার্ডিনাল

1
সুতরাং উত্তল সংমিশ্রণের A এবং B এ এবং বি থেকে পৃথক যে পৃথকভাবে চয়ন করা হয় সেই মিথ্যা ধনাত্মক হারে। আমি কেবল মনে করি চিত্রটি বিভ্রান্তিকর ছিল কারণ আমি দেখতে পাইনি যে শ্রেণিবদ্ধদের পরিবার থেকে এ এবং বি নির্বাচিত হয়েছিল।
মাইকেল আর চেরনিক

1
একজনবি

আমি বিশ্বাস করি যে এই উত্তরটি সঠিক, কার্ডিনালের মন্তব্যে যুক্ত! চৌরাস্তা অঞ্চল থেকে বেরিয়ে আসতে পারে তবে এটি কোনও পদ্ধতি নয়। যে লোকটি এই পদ্ধতিটি আবিষ্কার করেছিল তার কাছ থেকে আমি মূল কাগজটি পেয়েছি এবং এটি এটি খুব ভালভাবে ব্যাখ্যা করেছে! bmva.org/bmvc/1998/pdf/p082.pdf
হাইপারকনট

@ জেসেরো: আমি বিশ্বাস করি যে মাইকেল এমনকি উত্তর স্বীকার করবে যে উত্তরটি পোস্ট করার সময় ডায়াগ্রামের বোঝার উপর ভিত্তি করে ছিল এবং মন্তব্য এবং অন্যান্য উত্তর প্রকাশের পরে এর ব্যাখ্যাটি তার পরিবর্তিত হয়েছে। চিত্রটি যেমন চিত্রিত করে, প্রথম বক্ররেখার একটি বিন্দু এবং দ্বিতীয়টির বিন্দুর মধ্যে যে কোনও রেখার যে কোনও বিন্দু বিন্দু বিন্যাসের মাধ্যমে অর্জন করতে পারে এমনকি ফলস্বরূপ সত্য পজিটিভ হার যদি প্রদত্ত মিথ্যা ধনাত্মক হারের জন্য অন্য দুটি বক্ররেখাকে প্রাধান্য দেয়।
কার্ডিনাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.