শ্রেণিবিন্যাস সম্ভাবনার প্রান্তিকতা


49

আমার সাধারণভাবে শ্রেণিবিন্যাস সম্পর্কিত একটি প্রশ্ন আছে। চ শ্রেণিবদ্ধ হতে দিন, যা কিছু তথ্য ডি প্রদত্ত সম্ভাবনার সংকলনকে আউটপুট দেয় সাধারণভাবে, কেউ বলবে: ভাল, যদি পি (সি | ডি)> ০.০, আমরা একটি শ্রেণি নির্ধারণ করব, অন্যথায় 0 (এটি বাইনারি হতে দিন) শ্রেণীবিন্যাস)।

আমার প্রশ্নটি হ'ল আমি যদি জানতে পারি যে আমি যদি 1 হিসাবেও সম্ভাব্যতাগুলি শ্রেণীবদ্ধ করি তবে এর চেয়ে বড়: 0.2, শ্রেণিবদ্ধি আরও ভাল অভিনয় করে। শ্রেণিবিন্যাস করার পরে কি এই নতুন প্রান্তিক ব্যবহারটি বৈধ?

আমি আরও কম সংকেত নির্গমনকারী ডেটা প্রসঙ্গে আবদ্ধ নিম্ন শ্রেণিবিন্যাসের প্রয়োজনীয়তার ব্যাখ্যা করব; শ্রেণিবিন্যাস সমস্যার জন্য এখনও তাত্পর্যপূর্ণ।

আমি বুঝতে পারি এটি এটি করার একটি উপায়, তবুও যদি এটি সঠিকভাবে চিন্তা না করে থাকে তবে এমন কিছু ডেটা ট্রান্সফর্মেশন কী হবে, যা পৃথক বৈশিষ্ট্যগুলিকে অনুরূপভাবে জোর দেয়, যাতে প্রান্তিকটি 0.5 এ থাকতে পারে?


8
আপনার ইতিমধ্যে কিছু চমত্কার উত্তর রয়েছে, সুতরাং আমাকে কেবল এটি বলতে দাও: আপনার "সাধারণত" কোনও সাধারণভাবে নয় যা সাধারণ হওয়া উচিত। আমি নিশ্চিত নই যে "০.০ এ প্রান্তিকের" জিনিসটি কোথায় স্ট্যান্ডার্ড হয়ে গেছে, এবং আমি জানি কিছু আছে, অন্যথায় দুর্দান্ত, সফ্টওয়্যার যা ধারণাটিকে উত্সাহ দেয়, তবে এটি সাধারণভাবে খুব খারাপ অভ্যাস।
ম্যাথু ড্রুরি

1
@ ম্যাথড্রুরি: যদি না, অবশ্যই স্কোরটি কোনও গুরুত্বপূর্ণ ভুল না করার যথাযথ ক্যালিব্রেটেড প্রাসঙ্গিক সম্ভাবনা (পরবর্তীকালে বিভিন্ন শ্রেণিবদ্ধকরণের যত্ন নেওয়া হবে)।
সিবিলেটগুলি

উত্তর:


68

ফ্রাঙ্ক হ্যারেল তার ব্লগে এই সম্পর্কে লিখেছেন: শ্রেণিবদ্ধকরণ বনাম পূর্বাভাস , যা আমি আন্তরিকভাবে একমত।

মূলত, তার যুক্তিটি হ'ল আপনার অনুশীলনের পরিসংখ্যানগত উপাদানটি শেষ হয় যখন আপনি আপনার নতুন নমুনার প্রতিটি শ্রেণির জন্য সম্ভাব্যতা আউটপুট করেন। একটি থ্রোসোল্ড যা ছাড়িয়ে আপনি 1 টি বনাম 0 হিসাবে একটি নতুন পর্যবেক্ষণকে শ্রেণিবদ্ধ করেন তা বেছে নেওয়া আর কোনও পরিসংখ্যানের অংশ নয় । এটি সিদ্ধান্তের অংশ। এবং এখানে, আপনার আপনার মডেলের সম্ভাব্য আউটপুট প্রয়োজন - তবে বিবেচনাগুলি যেমন:

  • নতুন পর্যবেক্ষণকে ক্লাস 1 বনাম 0 হিসাবে বিবেচনা করার সিদ্ধান্ত নেওয়ার পরিণতিগুলি কী? তারপরে আমি কি সমস্ত 1 এস-তে কোনও সস্তা বিপণন মেল পাঠাচ্ছি? বা আমি বড় ধরনের পার্শ্ব প্রতিক্রিয়া সহ আক্রমণাত্মক ক্যান্সার চিকিত্সা প্রয়োগ করব?
  • "সত্য" 0 হিসাবে 1 হিসাবে বিবেচনা করার পরিণতিগুলি এবং তার বিপরীতে কী কী? আমি কি কোনও গ্রাহককে টিক চিহ্ন দেব? অপ্রয়োজনীয় মেডিকেল চিকিত্সা কারও সাপেক্ষে?
  • আমার "ক্লাস" কি সত্যই বিযুক্ত? বা আসলে কি কোনও ধারাবাহিকতা রয়েছে (যেমন, রক্তচাপ), যেখানে ক্লিনিকাল থ্রেশহোল্ডগুলি বাস্তবে কেবল জ্ঞানীয় শর্টকাট হয়? যদি তা হয়, তবে আমি এখন "শ্রেণিবদ্ধ" করছি তার দোরগোড়ায় কতটা দূরে ?
  • বা ক্লাস 1 হওয়ার নিম্ন-কিন্তু-ইতিবাচক সম্ভাবনা বলতে আসলে "আরও ডেটা পান", "অন্য পরীক্ষা চালানো" বোঝায়?

সুতরাং, আপনার প্রশ্নের উত্তর দেওয়ার জন্য: আপনার শ্রেণিবদ্ধকরণের শেষ গ্রাহকের সাথে কথা বলুন এবং উপরের প্রশ্নগুলির উত্তরগুলি পান। বা আপনার সম্ভাব্য আউটপুট তাকে বা তার কাছে ব্যাখ্যা করুন এবং তার বা তাকে পরবর্তী পদক্ষেপগুলি দিয়ে যেতে দিন।


1
এই অন্তর্দৃষ্টিপূর্ণ উত্তরের জন্য আপনাকে অনেক ধন্যবাদ। আমি নিজেই আরও সমস্যাটি অধ্যয়ন করব - আমি নিশ্চিত আমি এই সম্পত্তিটি কোনওভাবেই পরিসংখ্যানগত শিক্ষার অংশে রূপান্তর করতে পারি।
sdgaw erzswer

বাহ, কামনা আমি এতে কিছু যুক্ত করতে পারতাম তবে কিছুই পেলাম না, অসামান্য উত্তর!
The_SJC

4
খুব ভাল উত্তর: প্রশ্নগুলি স্পট অন! যাইহোক, আমার পেশা আবেদনের পক্ষে রয়েছে, সিদ্ধান্তের দ্বার খোঁজকে স্ট্যাটিস্টোল্ড বলা হয় বা না - এটি আমার পেশাগত দায়িত্বের মধ্যে পুরোপুরি পড়ে ... এবং আমার কাছে এটি "প্রাক-প্রসেসিং" এর মতো মডেলের অংশ is মডেল - সেই কারণে যে সমস্ত সিদ্ধান্তগুলি বৈধকরণ প্রক্রিয়াতে আচ্ছাদন করা দরকার।
সিবিলেটগুলি 21:49

11

স্টিফানের উত্তর দুর্দান্ত। এটি শ্রেণিবদ্ধের সাথে আপনি কী করতে চান তা মৌলিকভাবে নির্ভর করে।

মাত্র কয়েকটি উদাহরণ যুক্ত করছি।

সর্বোত্তম প্রান্তিকের সন্ধান করার একটি উপায় হ'ল উদ্দেশ্যমূলক ক্রিয়াটি সংজ্ঞায়িত করা। বাইনারি শ্রেণিবিন্যাসের জন্য, এটি উদাহরণস্বরূপ নির্ভুলতা বা এফ 1-স্কোর হতে পারে। আপনি যা বেছে নিচ্ছেন তার উপর নির্ভর করে সেরা প্রান্তিকতা আলাদা হবে। এফ 1-স্কোরের জন্য, এখানে একটি আকর্ষণীয় উত্তর রয়েছে: F1 অনুকূল থ্রেশহোল্ড কী? কিভাবে এটি গণনা? । তবে "আমি এফ 1-স্কোর ব্যবহার করতে চাই" বলাই হ'ল আপনি যেখানে পছন্দটি করেছেন। এই পছন্দটি ভাল কিনা তা চূড়ান্ত উদ্দেশ্যে নির্ভর করে।

এটি দেখার আরেকটি উপায় অন্বেষণ এবং শোষণের মধ্যে বাণিজ্য বন্ধের মুখোমুখি হচ্ছে (স্টিফানের শেষ পয়েন্ট): বহু-সশস্ত্র ডাকাত এই জাতীয় সমস্যার উদাহরণ: আপনাকে তথ্য অর্জন এবং সর্বোত্তম দস্যু চয়ন করার জন্য দুটি বিতর্কিত উদ্দেশ্য মোকাবেলা করতে হবে । একটি বেয়েশিয়ার কৌশল হ'ল প্রতিটি ডাকাতকে এলোমেলোভাবে বেছে নেওয়া সম্ভাব্যতার সাথে এটি সর্বোত্তম। এটি হুবহু শ্রেণিবিন্যাস নয় তবে একইভাবে আউটপুট সম্ভাব্যতাগুলির সাথে ডিল করা।

শ্রেণিবদ্ধকারী যদি অ্যালগরিদম সিদ্ধান্ত গ্রহণের ক্ষেত্রে কেবল একটি ইট হয় তবে সর্বোত্তম প্রান্তিকতাটি অ্যালগরিদমের চূড়ান্ত উদ্দেশ্যে নির্ভর করবে। পুরো প্রক্রিয়াটির উদ্দেশ্যমূলক কার্যক্রমে এটি মূল্যায়ন ও সুর করা উচিত।


আর একটি দুর্দান্ত উত্তরের জন্য আপনাকে ধন্যবাদ। যদি আমি সঠিকভাবে বুঝতে পারি, যদি আমি পাইপলাইনের চূড়ান্ত পদক্ষেপের সাথে কাজ করে যাচ্ছি তবে সরাসরি প্রান্তিকভাবে অনুকূলিত হওয়া সম্পূর্ণ বৈধ।
sdgaw erzswer

@ এসডগাওয়ারজার্স: হ্যাঁ এবং ক) আপনি সঠিক প্রশ্নের উত্তর অনুকূলিত করে নিন এবং খ) নিশ্চিত হয়ে নিন যে আপনি সিদ্ধান্তটি (এবং প্রান্তিক সন্ধান) বাকি মডেলের সাথে একত্রিত করেছেন।
সিবিলেটগুলি 21:51

3

সম্ভাবনাটি কীভাবে গণনা করা হয় তা বিবেচনা করার ক্ষেত্রে সম্ভবত কিছু মান রয়েছে। আজকাল ক্লাসিফায়াররা একটি পক্ষপাতী ভেক্টর ব্যবহার করে, যা ম্যাট্রিক্স (লিনিয়ার বীজগণিত) দ্বারা গুণিত হয়। যতক্ষণ না ভেক্টরে কোনও শূন্য-মান থাকে, সম্ভাবনা (ভেক্টরের পণ্য এবং ম্যাট্রিক্স) কখনই 0 হবে না।

আমার ধারণা, লিনিয়ার বীজগণিত গ্রহণ করেনি এমন লোকদের আসল বিশ্বে এটি বিভ্রান্তির সৃষ্টি করে। তারা 0 টি হওয়া উচিত বলে মনে করে যে আইটেমগুলির জন্য সম্ভাব্যতা স্কোর রয়েছে তা নিয়ে তারা বিরক্ত হয় অন্য কথায়, তারা ইনপুট ভিত্তিক সিদ্ধান্ত থেকে স্ট্যাটিস্টিকাল ইনপুটকে বিভ্রান্ত করছে। মানুষ হিসাবে, আমরা বলতে পারি যে 0.0002234 এর সম্ভাব্যতাযুক্ত কিছু 0 এর মতোই, বেশিরভাগ "ব্যবহারিক" ব্যবহারের ক্ষেত্রে। উচ্চতর জ্ঞানীয় বিজ্ঞান আলোচনায়, সম্ভবত, পক্ষপাতিক ভেক্টর কেন এটি করে বা তার পরিবর্তে জ্ঞানীয় অ্যাপ্লিকেশনগুলির জন্য এটি বৈধ তা সম্পর্কে একটি আকর্ষণীয় আলোচনা রয়েছে।


2

কোনও ভুল প্রান্তিকতা নেই। আপনি যে প্রান্তিক স্তরটি বেছে নিয়েছেন তা আপনার পূর্বাভাসের উপর নির্ভর করে বা আপনি কী পছন্দ করতে চান তার উপর নির্ভর করে, উদাহরণস্বরূপ যথার্থতা বনাম পুনর্বিবেচনা (আপনার পছন্দের বিভিন্ন শ্রেণিবদ্ধকরণের মডেলগুলির তুলনা করার জন্য এটি গ্রাফ করার চেষ্টা করুন এবং এর সাথে সম্পর্কিত এওসি পরিমাপ করুন)।

যথাযথ বনাম পুনরুদ্ধারের এই উদাহরণটি আমি দিচ্ছি, কারণ আমার নিজের সমস্যার ক্ষেত্রে আমি এখনই কাজ করছি, আমি ন্যূনতম নির্ভুলতার (বা পিপিভি পজিটিভ প্রেডিকটিভ ভ্যালু) উপর নির্ভর করে আমার প্রান্তিক পছন্দটি বেছে নিয়েছি, আমার ভবিষ্যতবাণী করার সময় আমার মডেলটি পেতে চাই তবে আমি নেতিবাচক সম্পর্কে খুব যত্ন করবেন না। যেমন আমি যখন আমার মডেলকে প্রশিক্ষণ দিয়েছি তখন প্রান্তিকতাটি চাই যা প্রযোজ্য নির্ভুলতার সাথে মিলে যায়। যথার্থতা আমার সীমাবদ্ধতা এবং আমি অন্য শ্রেণিবদ্ধকরণের মডেলগুলির সাথে তুলনা করি, তখন আমার মডেলটির পারফরম্যান্স হ'ল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.