দৃ strongly়ভাবে ভারসাম্যহীন ক্লাস সহ বাইনারি শ্রেণিবদ্ধকরণ


52

আমার কাছে একটি বৈশিষ্ট্য রয়েছে (বৈশিষ্ট্যগুলি, বাইনারি আউটপুট 0 বা 1) আকারে, তবে 1টি খুব কমই ঘটে, তাই 0 এর পূর্বে ভবিষ্যদ্বাণী করে আমি 70% থেকে 90% এর মধ্যে নির্ভুলতা পাই (আমি যে নির্দিষ্ট ডেটা দেখি তার উপর নির্ভর করে) )। এমএল পদ্ধতিগুলি আমাকে একই নির্ভুলতা সম্পর্কে দেয় এবং আমি অনুভব করি যে, এই পরিস্থিতিতে প্রয়োগের জন্য কিছু মানক পদ্ধতি থাকা উচিত, যা সুস্পষ্ট ভবিষ্যদ্বাণী বিধির তুলনায় নির্ভুলতার উন্নতি করতে পারে।


3
আমি এই নিবন্ধটি এই বিষয়টিতে
জে ও'ব্রায়ান

@ জেও ব্রায়ানআন্টোগিনি এটি একটি দুর্দান্ত নিবন্ধ!
জিনহুয়া ওয়াং

উত্তর:


30

Hxd1011 এবং ফ্র্যাঙ্ক উভয়ই সঠিক (+1)। ভারসাম্যহীন ডেটার সমস্যার আশ্বাস পাওয়ার মূলত: পুনরায় মডেলিং এবং / অথবা ব্যয় সংবেদনশীল পড়াশুনা; তৃতীয়টি কার্নেল পদ্ধতি ব্যবহার করা হয় যা ক্লাস ভারসাম্যহীনতার দ্বারা কখনও কখনও কম প্রভাবিত হতে পারে। আমাকে চাপ দিন যে কোনও রূপালী-বুলেট সমাধান নেই। সংজ্ঞা অনুসারে আপনার একটি শ্রেণি রয়েছে যা আপনার নমুনায় অপর্যাপ্তভাবে উপস্থাপিত হয়।

উপরে আমি বিশ্বাস করি যে আপনি আলগোরিদিম পাবেন বলেন মারতে লাগল এবং রোজ খুব সহায়ক। সংখ্যালঘু শ্রেণীর সিন্থেটিক উদাহরণ তৈরি করার সময় সংখ্যালঘু শ্রেণির সদস্যদের বাদ দেওয়ার জন্য SMOTE কার্যকরভাবে একটি নিকটবর্তী প্রতিবেশী পদ্ধতির ব্যবহার করে । ROSE একটি স্মুটেড বুটস্ট্র্যাপ পদ্ধতির সাহায্যে দুটি শ্রেণীর অন্তর্নিহিত বিতরণগুলির অনুমান তৈরি করার চেষ্টা করে এবং সিন্থেটিক উদাহরণগুলির জন্য সেগুলি নমুনা দেয়। উভয়ই প্যাকেজে ডিএমডাব্লুআর এবং একই নামে প্যাকেজে আরএস , এসএমটি-তে সহজেই উপলব্ধ । SMOTE এবং ROSE উভয়ই একটি প্রশিক্ষণের ডেটাসেটের ফলাফল দেয় যা মূলের চেয়ে ছোট।k

আমি সম্ভবত তর্ক করব যে ভারসাম্যহীন ডেটার ক্ষেত্রে আরও ভাল (বা কম খারাপ) মেট্রিক কোহেনেরk এবং / অথবা রিসিভার অপারেটিং বৈশিষ্ট্যযুক্ত অঞ্চলটি বক্ররেখার নীচে ব্যবহার করছে । কোহেনের কপ্পা প্রত্যাশিত নির্ভুলতার জন্য সরাসরি নিয়ন্ত্রণ করে, এটিউসিটি এটি সংবেদনশীলতা এবং নির্দিষ্টতার একটি ফাংশন হিসাবে বক্ররেখার মধ্যে বৈষম্যের প্রতি বক্ররেখা সংবেদনশীল। আবার লক্ষ করুন যে এগুলি কেবলমাত্র মেট্রিক যা লবণের একটি বড় শস্যের সাথে ব্যবহার করা উচিত। আপনার ক্ষেত্রে লাভ এবং ব্যয়ের সঠিক এবং ভুল শ্রেণিবিন্যাসের হিসাব গ্রহণ করে আপনার আদর্শভাবে সেগুলি আপনার নির্দিষ্ট সমস্যার সাথে মানিয়ে নেওয়া উচিত। আমি খুঁজে পেয়েছি যে উত্তোলন-বক্ররেখা তাকানআসলে এই বিষয়ে বরং তথ্যবহুল। আপনার মেট্রিক নির্বিশেষে আপনার অ্যালগরিদমের কার্যকারিতা মূল্যায়নের জন্য আপনার একটি পৃথক পরীক্ষা ব্যবহার করার চেষ্টা করা উচিত; ক্লাসের ভারসাম্যহীন ওভার-ফিটিংয়ের কারণে আরও বেশি সম্ভাবনা থাকে তাই নমুনা ছাড়াই পরীক্ষাটি অত্যন্ত গুরুত্বপূর্ণ।

সম্ভবত এই বিষয়ে সর্বাধিক জনপ্রিয় সাম্প্রতিক কাগজ হ'ল তিনি এবং গার্সিয়া দ্বারা ভারসাম্যহীন ডেটা শেখা । এটি আমার এবং অন্যান্য উত্তরে উত্থাপিত পয়েন্টগুলির একটি খুব সুন্দর ওভারভিউ দেয়। অতিরিক্ত হিসাবে আমি বিশ্বাস করি যে ক্যারেট প্যাকেজের অংশ হিসাবে ম্যাক্স কুহ্ন উপস্থাপিত ক্লাস ভারসাম্যহীনতার জন্য সাবসম্পলিং অন ​​ওয়াক- থ্রো হ'ল কীভাবে আন্ডার-ওভার-স্যাম্পলিংয়ের পাশাপাশি সিন্থেটিক ডেটা তৈরির পরিমাপ করতে পারে তার কাঠামোর উদাহরণ পাওয়ার জন্য একটি দুর্দান্ত উত্স is একে অপরের বিরুদ্ধে.


তৃতীয় কিছুটা জনপ্রিয় (এবং আবার খুব বেশি উপযুক্ত নয়) মেট্রিক হ'ল যথার্থ-পুনর্বিবেচনা বক্ররেখা-এর-আন্ডার-দ্য-কার্ভ। ডেভিস অ্যান্ড জেমস, ২০০ paper এর কাগজটি বিষয়টি সম্পর্কে একটি ক্লাসিক হিসাবে বিবেচনা করা হয়েছে; সিভিতেও খুব ভাল থ্রেড রয়েছে । আমি সম্প্রতি কিছুটা হ্যামি শিরোনাম সহ একটি কাগজ দেখেছি "অসম্পূর্ণ ডাটাবেসগুলিতে বাইনারি ক্লাসিফায়ারগুলি মূল্যায়ন করার সময় আরসিও প্লটের তুলনায় যথার্থ-রিক্যাল প্লটটি আরও তথ্যপূর্ণ ", যাতে কেউ এটিও পরীক্ষা করে দেখতে চান।
usεr11852

1
বিভিন্ন ডেটা পুনরায় স্যাম্পলিং কৌশলগুলির অজগর বাস্তবায়নের জন্য আমি ভারসাম্যহীন-শিখার প্যাকেজটির পরামর্শ দিই: github.com/scikit-learn-contrib/imbalanced-learn
ভাদিম স্মোকিয়াভভ

অত্যন্ত ভারসাম্যহীন শ্রেণিবিন্যাসের জন্য, AUPRC AUROC এর চেয়ে বেশি তথ্যবহুল। এই মন্তব্য হিসাবে বিশদ বিবরণ অন্তর্ভুক্ত নয়। অনেক উত্সের মধ্যে একটি এখানে রয়েছে
ঝুবার্ব

15

প্রথমত, ভারসাম্যহীন ডেটার জন্য মূল্যায়ন মেট্রিক সঠিকতা হবে না। মনে করুন আপনি জালিয়াতি সনাক্তকরণ করছেন, আপনার 99.9% ডেটা জালিয়াতি নয়। আমরা সহজেই ডামি মডেলটি তৈরি করতে পারি যা 99.9% নির্ভুলতা রয়েছে। (কেবলমাত্র সমস্ত ডেটা অ-জালিয়াতির পূর্বাভাস দিন)।

আপনি নিজের মূল্যায়ন মেট্রিককে নির্ভুলতা থেকে অন্য কোনও কিছুতে, যেমন F1 স্কোর বা যথার্থতা এবং পুনর্বিবেচনায় পরিবর্তন করতে চান । দ্বিতীয় লিঙ্কে আমি সরবরাহ করেছি। নির্ভুলতা পুনর্বিবেচনা কেন কাজ করবে সে সম্পর্কে বিশদ এবং অন্তর্দৃষ্টি রয়েছে।

অত্যন্ত ভারসাম্যহীন ডেটার জন্য, একটি মডেল তৈরি করা খুব চ্যালেঞ্জক হতে পারে। আপনি ওজনযুক্ত ক্ষতি ফাংশন বা শুধুমাত্র একটি ক্লাসের মডেলিংয়ের সাথে খেলতে পারেন। যেমন এক শ্রেণির এসভিএম বা একটি বহু-বৈচিত্র গাউসিয়ান ফিট করুন (লিঙ্কটি আমি আগে সরবরাহ করেছি))


2
+1 টি। এক-শ্রেণীর এসভিএম-এ চমৎকার উদাহরণ এবং ভাল উল্লেখ। আমি মনে করি যে যদিও -score একটু খুবই ভারী হাতে উপেক্ষা সত্য নেতিবাচক সব একসঙ্গে হয়। F1
usεr11852 বলেছেন মনিক

"নির্ভুলতা এবং প্রত্যাহার" এর লিঙ্কটি মারা গেছে?
জেসন

13

শ্রেণি ভারসাম্যহীন সমস্যাগুলি ব্যয়-সংবেদনশীল শিক্ষণ বা পুনরায় মডেলিংয়ের মাধ্যমে সমাধান করা যেতে পারে। ব্যয়-সংবেদনশীল শেখার বনাম স্যাম্পলিংয়ের সুবিধাগুলি এবং অসুবিধাগুলি দেখুন , নীচে কপিরাইট করা:


{1 মূল্য-সংবেদনশীল শেখার বনাম স্যাম্পলিংয়ের সুবিধাগুলি এবং অসুবিধার একটি তালিকা দেয়:

2.2 নমুনা

ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিং প্রশিক্ষণের ডেটার শ্রেণিবণ্টনকে পরিবর্তন করতে ব্যবহার করা যেতে পারে এবং ক্লাস ভারসাম্যহীনতা মোকাবেলায় উভয় পদ্ধতিই ব্যবহার করা হয়েছে [1, 2, 3, 6, 10, 11]। উচ্চ-স্কিউ ডেটা সেটগুলির সাহায্যে প্রশিক্ষণের ডেটা এইডস শিখার শ্রেণি বিতরণকে পরিবর্তনের কারণ হ'ল এটি কার্যকরভাবে অ-ইউনিফর্মের ভুল শ্রেণিবিন্যাস ব্যয় আরোপ করে। উদাহরণস্বরূপ, যদি কেউ প্রশিক্ষণের সেটগুলির শ্রেণিবণ্টনকে এমনভাবে পরিবর্তন করে যাতে ইতিবাচক থেকে নেতিবাচক উদাহরণগুলির অনুপাত 1: 1 থেকে 2: 1 এ যায়, তবে একজন কার্যকরভাবে 2: 1 এর একটি ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অনুপাত নির্ধারণ করে দিয়েছে। প্রশিক্ষণের তথ্যের শ্রেণিবণ্টনকে পরিবর্তন করা এবং ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অনুপাতের পরিবর্তনের মধ্যে এই সমতা সুপরিচিত এবং এলকান দ্বারা আনুষ্ঠানিকভাবে বর্ণনা করা হয়েছিল [9]।

ব্যয়-সংবেদনশীল পড়াশোনা বাস্তবায়নের জন্য স্যাম্পলিংয়ের ব্যবহারের সাথে সম্পর্কিত অসুবিধাগুলি রয়েছে। Undersampling সঙ্গে অসুবিধা হল যে এটি সম্ভাব্য দরকারী তথ্য বর্জন হয় । আমাদের দৃষ্টিকোণ থেকে ওভারস্যাম্পলিংয়ের প্রধান অসুবিধাটি হ'ল বিদ্যমান উদাহরণগুলির যথাযথ কপিগুলি তৈরি করার ফলে এটি অত্যধিক মানসিকতার সম্ভাবনা তৈরি করে । প্রকৃতপক্ষে, ওভারস্যাম্পলিংয়ের মাধ্যমে শিক্ষার্থীর পক্ষে একটি একক, প্রতিলিপিযুক্ত উদাহরণ আবরণ করার জন্য একটি শ্রেণিবিন্যাসের বিধি তৈরি করা বেশ সাধারণ। ওভারস্যাম্পলিংয়ের দ্বিতীয় অসুবিধাটি হ'ল এটি প্রশিক্ষণের উদাহরণগুলির সংখ্যা বাড়িয়ে তোলে , এইভাবে আমি শেখার সময়টিকে ncreasing করছি ।

২.৩ কেন নমুনা ব্যবহার করবেন?

স্যাম্পলিংয়ের অসুবিধাগুলি দেওয়া, এটি জিজ্ঞাসা করার মতো যে, স্কেঙ্ক শ্রেণি বন্টন এবং অ-অভিন্ন অবিচ্ছেদ্য ব্যয়ের সাথে ডেটা লেনদেন করার জন্য কেন কেউ ব্যয়-সংবেদনশীল শেখার অ্যালগরিদমের চেয়ে এটি ব্যবহার করবেন asking এর বেশ কয়েকটি কারণ রয়েছে। সর্বাধিক সুস্পষ্ট কারণ হ'ল সমস্ত লার্নিং অ্যালগরিদমের ব্যয় সংবেদনশীল বাস্তবায়ন নেই এবং সুতরাং নমুনা ব্যবহার করে একটি মোড়ক-ভিত্তিক পদ্ধতির একমাত্র বিকল্প। যদিও এটি অতীতের চেয়ে আজ কম সত্য, তবুও অনেক শিখার অ্যালগরিদম (যেমন, সি 4.5) এখনও শেখার প্রক্রিয়াতে সরাসরি ব্যয় পরিচালনা করে না।

স্যাম্পলিং ব্যবহারের দ্বিতীয় কারণ হ'ল অনেক উচ্চ স্কিউড ডেটা সেট প্রচুর এবং প্রশিক্ষণ সেটটির আকার কমিয়ে আনতে হবে যাতে শেখা সম্ভব হয়। এই ক্ষেত্রে, আন্ডার স্যাম্পলিং একটি যুক্তিসঙ্গত, এবং বৈধ, কৌশল বলে মনে হচ্ছে। এই গবেষণাপত্রে আমরা প্রশিক্ষণের সেটের আকারটি হ্রাস করার প্রয়োজন বিবেচনা করি না। তবে আমরা উল্লেখ করব যে, যদি কাউকে কিছু প্রশিক্ষণের ডেটা বাতিল করতে হয় তবে প্রশিক্ষণের সেট আকারটি প্রয়োজনীয় আকারে হ্রাস করার জন্য কয়েকটি সংখ্যাগরিষ্ঠ শ্রেণির উদাহরণগুলি ফেলে দেওয়া এবং তারপরে একটি ব্যয় - সংবেদনশীল লার্নিং অ্যালগরিদম, যাতে ফেলে দেওয়া প্রশিক্ষণের ডেটার পরিমাণ হ্রাস করা যায়।

একটি চূড়ান্ত কারণ যা ব্যয়-সংবেদনশীল শিক্ষার অ্যালগরিদমের পরিবর্তে স্যাম্পলিংয়ের ব্যবহারে অবদান রেখেছিল তা হ'ল ভুল শংসাপত্রের ব্যয়গুলি প্রায়শই অজানা। তবে, ব্যয়বহুল শিক্ষার অ্যালগরিদমের উপর স্যাম্পলিং ব্যবহারের এটি বৈধ কারণ নয়, যেহেতু সাদৃশ্য নিয়ে সাদৃশ্যটি দেখা দেয় final চূড়ান্ত প্রশিক্ষণের ডেটার শ্রেণিবণ্টন কী হওয়া উচিত? যদি এই ব্যয় সম্পর্কিত তথ্য জানা না যায় তবে আরওসি বক্ররেখার অধীনে অঞ্চল হিসাবে একটি পরিমাপ শ্রেণিবদ্ধ কর্মক্ষমতা পরিমাপ করতে ব্যবহার করা যেতে পারে এবং উভয় পদ্ধতিরই যথাযথ ব্যয়ের অনুপাত / শ্রেণি বিতরণ নির্ধারণ করতে পারে।

তারা একাধিক পরীক্ষা-নিরীক্ষাও করেছিল, যা বেআইনী ছিল:

সমস্ত ডেটা সেট থেকে প্রাপ্ত ফলাফলের ভিত্তিতে, ব্যয় সংবেদনশীল শেখার, ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের মধ্যে কোনও নির্দিষ্ট বিজয়ী নেই

এরপরে তারা ডেটাসেটগুলিতে কোন মানদণ্ডটি ইঙ্গিত করতে পারে কোন কৌশলটিতে আরও ভাল লাগানো হয়েছে তা বোঝার চেষ্টা করেন।

তারা আরও মন্তব্য করে যে স্মোট কিছু উন্নতি করতে পারে:

নমুনা দেওয়ার কার্যকারিতা উন্নত করতে বিভিন্ন ধরণের উন্নতি হয়েছে people এর কিছু উন্নয়নের মধ্যে রয়েছে [৫ -> স্মোট] ওভার স্যাম্পল করার সময় নতুন "সিনথেটিক" উদাহরণগুলি অন্তর্ভুক্ত করা, [11] আন্ডারপ্যাম্পিং করার সময় কম দরকারী সংখ্যাগরিষ্ঠ-শ্রেণীর উদাহরণগুলি মুছে ফেলা এবং একাধিক সাব-স্যাম্পল ব্যবহার করে যেমন প্রতিটি উদাহরণের চেয়ে কম আন্ডার স্যাম্পল ব্যবহার করা হয় উপ-নমুনা [3]। এই কৌশলগুলি ওভার স্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের সাথে তুলনা করা হলেও এগুলি সাধারণত ব্যয়-সংবেদনশীল শেখার অ্যালগরিদমের সাথে তুলনা করা হয়নি। এটি ভবিষ্যতে অধ্যয়নযোগ্য হবে।


{1} ওয়েইস, গ্যারি এম।, কেট ম্যাককার্টি এবং বিবি জবার। "ব্যয়-সংবেদনশীল শেখা বনাম নমুনা: অসম ত্রুটির ব্যয় সহ ভারসাম্যহীন ক্লাস পরিচালনা করার জন্য কোনটি সেরা?" ডিএমআইএন 7 (2007): 35-41। https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


1
সুতরাং লিঙ্কটির সংক্ষিপ্তসার: এখানে কোন পদ্ধতিটি আরও ভাল তার ফলাফলগুলি অসম্পূর্ণ, এবং আন্ডার / ওভার-স্যাম্পলিং ব্যবহার করা আরও সহজ। রাইট?
অলস্যাটিক


হ্যাঁ, প্ল্যাটফর্মটির সীমাবদ্ধতা রয়েছে। তবে এর মধ্যে অনেকগুলি বৈশিষ্ট্যও রয়েছে। উদাহরণস্বরূপ, আমি মনে করি যে যদি এর মতো দীর্ঘ, বিশদ উত্তর দুটি প্রশ্নের পর্যাপ্ত জবাব দিতে পারে তবে সেই প্রশ্নগুলি অবশ্যই নকল হতে হবে। এবং যদি সেগুলি সদৃশ না হয় তবে তার উত্তরগুলিকে অর্থপূর্ণ উপায়ে আলাদা করা সম্ভব হওয়া উচিত যাতে সেগুলি কেবল অনুলিপি-আটকানো হয় না। এক্ষেত্রে কোন পদক্ষেপ নেওয়া উচিত? (সিসি @ গং)
হুবুহু

@ হুবুয়ার অন্য প্রশ্নটি ইতিমধ্যে বন্ধ হয়ে গেছে :-)
ফ্রাঙ্ক ডারননকোর্ট

1
ঠিক আছে - এটি একটি প্ররোচিত যুক্তি!
whuber

6

এই প্রশ্নের বেশ কয়েকটি উত্তর ইতিমধ্যে বিভিন্ন বৈধ পন্থা সরবরাহ করেছে, সমস্ত বৈধ। এই পরামর্শটি হার্ভার্ডের বিশিষ্ট রাজনৈতিক বিজ্ঞানী গ্যারি কিংয়ের একটি কাগজ এবং সম্পর্কিত সফ্টওয়্যার থেকে এসেছে। তিনি বিরল ইভেন্টস ডেটাতে লজিস্টিক রিগ্রেশন শীর্ষক একটি গবেষণাপত্র সহ-রচনা করেছেন যা কিছুটা মোটামুটি সমাধানের সমাধান সরবরাহ করে।

বিমূর্তি এখানে:

আমরা জিরো ("কিছুই নয়") এর চেয়ে বিরল ইভেন্টের ডেটা, কয়েক সহস্র থেকে কয়েকগুণ কম সংখ্যক (ইভেন্ট, যেমন যুদ্ধ, ভেটোস, রাজনৈতিক ক্রিয়াকলাপের ঘটনা বা মহামারী সংক্রমণ) এর সাথে বাইনারি নির্ভরশীল ভেরিয়েবল অধ্যয়ন করি। অনেক সাহিত্যে, এই পরিবর্তনগুলি ব্যাখ্যা এবং ভবিষ্যদ্বাণী করা কঠিন প্রমাণিত হয়েছে, এমন একটি সমস্যা যার মনে হয় কমপক্ষে দুটি উত্স রয়েছে। প্রথম, জনপ্রিয় পরিসংখ্যান পদ্ধতি যেমন লজিস্টিক রিগ্রেশন, বিরল ঘটনাগুলির সম্ভাব্যাকে তীব্রভাবে কমিয়ে আনে। আমরা এমন সংশোধনীগুলির প্রস্তাব দিচ্ছি যা বিদ্যমান পদ্ধতিগুলিকে ছাড়িয়ে যায় এবং সাহিত্যে উল্লিখিত কিছু আনুমানিক প্রভাবের দ্বারা নিখুঁত এবং আপেক্ষিক ঝুঁকির অনুমানকে পরিবর্তন করে। দ্বিতীয়ত, সাধারণত ব্যবহৃত ডেটা সংগ্রহের কৌশলগুলি বিরল ইভেন্টগুলির ডেটার জন্য গুরুতরভাবে অক্ষম। খুব অল্প ইভেন্টের সাথে ডেটা সংগ্রহের ভয় বিপুল সংখ্যক পর্যবেক্ষণ সহ তথ্য সংগ্রহের দিকে পরিচালিত করেছে তবে তুলনামূলকভাবে কয়েকটি, এবং অপেক্ষাকৃত কম পরিমাপযোগ্য, ব্যাখ্যামূলক ভেরিয়েবল, যেমন একটি কোয়ার্টার-মিলিয়ন ডায়াডের সাথে আন্তর্জাতিক সংঘাতের ডেটা, যার মধ্যে কয়েকটি মাত্র যুদ্ধ হয়। যেমনটি দেখা যাচ্ছে, বৈধ তথ্যসূত্র তৈরির জন্য আরও দক্ষ স্যাম্পলিং ডিজাইনের উপস্থিতি রয়েছে, যেমন সমস্ত পরিবর্তনশীল ইভেন্ট (যেমন, যুদ্ধ) এবং নমুনার একটি ছোট ভগ্নাংশ (শান্তি) এর নমুনা তৈরি করার মতো। এটি স্কলারদের তাদের (নন-ফিক্সড) ডেটা সংগ্রহের ব্যয়ের 99% হিসাবে বেশি বাঁচাতে বা আরও বেশি অর্থবহ ব্যাখ্যামূলক পরিবর্তনশীল সংগ্রহ করতে সক্ষম করে। আমরা উভয় ধরণের সংশোধনকে একই সাথে কাজ করতে সক্ষম হওয়া এবং সফ্টওয়্যার দ্বারা বিকাশিত পদ্ধতিগুলি কার্যকর করে এমন পদ্ধতিগুলি সরবরাহ করি। এবং খারাপভাবে পরিমাপযোগ্য, ব্যাখ্যামূলক ভেরিয়েবল যেমন আন্তর্জাতিক সংঘাতের ডেটাগুলিতে চতুর্থাংশ-মিলিয়ন ডায়াডের সাথে, যার মধ্যে কয়েকটি যুদ্ধে লিপ্ত। যেমনটি দেখা যাচ্ছে, বৈধ তথ্যসূত্র তৈরির জন্য আরও দক্ষ স্যাম্পলিং ডিজাইনের উপস্থিতি রয়েছে, যেমন সমস্ত পরিবর্তনশীল ইভেন্ট (যেমন, যুদ্ধ) এবং নমুনার একটি ছোট ভগ্নাংশ (শান্তি) এর নমুনা তৈরি করার মতো। এটি স্কলারদের তাদের (নন-ফিক্সড) ডেটা সংগ্রহের ব্যয়ের 99% হিসাবে বেশি বাঁচাতে বা আরও বেশি অর্থবহ ব্যাখ্যামূলক পরিবর্তনশীল সংগ্রহ করতে সক্ষম করে। আমরা উভয় ধরণের সংশোধনকে একই সাথে কাজ করতে সক্ষম হওয়া এবং সফ্টওয়্যার দ্বারা বিকাশিত পদ্ধতিগুলি কার্যকর করে এমন পদ্ধতিগুলি সরবরাহ করি। এবং খারাপভাবে পরিমাপযোগ্য, ব্যাখ্যামূলক ভেরিয়েবল যেমন আন্তর্জাতিক সংঘাতের ডেটাগুলিতে চতুর্থাংশ-মিলিয়ন ডায়াডের সাথে, যার মধ্যে কয়েকটি যুদ্ধে লিপ্ত। যেমনটি দেখা যাচ্ছে, বৈধ তথ্যসূত্র তৈরির জন্য আরও দক্ষ স্যাম্পলিং ডিজাইনের উপস্থিতি রয়েছে, যেমন সমস্ত পরিবর্তনশীল ইভেন্ট (যেমন, যুদ্ধ) এবং নমুনার একটি ছোট ভগ্নাংশ (শান্তি) এর নমুনা তৈরি করার মতো। এটি স্কলারদের তাদের (নন-ফিক্সড) ডেটা সংগ্রহের ব্যয়ের 99% হিসাবে বেশি বাঁচাতে বা আরও বেশি অর্থবহ ব্যাখ্যামূলক পরিবর্তনশীল সংগ্রহ করতে সক্ষম করে। আমরা উভয় ধরণের সংশোধনকে একই সাথে কাজ করতে সক্ষম হওয়া এবং সফ্টওয়্যার দ্বারা বিকাশিত পদ্ধতিগুলি কার্যকর করে এমন পদ্ধতিগুলি সরবরাহ করি। বৈধ তথ্য নির্ধারণের জন্য আরও দক্ষ স্যাম্পলিং ডিজাইনের উপস্থিতি রয়েছে, যেমন সমস্ত পরিবর্তনশীল ইভেন্টের নমুনা (যেমন, যুদ্ধ) এবং কোনটিই নয় (শান্তি) এর একটি ক্ষুদ্র ভগ্নাংশ। এটি স্কলারদের তাদের (নন-ফিক্সড) ডেটা সংগ্রহের ব্যয়ের 99% হিসাবে বেশি বাঁচাতে বা আরও বেশি অর্থবহ ব্যাখ্যামূলক পরিবর্তনশীল সংগ্রহ করতে সক্ষম করে। আমরা উভয় ধরণের সংশোধনকে একই সাথে কাজ করতে সক্ষম হওয়া এবং সফ্টওয়্যার দ্বারা বিকাশিত পদ্ধতিগুলি কার্যকর করে এমন পদ্ধতিগুলি সরবরাহ করি। বৈধ তথ্য নির্ধারণের জন্য আরও দক্ষ স্যাম্পলিং ডিজাইনের উপস্থিতি রয়েছে, যেমন সমস্ত পরিবর্তনশীল ইভেন্টের নমুনা (যেমন, যুদ্ধ) এবং কোনটিই নয় (শান্তি) এর একটি ক্ষুদ্র ভগ্নাংশ। এটি স্কলারদের তাদের (নন-ফিক্সড) ডেটা সংগ্রহের ব্যয়ের 99% হিসাবে বেশি বাঁচাতে বা আরও বেশি অর্থবহ ব্যাখ্যামূলক পরিবর্তনশীল সংগ্রহ করতে সক্ষম করে। আমরা উভয় ধরণের সংশোধনকে একই সাথে কাজ করতে সক্ষম হওয়া এবং সফ্টওয়্যার দ্বারা বিকাশিত পদ্ধতিগুলি কার্যকর করে এমন পদ্ধতিগুলি সরবরাহ করি।

এখানে কাগজের একটি লিঙ্ক ... http://gking.harvard.edu/files/abs/0s-abs.shtml


আপনাকে ধন্যবাদ, - আপনি যদি কাগজটি পড়ে থাকেন তবে তারা কি উপরে প্রস্তাবিত আন্ডার স্যাম্পলিংয়ের বাইরে গুরুত্বপূর্ণ কিছু প্রস্তাব দেয়?
অলস্যাটিক

4
এটি একটি ভাল কাগজ, আমি এটি একাধিকবার পড়েছি! (+1) আমি মনে করি যদিও আপনার উল্লেখ করা উচিত যে কাগজটিও আগ্রহের প্রতি আগ্রহী। এই কারণেই কোনও জিএলএমের তুলনায় কোনও জিবিএম একজন রাজনৈতিক বিজ্ঞানীর পক্ষে কম কার্যকর হবে। উদাহরণস্বরূপ, যদি ট্রি-পদ্ধতিগুলি ব্যবহার করা হয়: " ... দুটি পুনরাবৃত্তকারী বিভাজনকারী অ্যালগরিদম একই পূর্বাভাসের সঠিকতা অর্জন করতে পারে তবে একই সময়ে কাঠামোগতভাবে বিভিন্ন রিগ্রেশন সম্পর্কের প্রতিনিধিত্ব করে, বিভিন্ন মডেল এবং এইভাবে প্রভাব সম্পর্কে বিভিন্ন সিদ্ধান্তে ডেকে আনতে পারে প্রতিক্রিয়ায় কিছু নির্দিষ্ট কোভেরিয়ারেটস "(হথর্ন এট আল 2006)
ইউএসআর 11852 বলেছেন

2

ভারসাম্যহীন ক্লাস সহ ডেটাসেটের শ্রেণিবদ্ধের বিকাশ মেশিন লার্নিংয়ে একটি সাধারণ সমস্যা। ঘনত্বভিত্তিক পদ্ধতিগুলির মধ্যে এমন পরিস্থিতিতে "traditionalতিহ্যবাহী শ্রেণিবদ্ধ "গুলির তুলনায় উল্লেখযোগ্য যোগ্যতা থাকতে পারে।

একটি ঘনত্ব-ভিত্তিক পদ্ধতি অজানা ঘনত্ব অনুমান করে , যেখানে সবচেয়ে প্রভাবশালী শ্রেণি (আপনার উদাহরণস্বরূপ, )।সিসি={x এর:Yআমি=0}p^(x|yC)CC={x:yi=0}

ঘনত্বের অনুমানটি একবার প্রশিক্ষিত হয়ে গেলে, আপনি সম্ভাব্যতার পূর্বাভাস দিতে পারেন যে কোনও অদেখা পরীক্ষার রেকর্ড এই ঘনত্বের অনুমানের সাথে সম্পর্কিত। যদি সম্ভাবনাটি যথেষ্ট পরিমাণে কম থাকে তবে নির্দিষ্ট প্রান্তিকের চেয়ে কম (সাধারণত একটি বৈধতা পর্বের মাধ্যমে প্রাপ্ত হয়), তবে , অন্যথায়* Y ( এক্স * ) সি ওয়াই ( X * ) সিxy^(x)Cy^(x)C

আপনি নিম্নলিখিত কাগজ পড়তে পারেন:

"নতুনত্ব সনাক্তকরণের জন্য ন্যূনতম ভলিউম সেটগুলির একটি গণনাযোগ্য প্লাগ-ইন অনুমানকারী," সি পার্ক, জে হোয়াং এবং ওয়াই ডিং, অপারেশনস গবেষণা, 58 (5), 2013।


2

এটি এমন এক ধরণের সমস্যা যেখানে অ্যানোমালি সনাক্তকরণ একটি দরকারী পদ্ধতির। এটি মূলত রড্রিগো তাঁর উত্তরে বর্ণিত, যাতে আপনি আপনার প্রশিক্ষণ শ্রেণির পরিসংখ্যানগত প্রোফাইল নির্ধারণ করেন এবং সম্ভাবনার প্রান্তিকতা নির্ধারণ করেন যার বাইরে ভবিষ্যতের পরিমাপগুলি সেই শ্রেণীর অন্তর্ভুক্ত না হওয়ার জন্য নির্ধারিত হয়। এখানে একটি ভিডিও টিউটোরিয়াল রয়েছে , যা আপনাকে শুরু করা উচিত। আপনি এটি শোষিত হয়ে গেলে, আমি কার্নেল ঘনত্বের অনুমানের সন্ধান করার পরামর্শ দেব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.