আমার কি 'ভারসাম্যপূর্ণ' ডেটাসেট বা 'প্রতিনিধি' ডেটাসেটের জন্য যাওয়া উচিত?


48

আমার 'মেশিন লার্নিং' কাজটি হ'ল সৌখিন ইন্টারনেট ট্র্যাফিককে দূষিত ট্র্যাফিক থেকে আলাদা করা। বাস্তব বিশ্বের পরিস্থিতিতে, ইন্টারনেট ট্র্যাফিক সর্বাধিক (90% বা তার বেশি বলুন) সৌম্য। সুতরাং আমি অনুভব করেছি যে আমার মডেলগুলিকে প্রশিক্ষণের জন্যও আমার অনুরূপ ডেটা সেটআপ চয়ন করা উচিত। তবে আমি একটি গবেষণামূলক কাগজ পেরিয়ে এসেছি বা দুটি (আমার কাজের ক্ষেত্রে) যা মডেলগুলিকে প্রশিক্ষণের জন্য "ক্লাস ব্যালেন্সিং" ডেটা পদ্ধতির ব্যবহার করেছে, এটি সৌম্য এবং দূষিত ট্র্যাফিকের সমান সংখ্যক উদাহরণকে বোঝায়।

সাধারণভাবে, যদি আমি মেশিন লার্নিং মডেলগুলি তৈরি করছি, আমি কি এমন কোনও ডেটাসেটের জন্য যাব যা বাস্তব বিশ্বের সমস্যার প্রতিনিধিত্ব করবে, বা মডেলগুলি তৈরির জন্য উপযুক্ত ভারসাম্যযুক্ত ডেটাসেট (যেহেতু নির্দিষ্ট শ্রেণিবদ্ধরা শ্রেণি ভারসাম্যহীনতার সাথে ভাল আচরণ করে না, বা অন্যান্য কারণে আমার জানা নেই)?

ক্যান কেউ উপর আরো আলোকপাত অনুকূল এবং কনস উভয় পছন্দের এবং কিভাবে যা একটি বেছে নিন যান করার সিদ্ধান্ত নেন কিভাবে?

উত্তর:


38

আমি বলব উত্তরটি আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে। আমার অভিজ্ঞতার ভিত্তিতে:

  • আপনি যদি কোনও প্রতিনিধি মডেল তৈরি করার চেষ্টা করছেন - এমন একটি যা প্রয়োজনীয়ভাবে পূর্বাভাস দেওয়ার চেয়ে ডেটা বর্ণনা করে - তবে আমি আপনার ডেটার একটি প্রতিনিধি নমুনা ব্যবহার করার পরামর্শ দেব।
  • আপনি যদি ভবিষ্যদ্বাণীমূলক মডেলটি তৈরি করতে চান, বিশেষত এমন একটি যা এওসি বা র‌্যাঙ্ক-অর্ডার পরিমাপ করে ভাল সম্পাদন করে এবং একটি বেসিক এমএল কাঠামো (যেমন সিদ্ধান্তের গাছ, এসভিএম, নাইভ বয়েস ইত্যাদি) ব্যবহার করার পরিকল্পনা করে তবে আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি ফ্রেমওয়ার্ক একটি ভারসাম্যযুক্ত ডেটাসেট। শ্রেণির ভারসাম্যহীনতা সম্পর্কিত বেশিরভাগ সাহিত্য দেখতে পেয়েছে যে এলোমেলোভাবে আন্ডার স্যাম্পলিং (সংখ্যালঘু শ্রেণীর আকারে সংখ্যাগরিষ্ঠ শ্রেণির নমুনা নিচে) পারফরম্যান্স লাভ চালিয়ে যেতে পারে।
  • যদি আপনি একটি ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করছেন তবে আপনি আরও উন্নত কাঠামো ব্যবহার করছেন (উদাহরণস্বরূপ এমন কিছু যা র্যাপারের মাধ্যমে স্যাম্পলিং পরামিতিগুলি নির্ধারণ করে বা ব্যাগিং ফ্রেমওয়ার্কের একটি পরিবর্তন যা শ্রেণীর সমতুল্যতার জন্য নমুনাগুলি নির্ধারণ করে), তবে আমি আবার প্রতিনিধি নমুনাকে খাওয়ানোর পরামর্শ দিচ্ছি অ্যালগরিদম প্রশিক্ষণের জন্য ডেটা ভারসাম্য রাখার যত্ন নেয়।

2
যদি আপনি একটি প্রতিনিধি মডেল তৈরি করার চেষ্টা করছেন - এমন একজন যা প্রয়োজনীয়ভাবে পূর্বাভাস দেওয়ার চেয়ে ডেটা বর্ণনা করে ... কে এমন মডেল তৈরি করে যা পূর্বাভাস দেয় না ?? আপনাকে সেখানে
পেলেন

8
অপ্রচলিত পড়াশুনা এমন একটি উদাহরণ হতে পারে যেখানে আপনি এমন একটি মডেল তৈরি করেন যা পূর্বাভাস দেওয়ার প্রয়োজন হয় না। কিছু ক্ষেত্রে আপনি আপনার ডেটা অন্বেষণ করতে বা সংক্ষিপ্ত করতে চাইতে পারেন।
ডিএসিয়া

1
আমি বলব এটি আপনার নমুনার ভারসাম্য বজায় রাখা নিরাপদ, তবে নমুনা ওজন সংগ্রহও করুন যাতে আপনার প্রয়োজনের পরে প্রতিনিধিত্বমূলকতার জন্য আপনার ডেটাটির পুনরায় ওজন করতে পারেন। @pnp প্রচুর সামাজিক বিজ্ঞানী প্রাক-ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করেন, যেমন তত্ত্বগুলি নিশ্চিত করার জন্য।
শ্যাডট্যালকার

ভারসাম্য মডেলকে কীভাবে ভারী পর্যবেক্ষণ ব্যবহার করে কোনও প্রতিনিধি মডেলের তুলনা করতে হবে?
জেনএসসিডিসি

1
আপনার মডেল এলোমেলোভাবে বেছে নেওয়া negativeণাত্মক শ্রেণীর চেয়ে এলোমেলোভাবে বেছে নেওয়া ইতিবাচক শ্রেণির উচ্চতর সম্ভাবনা হওয়ার কারণে এউসি ক্লাস ভারসাম্যহীনতায় প্রভাবিত হয় না। আমি এখানে সাধারণ উদ্দেশ্যে আপনার পরামর্শের সাথে একমত নই। আপনার যদি কোনও প্রতিনিধি নমুনা থাকে, উদাহরণস্বরূপ, একটি সাধারণ এলোমেলো নমুনা, এটি বাম প্রতিনিধি হওয়া উচিত।
ম্যাথু ড্র্যুরি

8

আমি মনে করি এটি সবসময় দৃশ্যের উপর নির্ভর করে। প্রতিনিধি ডেটা সেট ব্যবহার করা সর্বদা সমাধান নয়। ধরে নিন যে আপনার প্রশিক্ষণ সেটে 1000 নেতিবাচক উদাহরণ এবং 20 ইতিবাচক উদাহরণ রয়েছে। শ্রেণিবদ্ধের কোনও পরিবর্তন ছাড়াই, আপনার অ্যালগরিদম সমস্ত নতুন উদাহরণকে নেতিবাচক হিসাবে শ্রেণিবদ্ধ করার প্রবণতা করবে। কিছু পরিস্থিতিতে এটি ঠিক আছে তবে অনেক ক্ষেত্রে প্যাসিভ উদাহরণগুলি হারিয়ে যাওয়ার ব্যয় বেশি তাই আপনাকে এর সমাধান বের করতে হবে।

এই ক্ষেত্রে আপনি ব্যয় সংবেদনশীল মেশিন লার্নিং অ্যালগরিদম ব্যবহার করতে পারেন। উদাহরণস্বরূপ চিকিত্সা নির্ণয়ের তথ্য বিশ্লেষণের ক্ষেত্রে।

সংক্ষিপ্তসার: শ্রেণিবিন্যাস ত্রুটির একই দাম নেই!


7

উভয় পদ্ধতির চেষ্টা করার এবং প্রত্যাশিত পারফরম্যান্সকে সর্বাধিক করে তোলে এমন একটি রাখার সমাধান সর্বদা থাকে।

আপনার ক্ষেত্রে, আমি ধরে নেব যে আপনি কিছু মিথ্যা ধনাত্মক ব্যয়ে মিথ্যা নেতিবাচক হ্রাস করতে পছন্দ করেন, তাই আপনি শক্তিশালী নেতিবাচক পূর্বের বিরুদ্ধে আপনার শ্রেণিবদ্ধকে পক্ষপাতিত্ব করতে চান, এবং আপনার প্রশিক্ষণ সংস্থায় নেতিবাচক উদাহরণগুলির সংখ্যা হ্রাস করে ভারসাম্যহীনতা মোকাবেলা করতে চান।

তারপরে নির্ভুলতা / পুনর্বিবেচনা বা সংবেদনশীলতা / নির্দিষ্টতা গণনা করুন বা হ্রাসকৃত তথ্যের উপর মডেলটি তৈরির সময় আপনি যে সত্যিকারের উপাত্তে উপস্থিত কোনও উল্লেখযোগ্য প্যাটার্নটিকে উপেক্ষা করেছেন না তা নিশ্চিত করার জন্য পূর্ণ, ভারসাম্যহীন, ডেটাসেটের জন্য উপযুক্ত মানদণ্ড আপনাকে মানায়।


4

অপারেশনাল এবং প্রশিক্ষণের পরিস্থিতি পৃথক করুন।

অপারেশনাল দৃশ্যাবলী এমন এক যেখানে আপনার শ্রেণিবদ্ধের পরিমাপ করা হবে। এখানেই আপনার ভাল অভিনয় করা উচিত। ব্যবহারে এমন একটি ডেটাসেট থাকা উচিত যা এই দৃশ্যের প্রতিনিধিত্ব করে।

একটি শ্রেণিবদ্ধ গঠনের জন্য আপনি যা করছেন তা প্রশিক্ষণের দৃশ্যটি যা অপারেশনাল দৃশ্যে ভাল সম্পাদন করবে।

অনেক সময় উভয় পরিস্থিতিতে ডেটাসেট একই প্রকৃতির হয় তাই তাদের আলাদা করার দরকার নেই। উদাহরণস্বরূপ, আপনার কিছু অনলাইন স্টোর রয়েছে যাতে আপনি ভবিষ্যতের ব্যবহারগুলিকে আরও ভালভাবে সম্পাদন করতে অতীতের ব্যবহারের প্রশিক্ষণের জন্য ব্যবহার করেন। তবে প্রশিক্ষণ নেওয়ার সময় আপনি অপারেশনাল দৃশ্যের প্রতিনিধিত্বকারী একের চেয়ে আলাদা একটি ডেটাसेट ব্যবহার করতে পারেন। প্রকৃতপক্ষে, আপনি যদি ঘুমোন, কোনও শ্রেণিবদ্ধের স্বপ্ন দেখেন, এটি আপনার অপারেশনাল দৃশ্যে যাচাই করুন (এই পদক্ষেপটি ঘুম থেকে ওঠার পরে করা উচিত) আপনি সাধারণ মেশিন লার্নিংয়ের পথে যাওয়ার মতোই দুর্দান্ত।

ডেটাসেট ভারসাম্যহীন হলে অপারেশনাল এবং প্রশিক্ষণের পরিস্থিতিগুলির মধ্যে পার্থক্য গুরুত্বপূর্ণ হয়ে ওঠে। বেশিরভাগ অ্যালগরিদম এ জাতীয় ডেটাসেটে ভাল সম্পাদন করতে পারে না।

সুতরাং, দুটি ডেটাसेट ব্যবহার করতে দ্বিধা করবেন না - আপনি প্রশিক্ষণের জন্য ভারসাম্যপূর্ণ ডেটাসেট ব্যবহার করতে পারেন। আপনার কাজ শেষ হয়ে গেলে, অপারেশনাল ডেটাসেটের আপনার শ্রেণিবদ্ধকরণটি বৈধ করুন।


3

আমি মনে করি দুটি পৃথক বিষয় বিবেচনা করতে হবে: প্রশিক্ষণের সময় এবং পূর্বাভাসের যথার্থতা।

একটি সাধারণ উদাহরণ নিন: আপনার দুটি শ্রেণি রয়েছে তা বিবেচনা করুন, এতে একটি বহুবিধ সাধারণ বিতরণ রয়েছে। মূলত, আপনাকে সংশ্লিষ্ট শ্রেণীর মাধ্যম এবং শ্রেণি covariances অনুমান করতে হবে। ক্লাসের পার্থক্যের বিষয়ে আপনার অনুমানের বিষয়ে এখন আপনার প্রথম যত্নের বিষয়টি হ'ল: তবে আপনার পারফরম্যান্স সবচেয়ে খারাপ অনুমান করা গড়ের যথাযথতার দ্বারা সীমাবদ্ধ: এটি 100 তম দশমিক স্থানে কোনও গড় অনুমান করা ভাল নয় - যদি অন্য গড়টি কেবলমাত্র হয় 1 দশমিক স্থান অনুমান। সুতরাং সমস্ত ডেটা ব্যবহার করার জন্য এটি কম্পিউটিং সংস্থার অপচয় করা - আপনি পরিবর্তে আরও সাধারণ শ্রেণির নিম্নতর করতে পারেন এবং ক্লাসগুলিকে যথাযথভাবে পুনরায় ওজন করতে পারেন। (সেই সমস্ত কম্পিউটিং সংস্থানগুলি তখন বিভিন্ন ইনপুট ভেরিয়েবল ইত্যাদি অন্বেষণে ব্যবহার করা যেতে পারে)

এখন দ্বিতীয় সমস্যাটি ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা: বিভিন্ন অ্যালগরিদমগুলি বিভিন্ন ত্রুটি মেট্রিক ব্যবহার করে, যা আপনার নিজস্ব উদ্দেশ্যগুলির সাথে একমত হতে পারে বা নাও পারে। উদাহরণস্বরূপ, লজিস্টিক রিগ্রেশন সামগ্রিক সম্ভাব্যতা ত্রুটিটিকে দণ্ডিত করবে, সুতরাং আপনার বেশিরভাগ ডেটা যদি এক শ্রেণির হয় তবে এটি সনাক্ত করার চেষ্টা করার পরিবর্তে সেই এক শ্রেণির সঠিক সম্ভাবনা অনুমানের (উদাহরণস্বরূপ 90 বনাম 95% সম্ভাব্যতা) উন্নত করার চেষ্টা করবে বিরল শ্রেণি। সেক্ষেত্রে, আপনি অবশ্যই বিরল শ্রেণীর উপর জোর দেওয়ার জন্য পুনরায় ওজনের চেষ্টা করতে চান (এবং পরবর্তীকালে সম্ভাবনার প্রাক্কলনগুলি সত্যায়িত করার জন্য [পক্ষপাত শব্দটি সামঞ্জস্য করে] অনুমানটি সামঞ্জস্য করতে পারেন)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.