মেশিন লার্নিংয়ে বায়াসড ডেটা


18

আমি ডেটা মেশিন লার্নিং প্রকল্পে ডেটা নিয়ে কাজ করছি যা ইতিমধ্যে (প্রচুর) ডেটা নির্বাচনের পক্ষপাতদুষ্ট।

ধরে নেওয়া যাক আপনার কাছে কঠোর কোডেড বিধিগুলির একটি সেট রয়েছে। এটি প্রতিস্থাপনের জন্য আপনি কীভাবে একটি মেশিন লার্নিং মডেল তৈরি করবেন, যখন এটি ব্যবহার করতে পারে এমন সমস্ত ডেটা সেই ডেটা যা ইতিমধ্যে সেই নিয়মগুলি দ্বারা ফিল্টার করা হয়েছিল?

বিষয়গুলি পরিষ্কার করার জন্য, আমার ধারণা সর্বোত্তম উদাহরণটি হ'ল ক্রেডিট ঝুঁকি মূল্যায়ন : কাজটি এমন সমস্ত ক্লায়েন্টকে ফিল্টার করা যা কোনও অর্থ প্রদানের ক্ষেত্রে ব্যর্থ হতে পারে।

  • এখন, আপনার কাছে থাকা কেবলমাত্র (লেবেলযুক্ত) ডেটা হ'ল ক্লায়েন্টদের কাছ থেকে যা নিয়মের সেট দ্বারা গৃহীত হয়েছে, কারণ স্বীকার করার পরেই আপনি দেখতে পাবেন যে কেউ অর্থ প্রদান করেছে কিনা (স্পষ্টতই)। আপনি জানেন না যে নিয়মগুলির সেটটি কতটা ভাল এবং তারা পরিশোধিত-না-পরিশোধিত বিতরণকে কতটা প্রভাবিত করবে। অতিরিক্ত হিসাবে, নিয়মগুলি সেট করার কারণে আবারও আপনার কাছে ক্লায়েন্টদের কাছ থেকে লেবেলযুক্ত ডেটা প্রত্যাখ্যান করা হয়েছে। সুতরাং আপনি জানেন না যে এই ক্লায়েন্টদের যদি তারা গ্রহণ করা হত তবে তাদের সাথে কি হত।

উদাহরণস্বরূপ একটি নিয়ম হতে পারে: "যদি ক্লায়েন্টের বয়স <18 বছর হয় তবে গ্রহণ করবেন না"

এই নিয়মগুলি দ্বারা ফিল্টার করা ক্লায়েন্টদের কীভাবে পরিচালনা করতে শ্রেণিবদ্ধার কাছে শেখার কোনও উপায় নেই। শ্রেণিবদ্ধের এখানে প্যাটার্ন শেখার কথা কীভাবে?

এই সমস্যাটিকে উপেক্ষা করে মডেলটি এমন ডেটা প্রকাশের মুখোমুখি হবে যা এর আগে কখনও হয় নি। মূলত, x যখন এখানে [এ, খ] এর বাইরে থাকে তখন আমি f (x) এর মানটি অনুমান করতে চাই।


8
নিয়মিতভাবে আবেদনকারীদের একটি নির্দিষ্ট অনুপাত ফিল্টার না করে creditণ ঝুঁকি মূল্যায়নে সাধারণত এইভাবে পরিচালিত হয় । অল্প সংখ্যক আবেদনকারী এলোমেলোভাবে ভর্তি হয় এবং তাদের পতাকাঙ্কিত হয়।
ম্যাথু ড্রুরি

এটি জেনে রাখা সত্যিই ভাল। এমনকি আমি একই জিনিসগুলি সেট আপ করতে পারি।
লাকসান নাথান

1
যখন আমি এই সমস্যাটি অ-বিশেষজ্ঞদের কাছে ব্যাখ্যা করি, তখন আমি একটি মেঘ (বাস্তবতা) এবং মেঘের (মডেল) আনুমানিক একটি বহুভুজ আঁকি। আমি মিথ্যা ইতিবাচক ত্রুটিগুলি এবং মিথ্যা নেতিবাচক ত্রুটিগুলি দেখাই। এটি দৃশ্যত পরিষ্কার যে মডেলটি উন্নত করতে আমার উভয় ত্রুটি দরকার, তাই প্রায় ক্লাউড আরও ভাল করে আনতে।
এমসাল্টারস

এখনই আমার উপস্থাপনা প্রস্তুত। এই উপমাটি সত্যিই কাজে আসে, ধন্যবাদ!
লাকসান নাথান

একে অন্বেষণ-শোষণ দ্বিধা বলা হয়।
seanv507

উত্তর:


12

আপনার উদ্বিগ্ন হওয়া ঠিকই - সর্বোত্তম মডেলগুলি চমত্কারভাবে ব্যর্থ হতে পারে যদি মডেলটি প্রশিক্ষণপ্রাপ্ত / পরীক্ষিত হয়েছিল সেই ডেটা বিতরণের চেয়ে নমুনা ছাড়াই ডেটা বিতরণ উল্লেখযোগ্যভাবে পৃথক হয়।

আমার মনে হয় আপনার পক্ষে যে লেবেলযুক্ত ডেটা রয়েছে তার কোনও মডেলকে প্রশিক্ষণ দেওয়া আপনি সবচেয়ে ভাল করতে পারেন তবে মডেলটিকে ব্যাখ্যামূলক রাখার চেষ্টা করুন। এর অর্থ সম্ভবত কেবল সহজ মডেলগুলির মধ্যে সীমাবদ্ধ। তারপরে, আপনি কীভাবে আপনার মডেলটি শিখেছেন সেই বিধিগুলি পূর্ববর্তী নিয়মের সাথে কীভাবে আপনার মিথস্ক্রিয়া হতে পারে তা অনুমান করার চেষ্টা করতে পারে যে, আপনার মডেলটি না ছড়িয়ে পড়া জনগোষ্ঠীতে কতটা ভাল কাজ করতে পারে।

উদাহরণস্বরূপ - ধরুন, আপনার মডেলটি দেখতে পেয়েছে যে আপনার লেবেলযুক্ত ডেটাসেটে ক্লায়েন্ট যত কম বয়সী, তত সম্ভবত তাদের ডিফল্ট হওয়ার সম্ভাবনা বেশি। তারপরে এটি ধরে নেওয়া যুক্তিযুক্ত হতে পারে যে আপনি যদি "ক্লায়েন্টের বয়স <18 বছর বয়সের, তবে গ্রহণ করবেন না" এর পূর্ববর্তী ফিল্টারটি সরিয়ে ফেললে আপনার মডেলটি ভালভাবে কাজ করবে।


4

আমি নিশ্চিত না যে আমি পুরোপুরি এই প্রশ্নটি বুঝতে পেরেছি, তবে যতক্ষণ না আমি এটি বুঝতে পেরেছি আপনি ইতিমধ্যে যে নমুনাগুলি দেখেছেন সেগুলির ডোমেনের বাইরে থাকা নমুনাগুলির বিষয়ে পূর্বাভাস দেওয়ার জন্য কোনও শ্রেণিবদ্ধকে কীভাবে প্রশিক্ষণ দেওয়ার তা জিজ্ঞাসা করছেন। এটি, সাধারণত কথা বলা এবং যতদূর আমি জানি, সম্ভব নয়। মেশিন লার্নিং থিয়োরিটি "অভিজ্ঞতাজনিত ঝুঁকি হ্রাস" এর ধারণার উপর ভিত্তি করে তৈরি করা হয়েছে যা ধরে নেওয়া যায় যে আপনার প্রশিক্ষণ সেটটি নমুনা এবং লেবেলের উপরে আপনার সত্য বিতরণের একটি ভাল অনুমান। যদি এই অনুমান লঙ্ঘিত হয় তবে সত্যিকার অর্থে কোনও গ্যারান্টি নেই।

আপনি লেবেলযুক্ত ডেটা উল্লেখ করেছেন - আমি জানি না এটি আপনার সমস্যার সমাধান করবে কিনা, তবে আধা তত্ত্বাবধানে শিক্ষার লেবেলযুক্ত এবং লেবেলযুক্ত উভয় ডেটা দেওয়া শ্রেণিবদ্ধ শিখার চেষ্টা করার জন্য অনেকগুলি পদ্ধতি রয়েছে এবং আপনি সেগুলি অনুসন্ধান করার বিষয়টি বিবেচনা করতে চাইতে পারেন (উদাহরণস্বরূপ , ট্রান্সডেটিভ এসভিএম)।


আমি একমত, আমার সমস্যার কোনও "সমাধান" নেই। তবে এই ধরণের সমস্যা নিয়ে কীভাবে কাজ করবেন সে সম্পর্কে কিছু ব্যবহারিক পরামর্শ থাকতে পারে।
লাকসান নাথান

2

আপনার বিধিগুলি আপনাকে ডেটা বৃদ্ধির জন্য একটি উপায় দিতে পারে । একটি ইতিবাচক নমুনা অনুলিপি করুন, বয়স 17 এ পরিবর্তন করুন এবং তারপরে এটি নেতিবাচক নমুনা হিসাবে চিহ্নিত করুন।

এই পদ্ধতিটি অগত্যা তুচ্ছ বা সব ডেটাসেটের জন্য কার্যকর হবে না। আমি এনএলপি ডেটা নিয়ে কাজ করি এবং সেই ডোমেনে ভাল করা বেশ মুশকিল। উদাহরণস্বরূপ, আপনার যদি বয়সের সাথে সম্পর্কিত অন্যান্য বৈশিষ্ট্যগুলি থাকে তবে আপনি অবাস্তব নমুনা দিয়ে শেষ করতে পারেন। যাইহোক, এটি সিস্টেমটিকে স্যাম্পলগুলির মতো এমন কিছুতে প্রকাশ করার জন্য একটি এভিনিউ সরবরাহ করে যা এটি ডেটাসেটে তৈরি করে না।


ডেটা নিশ্চিত করে গোলমাল যোগ করা এই সমস্যাটি হ্যান্ডেল করার একটি উপায়। তবে কেবলমাত্র কয়েকটি ক্ষেত্রে যেখানে ক্লায়েন্টের ডেটাগুলি সহজে শ্রেণিবদ্ধ করা যায়। আমি এটি এমন একটি ডিগ্রীতে করব না যে এর ফলে আবার কোনও ডোমেন জ্ঞান "পক্ষপাতদুষ্ট" আউটপুট-কালেক্টিভ / সাবজেক্টিভ উপলব্ধি ঘটবে যা অভিযোগযুক্ত জ্ঞানের একটি পূর্ববর্তী সংঘর্ষের দিকে পরিচালিত করে।
লাকসান নাথান

2

একটি জিনিস যা আমাদের জন্য একই পরিস্থিতিতে কাজ করেছে তা হ'ল সামান্য শক্তিবৃদ্ধি শেখা (অন্বেষণ এবং শোষণ) করা। নিয়ম ভিত্তিক মডেলটির শীর্ষে, আমরা একটি এক্সপ্লোরার চালিয়েছিলাম যা সামান্য সম্ভাবনার সাথে মডেলটির প্রতিক্রিয়া পরিবর্তন করতে পারে, তাই মাঝেমধ্যে ক্ষেত্রে যেখানে মডেল কোনও 17 বছর বয়সের কাছে কোনও কার্ডের প্রস্তাব দেয় না, সেখানে এক্সপ্লোরার মডেলটিকে উল্টে দেয় সিদ্ধান্ত এবং একটি কার্ড ইস্যু। এই ঘটনাবলী কেসগুলি থেকে আপনি ভবিষ্যতের লার্নিং মডেলটির জন্য শেখার ডেটা উত্পন্ন করবেন যেখানে এটি অন্বেষণকারী দ্বারা 17 বছরের বাচ্চাদের দেওয়া যেগুলি ডিফল্ট না হয়েছে এবং যদি আপনি পারেন তবে এই ভিত্তিতে 17 বছরের বাচ্চাদের জন্য কার্ড সুপারিশ করার সিদ্ধান্ত নেওয়া যেতে পারে এমন সিস্টেমগুলি তৈরি করুন যা আপনার বিদ্যমান মডেলের বাইসের বাইরে কাজ করতে পারে।


যেহেতু এই ঘটনাগুলি একটি নির্দিষ্ট আর্থিক ঝুঁকির সাথে সংযুক্ত থাকে, তাই এটি ধাপে ধাপে ধাপে এগিয়ে যাওয়ার সম্ভাবনাটি দীর্ঘমেয়াদে নতুন প্যাটার্নটি প্রকাশ করার সম্ভাবনা রয়েছে। মূলত আপনি যেমনটি উল্লেখ করেছেন তেমন এক্সপ্লোর-এক্সপ্লোরড বাণিজ্য বন্ধ। এটি অবশ্যই প্রকল্পে বিবেচনা করা হবে।
লাকসান নাথান

2

ব্যবহারিক দৃষ্টিকোণ থেকে একটি মডেলকে বর্তমান সিস্টেমে সম্ভব নয় (বিনামূল্যে লাঞ্চের ব্যবস্থা নেই) এমন কিছু বিষয়ে ভবিষ্যদ্বাণী করতে কোনও মডেলকে জিজ্ঞাসা করা কঠিন / অযৌক্তিক।

এই সমস্যাটি নিরসনের একটি উপায় হ'ল বর্তমান (মোতায়েন) সিস্টেমে এলোমেলোকরণ যুক্ত করা, উদাহরণস্বরূপ, একটি ছোট, নিয়ন্ত্রিত সম্ভাবনার (এবং তাই ভবিষ্যদ্বাণীমূলক ব্যয়) সহ কিছু নিয়মকে বাইপাস করার সম্ভাবনা যুক্ত করা।

একবার আপনি যদি সিস্টেমটির জন্য দায়বদ্ধ লোককে তা করতে রাজি হন তবে আপনি "কী-যদি" প্রশ্ন জিজ্ঞাসা করার জন্য গুরুত্ব স্যাম্পলিংয়ের মতো অফ-পলিসি মূল্যায়ন পদ্ধতি ব্যবহার করতে পারেন । উদাহরণস্বরূপ, যদি আমরা বর্তমানে নিয়মগুলি হ'ল এমন লোকদের ক্রেডিট নিতে দেই তবে প্রত্যাশিত creditণের ঝুঁকি কী হবে? এমনকি সেই জনসংখ্যার উপর আপনার (পক্ষপাতদুষ্ট) ভবিষ্যদ্বাণী মডেলের প্রভাব সিমুলেট করতে পারে। এই ধরণের পদ্ধতির জন্য একটি ভাল রেফারেন্স হ'ল প্রতিদ্বন্দ্বী শেখার এবং যুক্তি সম্পর্কিত বোটোর কাগজ


সুন্দর রেফারেন্স, ধন্যবাদ। আমি এর মধ্য দিয়ে যেতে সময় নেব।
লাকসান নাথান

1

শাস্ত্রীয় পরিসংখ্যানের উত্তরটি হল যে যদি বাছাই প্রক্রিয়াটি ডেটাতে থাকে এবং মডেল দ্বারা বর্ণিত বা নির্বাচন এলোমেলো হয় তবে প্যারামেট্রিকাল মডেলটি সঠিকভাবে বিবেচনা করে। ডোনাল্ড রুবিন কাগজ অনুগ্রহ এবং মিসিং ডেটা (1976) দেখুন। আপনার মডেলটিতে ডেটা নির্বাচনের প্রক্রিয়াটি অন্তর্ভুক্ত করার দরকার নেই। এটি এমন একটি ক্ষেত্র যেখানে খাঁটি মেশিন শেখার চেয়ে প্যারামিমেট্রিক ইনফারেন্স আরও ভাল করা উচিত do


1

এটি পরবর্তীকালের দ্বিধাদানের অনুরূপ: ভাল ও খারাপ কাজের (অনুমানের) অনুপাতটি নরকের পরিবর্তে (শ্রেণি) স্বর্গে পৌঁছাতে যথেষ্ট, একজন মারা যাওয়ার পরে (ফিল্টার!)। এর মধ্যেই মৃত্যু ফিল্টার হিসাবে কাজ করে, যা তত্ত্বাবধানে শেখা স্কিমের দিকে মূল্যবোধ হারিয়েছে।

আমি অনুপস্থিত মূল্যবোধের সমস্যা এবং 'বায়াসড ডেটা' সমস্যার মধ্যে বিচ্ছিন্ন করতে চাই। পক্ষপাতদুষ্ট ডেটা বলে কিছুই নেই, 'পক্ষপাতদুষ্ট মডেল' বলে একটি তথ্য আছে যা বলেছিল তথ্য, কিন্তু ডেটা নিজেই পক্ষপাতদুষ্ট নয়, এটি নিখোঁজ নয়। যদি অনুপস্থিত ডেটাটি পর্যবেক্ষণযোগ্য ডেটার সাথে অর্থপূর্ণভাবে সম্পর্কিত হয়, তবে নিরপেক্ষ মডেলটিকে প্রশিক্ষণ দেওয়া এবং ভাল ভবিষ্যদ্বাণীমূলক ফলাফল অর্জন করা সম্পূর্ণভাবে সম্ভব।

যদি অনুপস্থিত ডেটাটি পর্যবেক্ষণযোগ্য ডেটার সাথে সম্পূর্ণভাবে সম্পর্কযুক্ত না হয়, তবে এটি 'আপনি যা জানেন না তা জানেন না' এর একটি ঘটনা case আপনি তদারকি না করা, বা নিরীক্ষণযোগ্য শেখার পদ্ধতিগুলিও ব্যবহার করতে পারবেন। সমস্যাটি ডেটা সায়েন্সের ক্ষেত্রগুলির বাইরে রয়েছে।

সুতরাং, অর্থবহ সমাধানের স্বার্থে, ধরে নেওয়া যাক যে অনুপস্থিত ডেটা পর্যবেক্ষণযোগ্য ডেটার সাথে সম্পর্কযুক্ত। আমরা বলেন পারস্পরিক সম্পর্ক ব্যবহার করব।

এমন বেশ কয়েকটি ডেটা মাইনিং অ্যালগরিদম রয়েছে যা এই জাতীয় সমস্যা সমাধানের চেষ্টা করে। আপনি ব্যাগিং-এন-বুস্টিংয়ের মতো 'এনসেম্বল পদ্ধতিগুলি' বা 'অ্যাপ্রোরি এবং এফপি-গ্রোথের মতো' ঘন ঘন প্যাটার্ন মাইনিং 'অ্যালগরিদমগুলি চেষ্টা করতে পারেন। আপনি শক্তিশালী পরিসংখ্যানগুলিতেও পদ্ধতিগুলি অন্বেষণ করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.