কীভাবে ওকামের রেজার নীতিটি মেশিন লার্নিংয়ে কাজ করবে


11

চিত্রটিতে প্রদর্শিত নিম্নলিখিত প্রশ্নটি সম্প্রতি এক পরীক্ষার সময় জিজ্ঞাসা করা হয়েছিল। আমি নিশ্চিত নই যে আমি ওসামের রেজার নীতিটি সঠিকভাবে বুঝতে পেরেছি কিনা। প্রশ্নে প্রদত্ত বিতরণ এবং সিদ্ধান্তের সীমানা অনুসারে এবং ওসামের রেজার অনুসরণ করে উভয় ক্ষেত্রেই সিদ্ধান্তের সীমানা বি উত্তর হওয়া উচিত। কারণ ওকামের রেজার হিসাবে, সহজ শ্রেণিবদ্ধকারী চয়ন করুন যা জটিলটির চেয়ে ভাল কাজ করে।

আমার অনুধাবন সঠিক এবং নির্বাচিত উত্তর উপযুক্ত কিনা তা দয়া করে কেউ সাক্ষ্য দিতে পারেন? আমি যেমন মেশিন লার্নিংয়ের একজন শিক্ষানবিস হিসাবে দয়া করে সহায়তা করুন

প্রশ্নটি


2
3.328 "যদি কোনও চিহ্ন প্রয়োজন হয় না তবে তা অর্থহীন That এটি ওকামের রেজার অর্থ" " ট্র্যাটাটাস লজিকো-ফিলোসফিস থেকে উইটজেনস্টেইন
জর্জি ব্যারিয়াস

উত্তর:


13

ওকামের রেজার নীতি:

দুটি অনুমান (এখানে, সিদ্ধান্তের সীমানা) রয়েছে যা একই অভিজ্ঞতাগত ঝুঁকি রয়েছে (এখানে, প্রশিক্ষণের ত্রুটি), একটি সংক্ষিপ্ত ব্যাখ্যা (এখানে, কম পরামিতি সহ একটি সীমানা) দীর্ঘ ব্যাখ্যার চেয়ে আরও বৈধ হতে পারে।

আপনার উদাহরণে, A এবং B উভয়েরই শূন্য প্রশিক্ষণের ত্রুটি রয়েছে, সুতরাং বি (সংক্ষিপ্ত ব্যাখ্যা) পছন্দ করা হয়।

প্রশিক্ষণের ত্রুটি যদি এক না হয় তবে কী হবে?

যদি সীমানা A এর বি এর চেয়ে ছোট প্রশিক্ষণের ত্রুটি থাকে তবে নির্বাচন করা জটিল হয়ে ওঠে। আমাদের "ব্যাখ্যা আকার" পরিমাণটিকে "অভিজ্ঞতামূলক ঝুঁকি" হিসাবে সমান করতে হবে এবং দুটিকে একটি স্কোরিং ফাংশনে একত্রিত করতে হবে, তারপরে A এবং B এর তুলনা চালিয়ে যেতে হবে উদাহরণ হ'ল আকাইকে তথ্য মানদণ্ড (এআইসি) যা অভিজ্ঞতাগত ঝুঁকির সাথে সংহত হয় (নেতিবাচক সাথে পরিমাপ করা হয়) লগ-সম্ভাবনা) এবং ব্যাখ্যা আকার (পরামিতি সংখ্যা সঙ্গে পরিমাপ করা) এক স্কোর।

পার্শ্ব নোট হিসাবে, এআইসি সমস্ত মডেলের জন্য ব্যবহার করা যাবে না, এআইসিরও অনেক বিকল্প রয়েছে।

বৈধতা সেট সম্পর্কিত

অনেক ব্যবহারিক ক্ষেত্রে, মডেল যখন আরও জটিলতার দিকে অগ্রসর হয় (বৃহত্তর ব্যাখ্যা) একটি নিম্ন প্রশিক্ষণের ত্রুটিতে পৌঁছানোর জন্য, তখন এআইসি এবং এর মতো একটি বৈধতা সেট (এমন একটি সেট যা মডেল প্রশিক্ষণপ্রাপ্ত নয়) দ্বারা প্রতিস্থাপন করা যেতে পারে। যখন বৈধতা ত্রুটি (বৈধতা সেটটিতে মডেলের ত্রুটি) বৃদ্ধি শুরু হয় তখন আমরা অগ্রগতিটি থামি। এইভাবে, আমরা নিম্ন প্রশিক্ষণের ত্রুটি এবং সংক্ষিপ্ত ব্যাখ্যার মধ্যে ভারসাম্য রোধ করি।


3

ওসাম রেজারটি পার্সিমনি অধ্যক্ষের প্রতিশব্দ মাত্র। (কিআইএসএস, এটিকে সহজ এবং বোকা রাখুন)) বেশিরভাগ অ্যালগোস এই অধ্যক্ষটিতে কাজ করে।

উপরের প্রশ্নে সাধারণ বিভাজক সীমানা ডিজাইনে ভাবতে হবে,

প্রথম ছবিতে ডি 1 এর উত্তরটি হল বি। যেমন এটি 2 টি নমুনা পৃথকীকরণের জন্য সর্বোত্তম লাইনকে সংজ্ঞায়িত করে, যেমন একটি বহুপদী এবং ওভার-ফিটিংয়ে শেষ হতে পারে। (আমি যদি এসভিএম ব্যবহার করতাম তবে সেই লাইনটি আসত)

একইভাবে চিত্র 2 ডি 2 এর উত্তর হ'ল বি।


2

ডেটা-ফিটিংয়ের কাজে ওসামের রেজার:

  1. প্রথমে রৈখিক সমীকরণ চেষ্টা করুন
  2. যদি (1) বেশি সাহায্য না করে - স্বল্প শর্তাবলী এবং / অথবা ভেরিয়েবলের আরও কম ডিগ্রি সহ একটি অ-রৈখিক চয়ন করুন।

D2 গ্রাহকের

Bস্পষ্টতই জয়ী হয়, কারণ এটি লিনিয়ার সীমানা যা উপস্থাপিতভাবে ডেটা পৃথক করে। ("সুন্দরভাবে" কী তা আমি বর্তমানে সংজ্ঞায়িত করতে পারি না You অভিজ্ঞতার সাথে আপনার এই অনুভূতিটি বিকাশ করতে হবে)। Aসীমানাটি অত্যন্ত অ-রৈখিক যা একটি জিটরিত সাইন ওয়েভের মতো মনে হয়।

D1

তবে আমি এই সম্পর্কে নিশ্চিত নই। Aসীমানা একটি বৃত্তের মতো এবং Bকঠোরভাবে রৈখিক। আইএমএইচও, আমার জন্য - সীমানা রেখাটি বৃত্ত বিভাগ বা কোনও রেখাংশ নয়, - এটি প্যারোবোলার মতো বক্রাকার:

এখানে চিত্র বর্ণনা লিখুন

সুতরাং আমি একটি C:-)


আপনি কেন ডি 1 এর জন্য একটি আন্তঃরেখা লাইন চান তা সম্পর্কে আমি এখনও অনিশ্চিত। ওকামের রেজার কাজ করে এমন সহজ সমাধানটি ব্যবহার করতে বলে। আরও ডেটা অনুপস্থিত, বি একটি পুরোপুরি বৈধ বিভাগ যা ডেটা ফিট করে। যদি আমরা আরও ডেটা পেয়েছি যা বি এর ডেটা সেটটিতে আরও বক্ররেখার পরামর্শ দেয় তবে আমি আপনার যুক্তিটি দেখতে পেলাম, তবে সি এর অনুরোধ করা আপনার পয়েন্টের (1) বিপরীতে যায়, কারণ এটি একটি লিনিয়ার সীমানা যা কাজ করে।
বিতরণ করুন

কারণ পয়েন্টের বাম বৃত্তাকার ক্লাস্টারের দিকে লাইন থেকে প্রচুর খালি জায়গা রয়েছেB । এর অর্থ হ'ল যে কোনও নতুন এলোমেলো পয়েন্ট আগমনের খুব বাম দিকে সার্কুলার ক্লাস্টারে নির্ধারিত হওয়ার খুব বেশি সুযোগ রয়েছে এবং ডানদিকে ক্লাস্টারে নিয়োগের জন্য খুব ছোট একটি সুযোগ রয়েছে। সুতরাং, Bবিমানে নতুন র্যান্ডম পয়েন্টগুলির ক্ষেত্রে লাইনটি সর্বোত্তম সীমানা নয়। এবং আপনি ডেটার
এলোমেলোতা

0

আমি নিশ্চিত নই যে আমি ওসামের রেজার নীতিটি সঠিকভাবে বুঝতে পেরেছি কিনা।

আসুন প্রথমে ওসাকামের রেজার ঠিকানা দেওয়া যাক:

ওকামের রেজার [..] বলেছে যে "জটিল সমাধানের চেয়ে সহজ সমাধানগুলি সঠিক হওয়ার সম্ভাবনা বেশি।" - উইকি

এর পরে, আপনার উত্তরটি সম্বোধন করুন:

কারণ ওকামের রেজার হিসাবে, সহজ শ্রেণিবদ্ধকারী চয়ন করুন যা জটিলটির চেয়ে ভাল কাজ করে।

এটি সঠিক কারণ মেশিন লার্নিংয়ে ওভারফিট করা একটি সমস্যা। আপনি যদি আরও জটিল মডেল চয়ন করেন তবে আপনি পরীক্ষার ডেটা শ্রেণিবদ্ধ করার সম্ভাবনা বেশি এবং আপনার সমস্যার প্রকৃত আচরণ নয়। এর অর্থ এই যে আপনি যখন নতুন ডেটা নিয়ে ভবিষ্যদ্বাণী করতে আপনার জটিল শ্রেণিবদ্ধকারী ব্যবহার করেন, তখন সাধারণ শ্রেণিবদ্ধের চেয়ে খারাপ হওয়ার সম্ভাবনা বেশি থাকে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.