মেশিন লার্নিংয়ে নমনীয় এবং অবিচ্ছিন্ন মডেল


10

আমি বিভিন্ন পরিস্থিতিতে নমনীয় মডেল (অর্থাত্ স্প্লাইনস) বনাম ইনফ্লেসিটেবল মডেলগুলির (যেমন লিনিয়ার রিগ্রেশন) তুলনা করার একটি সহজ প্রশ্ন পেয়েছি। প্রশ্ন হচ্ছে:

সাধারণভাবে, আমরা কি একটি নমনীয় পরিসংখ্যান শেখার পদ্ধতির কার্যকারিতা আশা করতে পারি যে একটি অবিচ্ছেদ্য পদ্ধতির চেয়ে আরও ভাল বা খারাপ সঞ্চালন করা যখন:

  1. ভবিষ্যতবক্তা সংখ্যা p অত্যন্ত বড়, এবং পর্যবেক্ষণ সংখ্যা n ছোট?
  2. ত্রুটি পদগুলির বৈকল্পিক, যেমন , অত্যন্ত উচ্চ?σ2=Var(e)

আমি মনে করি (1) এর জন্য, যখন n ছোট হয়, নমনীয় মডেলগুলি আরও ভাল (নিশ্চিত নয়)। (2) এর জন্য, আমি জানি না কোন মডেলটি (তুলনামূলকভাবে) ভাল।


সাধারণীকরণ ত্রুটি তুচ্ছ থেকে অনেক দূরে। দুর্ভাগ্যক্রমে থাম্বের নিয়মগুলি এ ক্ষেত্রে খুব বেশি সহায়তা করে না।
মার্ক ক্লেসেন

8
দেখে মনে হচ্ছে এটি জেমস, উইটেন, হাসটি, তিবশিরানীর পরিসংখ্যান শিক্ষার পরিচিতি থেকে এসেছে
নোয়েল ইভান্স

1. একটি নমনীয় পদ্ধতিতে অল্প সংখ্যক পর্যবেক্ষণকে উপভোগ করবে। ২. একটি নমনীয় পদ্ধতি ত্রুটির শর্তগুলির সাথে শব্দের সাথে ফিট করে এবং বৈচিত্র্য বাড়িয়ে তোলে।
জ্যানার্ক

উত্তর:


3

এই 2 পরিস্থিতিতে তুলনামূলক কর্মক্ষমতা নমনীয় বনাম ইনফ্লেসিটেবল মডেল এর উপরও নির্ভর করে:

  • লিনিয়ার বা খুব অ-লিনিয়ারের নিকটেই সত্য সম্পর্ক y = f (x);
  • আপনি কি "নমনীয়" মডেলটিকে ফিট করার সময় নমনীয়তার ডিগ্রিটি সুর / সীমাবদ্ধ করেন?

যদি সম্পর্ক লিনিয়ারের খুব কাছাকাছি থাকে এবং আপনি নমনীয়তা বাধা না রাখেন তবে লিনিয়ার মডেলটিকে উভয় ক্ষেত্রেই আরও ভাল পরীক্ষা ত্রুটি দেওয়া উচিত কারণ নমনীয় মডেল উভয় ক্ষেত্রেই উপযোগী হতে পারে।

আপনি এটি হিসাবে এটি দেখতে পারেন:

  • উভয় ক্ষেত্রেই ডেটাতে সত্য সম্পর্কের বিষয়ে পর্যাপ্ত তথ্য থাকে না (প্রথম ক্ষেত্রে সম্পর্কটি উচ্চ মাত্রিক এবং আপনার কাছে পর্যাপ্ত ডেটা নেই, দ্বিতীয় ক্ষেত্রে এটি শব্দের দ্বারা ক্ষতিগ্রস্থ হয়েছে) তবে
    • লিনিয়ার মডেল সত্য সম্পর্ক সম্পর্কে কিছু বাহ্যিক পূর্বের তথ্য (রৈখিক সম্পর্কের সীমাবদ্ধ শ্রেণি) এবং নিয়ে আসে
    • পূর্বের তথ্যটি সঠিক হিসাবে দেখা দেয় (সত্য সম্পর্ক লিনিয়ারের খুব কাছাকাছি থাকে)।
  • যদিও নমনীয় মডেলটিতে পূর্বের তথ্য থাকে না (এটি কোনও কিছুর সাথে মাপসই করতে পারে), তাই এটি শব্দের সাথে মানিয়ে যায়।

তবে সত্যিকারের সম্পর্কটি যদি খুব অ-রৈখিক হয় তবে কে জিতবে তা বলা শক্ত (দুজনেই আলগা হবে :))।

যদি আপনি নমনীয়তার ডিগ্রি সুর / সীমাবদ্ধ করেন এবং এটি সঠিক উপায়ে করেন (ক্রস-বৈধকরণের মাধ্যমে বলুন) তবে নমনীয় মডেলটি সব ক্ষেত্রেই জিততে হবে।


4

অবশ্যই এটি অন্তর্নিহিত ডেটার উপর নির্ভর করে যা কোনও মডেল ফিট করার চেষ্টা করার আগে এর বৈশিষ্ট্যগুলির কিছু অনুসন্ধান করার জন্য আপনাকে সর্বদা অন্বেষণ করা উচিত তবে আমি থাম্বের সাধারণ নিয়ম হিসাবে যা শিখেছি তা হ'ল:

  • একটি নমনীয় মডেল আপনাকে একটি বৃহত নমুনার আকার (বৃহত্তর এন) এর পুরো সুবিধা নিতে দেয়।
  • ননলাইনার প্রভাবটি খুঁজে পেতে একটি নমনীয় মডেল প্রয়োজন হবে।
  • একটি নমনীয় মডেল আপনাকে সমস্যার মধ্যে খুব বেশি শব্দ করতে পারে (যখন ত্রুটির শর্তগুলির বৈকল্পিকতা বেশি থাকে)।

1

ঠিক আছে, দ্বিতীয় অংশের জন্য, আমি মনে করি আরও বেশি নমনীয় মডেল মডেলটিকে শক্ত করে তুলতে চেষ্টা করবে এবং প্রশিক্ষণের ডেটাতে উচ্চ শব্দ রয়েছে, তাই নমনীয় মডেলও সেই শব্দটি শেখার চেষ্টা করবে এবং এর ফলে আরও পরীক্ষামূলক ত্রুটি হবে। আমি এই প্রশ্নের উত্স জানি কারণ আমি একই বইটিও পড়ছি :)


1

প্রথম অংশের জন্য, আমি আশা করব যে সীমিত সংখ্যক পর্যবেক্ষণের সাথে অবিচ্ছিন্ন মডেলটি আরও ভাল পারফর্ম করবে। যখন এন খুব ছোট হয়, উভয় মডেলই (এটি নমনীয় বা জটিল নয়) যথেষ্ট পরিমাণে পূর্বাভাস দেয় না। যাইহোক, নমনীয় মডেলটি ডেটাগুলিকে অত্যধিক মানিয়ে তুলবে এবং নতুন টেস্টসেটের ক্ষেত্রে আরও খারাপ ব্যবহার করবে।

আদর্শভাবে, আমি ফিটিংটি উন্নত করার জন্য আরও পর্যবেক্ষণ সংগ্রহ করব, তবে যদি এটি না হয় তবে আমি নতুন টেস্টসেটের সাহায্যে পরীক্ষার ত্রুটিটি হ্রাস করার চেষ্টা করে জটিল মডেলটি ব্যবহার করব।


0

দ্বিতীয় প্রশ্নের জন্য আমি বিশ্বাস করি যে উত্তরটি উভয়ই সমানভাবে সম্পাদন করবে (ধরে নিবেন যে এই ত্রুটিগুলি অপরিবর্তনীয়, অর্থাৎ এই ত্রুটিটি)। 18 পৃষ্ঠায় পরিসংখ্যান শিক্ষার একটি ভূমিকাতে আরও তথ্য সরবরাহ করা হয়েছে (বিষয়: কেন অনুমানের ) যেখানে লেখক বলার ব্যাখ্যা দিয়েছেনf

নির্ভুলতা জন্য একটি পূর্বানুমান যেমন দুই পরিমাণে, যা আমরা ডাকব উপর নির্ভর করে রূপান্তরযোগ্য ত্রুটি এবং সরলীকরণযোগ্য ত্রুটি । সাধারণভাবে, জন্য একটি নিখুঁত হিসাব হবে না , এবং এই ভ্রম কিছু ত্রুটি প্রবর্তন করা হবে। এই ত্রুটিটি হ্রাসযোগ্য কারণ আমরা সম্ভাব্যভাবে appropriate অনুমান করার জন্য সবচেয়ে উপযুক্ত পরিসংখ্যান শেখার কৌশলটি ব্যবহার করে এর যথার্থতা উন্নত করতে পারি । তবে, জন্য একটি নিখুঁত অনুমান তৈরি করা সম্ভব হয়েছিল , যাতে আমাদের আনুমানিক প্রতিক্রিয়া রূপটি নেয়YY ওয়াই = ( এক্স ) ওয়াই ε এক্স ε εf^ff^f^fY^=f(X), আমাদের ভবিষ্যদ্বাণীটিতে এখনও কিছু ত্রুটি থাকবে! এটি কারণ হ'ল এরও একটি ফাংশন , যা সংজ্ঞা অনুসারে ব্যবহার করে ভবিষ্যদ্বাণী করা যায় না । সুতরাং, সাথে সম্পর্কিত পরিবর্তনশীলতা আমাদের পূর্বাভাসের যথার্থতাকেও প্রভাবিত করে। এটি অদম্য ত্রুটি হিসাবে পরিচিত , কারণ আমরা কতটা ভাল অনুমান করি না কেন , আমরা দ্বারা প্রবর্তিত ত্রুটি হ্রাস করতে পারি না । YϵXϵfϵ


আমি এটা বুঝতে পারি না।
মাইকেল আর চেরনিক

0

প্রতিটি অংশের জন্য (ক) (ডি) মাধ্যমে, নির্দেশিত করুন i। বা ii। সঠিক, এবং আপনার উত্তর ব্যাখ্যা। সাধারণভাবে, আমরা কি একটি নমনীয় পরিসংখ্যান শেখার পদ্ধতির কার্যকারিতা আশা করতে পারি যে একটি অবিচ্ছেদ্য পদ্ধতির চেয়ে আরও ভাল বা খারাপ সঞ্চালন করা যখন:

নমুনা আকার এন অত্যন্ত বড়, এবং p ভবিষ্যদ্বাণীকারী সংখ্যা কম?

উত্তম. একটি নমনীয় পদ্ধতিটি ডেটাটি আরও কাছাকাছি এবং বৃহত নমুনার আকারের সাথে ফিট করে, একটি অবিচ্ছেদ্য পদ্ধতির চেয়ে আরও ভাল সম্পাদন করতে পারে।

P ভবিষ্যদ্বাণীকারী সংখ্যা অত্যন্ত বড়, এবং পর্যবেক্ষণ সংখ্যা কম?

খারাপ। একটি নমনীয় পদ্ধতি অল্প সংখ্যক পর্যবেক্ষণকে উপভোগ করবে।

ভবিষ্যদ্বাণীকারীদের এবং প্রতিক্রিয়াগুলির মধ্যে সম্পর্ক অত্যন্ত অ-রৈখিক?

উত্তম. স্বাধীনতার আরও ডিগ্রি সহ, একটি নমনীয় পদ্ধতিটি একটি অবিচ্ছেদ্যের চেয়ে ভাল ফিট করে।

ত্রুটি পদগুলির বৈকল্পিক, যেমন σ2 = ভার (ε) অত্যন্ত উচ্চ?

খারাপ। একটি নমনীয় পদ্ধতি ত্রুটির শব্দের সাথে শব্দের সাথে খাপ খায় এবং বৈকল্পিক বৃদ্ধি করে।

এখান থেকে নেওয়া হয়েছে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.