আমরা কেন ধরে নিই যে ত্রুটিটি সাধারণত বিতরণ করা হয়?


17

আমি ভাবছি ত্রুটির মডেলিং করার সময় আমরা কেন গাউসি অনুমানটি ব্যবহার করি। ইন স্ট্যানফোর্ড এর এমএল অবশ্যই , প্রফেসর ড এনজি এটি মূলত বর্ণনা দুই বিনয় মধ্যে:

  1. এটি গাণিতিকভাবে সুবিধাজনক। (এটি সর্বনিম্ন স্কোয়ারগুলির সাথে সম্পর্কিত এবং সিউডোয়েন্টার সহ সমাধান করা সহজ)
  2. কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের কারণে, আমরা ধরে নিতে পারি যে প্রক্রিয়াটি প্রভাবিত করে এমন অনেকগুলি অন্তর্নিহিত তথ্য রয়েছে এবং এই স্বতন্ত্র ত্রুটির যোগফল শূন্যের মতো স্বাভাবিক বিতরণের মতো আচরণ করবে। অনুশীলনে, এমনটি মনে হয়।

আমি আসলে দ্বিতীয় অংশে আগ্রহী। কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য আমি যতদূর জানি আইড নমুনাগুলির জন্য কাজ করে তবে আমরা অন্তর্নিহিত নমুনাগুলি আইআইডি হওয়ার গ্যারান্টি দিতে পারি না।

ত্রুটির গাউসীয় ধারণা সম্পর্কে আপনার কোনও ধারণা আছে?


আপনি কোন সেটিংয়ের কথা বলছেন? শ্রেণিবিন্যাস, পেনশন বা আরও সাধারণ কিছু?
tdc

আমি সাধারণ মামলার জন্য প্রশ্ন জিজ্ঞাসা করেছি। বেশিরভাগ গল্পের শুরু গাউসীয় ত্রুটি অনুমান দিয়ে। তবে ব্যক্তিগতভাবে আমার নিজের আগ্রহ ম্যাট্রিক্স ফ্যাক্টরীকরণ এবং লিনিয়ার মডেল সলিউশন (সুতরাং রিগ্রেশন বলুন)।
পেট্রিচোর

উত্তর:


9

আমি মনে করি আপনি মূলত প্রশ্নে মাথার পেরেকটি আঘাত করেছেন, তবে আমি যাইহোক কিছু যুক্ত করতে পারি কিনা তা আমি দেখতে পাচ্ছি। আমি কিছুটা চারিদিক দিয়ে এর উত্তর দিতে যাচ্ছি ...

গাউসীয় অনুমান ব্যর্থ হলে (কীভাবে বিদেশী রয়েছে এই অর্থে) যখন কী করা উচিত সে প্রশ্নটি জোরালো পরিসংখ্যানের ক্ষেত্র পরীক্ষা করে:

এটি প্রায়শই ধরে নেওয়া হয় যে ডেটা ত্রুটিগুলি সাধারণত বিতরণ করা হয়, কমপক্ষে আনুমানিক, বা কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি সাধারণভাবে বিতরণ করা অনুমান উত্পাদন করতে নির্ভর করা যেতে পারে। দুর্ভাগ্যক্রমে, যখন ডেটাতে বিদেশী থাকে, ধ্রুপদী পদ্ধতিতে প্রায়শই খুব খারাপ অভিনয় হয়

এগুলি এমএল-তেও প্রয়োগ করা হয়েছে, যেমন মিকা এল আল-তে। (2001) কার্নেল ফিশার অ্যালগরিদমের কাছে একটি গাণিতিক প্রোগ্রামিং পদ্ধতি , তারা বর্ণনা করে যে কীভাবে হুবারের শক্তসমর্থ ক্ষতি কেডিএফএ (অন্যান্য ক্ষতির ক্রিয়াকলাপ সহ) ব্যবহার করা যেতে পারে। অবশ্যই এটি একটি শ্রেণিবিন্যাস ক্ষতি, কিন্তু কেএফডিএ প্রাসঙ্গিক ভেক্টর মেশিনের সাথে ঘনিষ্ঠভাবে জড়িত (মিকা পেপারের বিভাগ 4 দেখুন)।

প্রশ্নটিতে বর্ণিত হিসাবে, ক্ষতির ফাংশন এবং বায়েশিয়ান ত্রুটি মডেলগুলির মধ্যে একটি ঘনিষ্ঠ সংযোগ রয়েছে ( আলোচনার জন্য এখানে দেখুন )।

তবে এটি এমনটি হতে পারে যে আপনি "ফানকি" ক্ষতির ফাংশন অন্তর্ভুক্ত করার সাথে সাথে অপ্টিমাইজেশন শক্ত হয়ে উঠবে (নোট করুন যে এটি বেয়েশিয়ার বিশ্বেও ঘটেছিল)। সুতরাং অনেক ক্ষেত্রে লোকেরা স্ট্যান্ডার্ড লোকস ফাংশনগুলি অবলম্বন করে যা অনুকূলিতকরণ করা সহজ, এবং পরিবর্তে অতিরিক্ত মডেলটি প্রক্রিয়াকরণ করে তা নিশ্চিত করে ডেটা মডেলটির সাথে সঙ্গতিপূর্ণ।

আপনি যে অন্যটি বিষয় উল্লেখ করেছেন তা হ'ল সিএলটি কেবলমাত্র আইআইডি থাকা নমুনাগুলির ক্ষেত্রে প্রযোজ্য। এটি সত্য, তবে বেশিরভাগ অ্যালগরিদমের অনুমানগুলি (এবং তার সাথে বিশ্লেষণ) একই is আপনি যখন নন-আইআইডি ডেটা দেখতে শুরু করেন, জিনিসগুলি আরও অনেক জটিল হয়ে ওঠে। একটি উদাহরণ যদি অস্থায়ী নির্ভরতা থাকে তবে এই ক্ষেত্রে সাধারণত ধারণাটি গ্রহণ করা হয় যে নির্ভরতা কেবল একটি নির্দিষ্ট উইন্ডো ছড়িয়ে দেয়, এবং নমুনাগুলি তাই এই উইন্ডোর বাইরে প্রায় আইআইডি হিসাবে বিবেচনা করা যেতে পারে (উদাহরণস্বরূপ এই উজ্জ্বল তবে শক্ত কাগজ ক্রোমাটিক পিএসি দেখুন) আই-আইডি-র ডেটার জন্য বাইস বাউন্ডস: র‌্যাঙ্কিং এবং স্টেশনারি-মিক্সিং প্রসেসিসে অ্যাপ্লিকেশনগুলি ), এর পরে সাধারণ বিশ্লেষণ প্রয়োগ করা যেতে পারে।

সুতরাং, হ্যাঁ, এটি কিছুটা সুবিধার্থে নেমে এসেছে, এবং কিছুটা কারণ সত্যিকারের বিশ্বে বেশিরভাগ ত্রুটি গৌসিয়ানকে দেখায় (প্রায়)। অনুমানগুলি লঙ্ঘিত হয়নি তা নিশ্চিত করার জন্য একটি নতুন সমস্যা দেখার সময় অবশ্যই অবশ্যই সর্বদা সতর্ক হওয়া উচিত।


1
+1 বিশেষত দৃust় এবং অ-শক্তিশালী পরিসংখ্যান সম্পর্কে উল্লেখ করার জন্য আপনাকে অনেক ধন্যবাদ। আমি পর্যবেক্ষণ করি যে মিডিয়ান এবং আলফা-ছাঁটাইযুক্ত গড় অনুশীলনে গড়ের চেয়ে সাধারণত ভাল কাজ করে তবে আমি তাদের পিছনের তত্ত্বটি জানতাম না।
পেট্রিচোর

3
সাধারণত বিতরণ করা ডেটার সাথে যুক্ত আরেকটি সুবিধা আইটেম হ'ল 0 পারস্পরিক সম্পর্ক স্বাতন্ত্র্যকে বোঝায়।
অ্যাডামো

3
আইআইডি-নেস সম্পর্কে মন্তব্যটি বেশ সঠিক নয়। ফলাফলগুলি স্বতন্ত্র থাকলেও অভিন্নভাবে বিতরণ না করা হলে (বেশ কয়েকটি) খুব সাধারণ কেন্দ্রীয় সীমাবদ্ধ তত্ত্বগুলি রয়েছে; যেমন লিন্ডবার্গ সিএলটি দেখুন। সিএলটি ফলাফল রয়েছে যা এমনকি স্বাধীনতার প্রয়োজন হয় না; তারা উদাহরণস্বরূপ বিনিময়যোগ্য পর্যবেক্ষণ থেকে উত্থাপিত হতে পারে।
গেস্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.