সর্বনিম্ন স্কোয়ারের ক্ষেত্রে প্রাকৃতিক সংখ্যার দিকে বায়াস


14

কেন আমরা কমান করতে চাইছ x^2পরিবর্তে কমানোর এর |x|^1.95বা |x|^2.05। সংখ্যাটি ঠিক দুটি হওয়ার কেন কারণ রয়েছে বা এটি কেবল একটি সম্মেলন যা গণিতকে সরল করার সুবিধা রয়েছে?

উত্তর:


5

এই প্রশ্নটি বেশ পুরানো তবে আমার কাছে আসলে একটি উত্তর আছে যা এখানে উপস্থিত হয় না এবং এটির একটি বাধ্যতামূলক কারণ দেয় (কিছু যুক্তিসঙ্গত অনুমানের অধীনে) স্কোয়ার ত্রুটিটি সঠিক, অন্য কোনও শক্তি ভুল হলেও।

বলুন যে আমাদের কাছে কিছু ডেটা D=(x1,y1),(x2,y2),...,(xn,yn) এবং করতে চান রৈখিক (অথবা যাই হোক না কেন) ফাংশন এটি f যে শ্রেষ্ঠ, ডাটা অনুমান অর্থে যে সম্ভাব্যতা ঘনত্ব মধ্যে pf(D) এই তথ্য ব্যাপারে সর্বোচ্চ হওয়া উচিত পর্যবেক্ষক জন্য f (এই বলা হয় সর্বোচ্চ সম্ভাবনা প্রাক্কলন )। যদি আমরা ধরে নিই যে ডেটা f এর দ্বারা fপ্রমিত বিচ্যুতি \ সিগমা সহ একটি সাধারণভাবে বিতরণ করা ত্রুটি শব্দটি দিয়ে থাকে σতবে

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
এটি সমান
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
সুতরাং p_f (D) সর্বাধিক করা \ যোগ_ {i = 1} ^ {n} (y_i - f (\ mathbf {x} _i)) ^ 2pf(D) হ্রাস করে সম্পন্ন হয় , যা স্কোয়ার ত্রুটির শর্তগুলির যোগফল।i=1n(yif(xi))2

এটিকে বিজ্ঞপ্তি বলে মনে হচ্ছে, কেন আপনি সাধারণত বিতরণ করা ত্রুটি শব্দটি গ্রহণ করবেন?
জো

@ জো আপনাকে সবসময় করা উচিত নয়, তবে ত্রুটি শব্দটি সম্পর্কে আপনি যদি কেবল জানেন যে এটির 0 এর একটি গড় এবং একটি সসীম প্রত্যাশিত পরম মান থাকে তবে এটি সর্বাধিক-এনট্রপি অনুমান, সুতরাং এটি অজানা যাকেই দাঁড়াতে পারে আপনার আসলে ত্রুটি ফাংশন রয়েছে। ত্রুটি বিতরণ সম্পর্কে আপনার কাছে যদি অতিরিক্ত তথ্য থাকে তবে আমি মনে করি আপনি এটি ব্যবহার করতে পারেন এবং আরও সঠিক সর্বাধিক সম্ভাবনা অনুমানকারীটি খুঁজে পেতে পারেন।

"যদি আপনি ত্রুটি শব্দটির একমাত্র জিনিসটি জানেন তবে এটির 0 এর গড় অর্থ এবং একটি সীমাবদ্ধ প্রত্যাশিত নিখুঁত মান থাকে তবে এটি সর্বাধিক-এনট্রপি অনুমান" - সর্বাধিক এনট্রপি বিতরণগুলির প্রতিটি উত্স ল্যাপলেস বিতরণ হিসাবে প্রাপ্ত হয়েছে সুনির্দিষ্ট প্রত্যাশিত পরম মানের জন্য সর্বাধিক বন্টন, যেখানে গাউসিয়ান একটি (জ্ঞাত) সীমাবদ্ধ প্রত্যাশিত স্কোয়ার নিখুঁত মানের সর্বাধিক, এক উদাহরণ হিসাবে দেখুন stats.stackexchange.com/questions/82410/… আপনার কাছে দ্বিমত পোষণযোগ্য উদ্ধৃতি রয়েছে কি? ?
জো

আপনি জানেন, আমি না। আমি ধরে নিচ্ছি তুমি ঠিক আছ (যদিও আমি কোনও কারণে আমার মন্তব্য কীভাবে সম্পাদনা করব তা বুঝতে পারি না)

14

আপনি এক্স 2 than 2 ব্যতীত অন্যান্য নিয়মগুলি ন্যূনতম করার চেষ্টা করতে পারবেন না এমন কোনও কারণ নেই, কোয়ান্টাইল রিগ্রেশন সম্পর্কিত পুরো বই রয়েছে, উদাহরণস্বরূপ, যা কম বা কম হ্রাস করা হচ্ছে | x | আপনি যদি মিডিয়ানের সাথে কাজ করছেন এটি করা সহজভাবে করা সহজ এবং ত্রুটি মডেলটির উপর নির্ভর করে ভাল অনুমান দিতে পারে না (এর প্রেক্ষিতে স্বল্প-বৈকল্পিক বা পক্ষপাতহীন বা কম এমএসই অনুমানকারী কিনা তার উপর নির্ভর করে)।

কেন আমরা আসল সংখ্যার মূল্যবান মুহুর্তগুলির চেয়ে পূর্ণসংখ্যার মুহুর্তগুলিকে প্রাধান্য দিই, মূল কারণটি সম্ভবত সম্ভবত যখন সংখ্যার পূর্ণসংখ্যার শক্তিগুলি সর্বদা প্রকৃত সংখ্যার ফলস্বরূপ হয়, তখন নেতিবাচক বাস্তব সংখ্যার অ-পূর্ণসংখ্যার শক্তি জটিল সংখ্যা তৈরি করে, এইভাবে ব্যবহারের প্রয়োজন হয় একটি পরম মান। অন্য কথায়, সত্যিকারের মূল্যবান র‌্যান্ডম ভেরিয়েবলের তৃতীয় মুহূর্তটি বাস্তব হলেও, ৩.২ তম মুহূর্তটি অগত্যা বাস্তব নয় এবং তাই ব্যাখ্যা সমস্যার কারণ হয় causes

তা ছাড়া ...

  1. এলোমেলো ভেরিয়েবলের পূর্ণসংখ্যার মুহুর্তগুলির জন্য বিশ্লেষণাত্মক অভিব্যক্তিগুলি যথাযথভাবে বাস্তব-মূল্যবান মুহুর্তগুলির চেয়ে খুঁজে পাওয়া অনেক সহজ, তা কার্যকরী বা অন্য কোনও পদ্ধতি উত্পন্ন করেই হোক। এগুলি হ্রাস করার পদ্ধতিগুলি এইভাবে লেখা সহজ are
  2. পূর্ণসংখ্যার মুহুর্তগুলির ব্যবহারগুলি এমন অভিব্যক্তিগুলিতে বাড়ে যা বাস্তব-মূল্যবান মুহুর্তগুলির চেয়ে বেশি ট্র্যাকটেবল।
  3. আমি একটি বাধ্যতামূলক কারণ সম্পর্কে ভাবতে পারি না যে (উদাহরণস্বরূপ) এক্সের পরম মানের 1.95 তম মুহূর্তটি এক্সের দ্বিতীয় মুহুর্তের তুলনায় (উদাহরণস্বরূপ) আরও ভাল মানানসই সম্পত্তি সরবরাহ করবে, যদিও এটি তদন্ত করা আকর্ষণীয় হতে পারে
  4. L2 আদর্শ (বা স্কোয়ার ত্রুটি) এর জন্য নির্দিষ্ট, এটি ডট পণ্যগুলির মাধ্যমে রচনা করা যেতে পারে, যা গণনার গতিতে ব্যাপক উন্নতি করতে পারে। এটি হিলবার্ট স্পেস যা একমাত্র এলপিস স্থান, এটি একটি দুর্দান্ত বৈশিষ্ট্য।

8

আমরা বর্ণনাকারীদের মধ্যে যে বৈকল্পিক রেখেছি তা হ্রাস করার চেষ্টা করি। বৈচিত্র কেন? এই প্রশ্নটি পড়ুন ; এটি (বেশিরভাগ নিঃশব্দ) অনুমানের সাথে একত্রিত হয় যে ত্রুটিগুলি সাধারণত বিতরণ করা হয়।

সম্প্রসারণ:
দুটি অতিরিক্ত যুক্তি:

  1. বৈকল্পিকগুলির জন্য, আমাদের এই দুর্দান্ত "আইন" রয়েছে যে বৈচিত্রগুলির যোগফল অসামঞ্জস্যিত নমুনার জন্য যোগফলের সমান্তরালের সমান। যদি আমরা ধরে নিই যে ত্রুটিটি কেসের সাথে সম্পর্কযুক্ত নয়, তবে স্কোয়ারের অবশিষ্টাংশকে ন্যূনতম করা সুস্পষ্টভাবে ব্যাখ্যা করা বৈকল্পিকতা সর্বাধিক করে তোলার পক্ষে কাজ করবে, সম্ভবত এটি খুব ভাল নয় তবে এখনও জনপ্রিয় মানের পরিমাপ।

  2. আমরা যদি কোনও ত্রুটির স্বাভাবিকতা ধরে নিই তবে সর্বনিম্ন স্কোয়ার ত্রুটি অনুমানক একটি সর্বাধিক সম্ভাবনা।


1
অন্যান্য থ্রেডের উত্তরটি সত্যই ব্যাখ্যা করে না যে 2 অন্যান্য মানের তুলনায় 2 এর চেয়ে ভাল তবে কোনও প্রাকৃতিক সংখ্যা নয় কেন তার চেয়ে ভাল মান।
খ্রিস্টান

আমি মনে করি এটি করে; তবুও আমি উত্তরটি প্রসারিত করার চেষ্টা করব।

সুতরাং, যদি ত্রুটিগুলি সাধারণত বিতরণ না করা হয়, তবে উদাহরণস্বরূপ অন্য ল্যাভি-স্ট্যাবিলিটি বিতরণ অনুসারে, এটি 2 এর চেয়ে পৃথক কোনও এক্সপোনেন্ট ব্যবহার করার জন্য অর্থ প্রদান করতে পারে?
রাস্কোলনিকভ

মনে রাখবেন, পরিচিত বিতরণটির জন্য সাধারণ বিতরণটি সর্বাধিক "সতর্ক" হয় (কারণ এটি স্থির বৈকল্পিকতার সাথে সমস্ত ঘনত্বের মধ্যে সর্বাধিক এনট্রপি রয়েছে)। এটি ডেটা দ্বারা সবচেয়ে বেশি বলা হয়। বা অন্য কোনও উপায়ে বলা যাক, একই বৈকল্পিকতা সহ "বৃহত" ডেটা সেটগুলির জন্য, "আপনাকে" একটি বিতরণ পাওয়ার জন্য অবিশ্বাস্যভাবে "চেষ্টা" করতে হবে যা একটি স্বাভাবিকের চেয়ে আলাদা।
সম্ভাব্যতাব্লোগিক

8

সাধারণ সর্বনিম্ন স্কোয়ারগুলিতে (A'A) the (- 1) x = A'b এর সমাধান স্কোয়ার ত্রুটির ক্ষতি হ্রাস করে এবং এটি সর্বাধিক সম্ভাবনার সমাধান।

সুতরাং, মূলত কারণ এই historicতিহাসিক ক্ষেত্রে গণিতটি সহজ ছিল।

তবে সাধারণত লোকেরা ক্ষয়ক্ষতি , লজিস্টিক, কৌকিক, জলাশয়, হুবার ইত্যাদির মতো নানান ক্ষতির বিভিন্ন কার্যকে হ্রাস করে These এ জাতীয় বহিরাগত ক্ষতি ফাংশনগুলির জন্য সাধারণত প্রচুর পরিমাণে গণ্য সংস্থান প্রয়োজন হয়, এবং বন্ধ ফর্ম সমাধানগুলি নেই (সাধারণভাবে), তাই তারা কেবল এখন আরও জনপ্রিয় হতে শুরু করেছে।


1
ক্ষতির ধারণা প্রবর্তনের জন্য +1 (তবে "ক্ষতিকারক", ইত্যাদি কি নয়, বিতরণগুলি ক্ষতির ক্রিয়াকলাপ নয়?) 50তিহাসিকভাবে রৈখিক ক্ষতি হ'ল 1750 সালে আনুষ্ঠানিকভাবে বিকশিত হওয়া প্রথম পদ্ধতির ছিল এবং এর জন্য একটি সরল জ্যামিতিক সমাধান উপলব্ধ ছিল। আমি বিশ্বাস করি যে ১৮০৯ সালে প্রকাশের ক্ষেত্রে ল্যাপ্লেস এই এবং দ্বিগুণ-তাত্পর্য বিতরণের মধ্যে সম্পর্ক স্থাপন করেছিলেন (যার জন্য এমএলই নিরঙ্কুশ ত্রুটি নয়, স্কোয়ার ত্রুটি নয়)। এমএলএইচ থাকা এবং গাণিতিকভাবে সহজ হওয়ার মানদণ্ডের সাহায্যে স্কোয়ার ক্ষতিটি স্বতন্ত্রভাবে আলাদা করা যায় না।
শুক্র

তারা উভয়ই বিভিন্ন প্রসঙ্গে বিতরণ এবং ক্ষতির ফাংশন।
জো

পূর্ববর্তী জবাবটিতে আমি খুব দ্রুত প্রবেশ করানো টিপলাম - তাত্পর্যপূর্ণ ক্ষতি হ্রাসের সাথে ব্যাপকভাবে জড়িত (ফ্রেডম্যান হাসিটি এবং তিবশিরানীর পরিসংখ্যানের দৃষ্টিভঙ্গি দেখুন), যেখানে এটি একটি বিতরণের পরিবর্তে ক্ষতি, লগতে লজিস্টিক রিগ্রেশন কোরস্প্যান্ডস, ল্লেস একটি বিতরণ তবে নিখুঁত মান হ্রাসের সাথে সঙ্গতিপূর্ণ - সুতরাং বেশিরভাগ অংশের জন্য আমি অত্যন্ত নিচু হয়ে যাচ্ছিলাম, এটি দেখানোর জন্য ধন্যবাদ। তবে এল 1 লোকসানের একটি জ্যামিতিক সমাধান রয়েছে, এটি বিশ্লেষণগতভাবে বন্ধ রূপ নয়, তাই আমি এর সমাধানটিকে খুব সহজেই বলি call
জো

1

আমার উপলব্ধিটি হ'ল যেহেতু আমরা ত্রুটিগুলি হ্রাস করার চেষ্টা করছি, আমাদের এমন পরিস্থিতিতে নিজেকে না পাওয়ার একটি উপায় খুঁজে বের করতে হবে যেখানে ত্রুটিগুলির মধ্যে নেতিবাচক পার্থক্যের যোগফল ত্রুটিগুলির মধ্যে ইতিবাচক পার্থক্যের যোগফলের সমান হয় তবে আমরা পাইনি একটি ভাল ফিট। আমরা ত্রুটিগুলির পার্থক্যের যোগফলকে স্কোয়ার করে এটি করি যার অর্থ ত্রুটির নেতিবাচক এবং ধনাত্মক পার্থক্য উভয়ই ইতিবাচক হয়ে যায় ( )। যদি আমরা ধনাত্মক পূর্ণসংখ্যা ব্যতীত অন্য যে কোনও কিছুর ক্ষমতায় উত্থাপন করি তবে আমরা এই সমস্যাটির সমাধান করব না কারণ ত্রুটিরগুলির একই চিহ্ন থাকবে না, বা যদি আমরা এমন কোনও জিনিসের উত্থাপন করি যা আমরা পূর্ণসংখ্যা নয় ' জটিল সংখ্যার ক্ষেত্রগুলি।এক্স1×1=1x

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.