ভুল সংখ্যার অধীনে পরিসংখ্যানগত অনুক্রম


14

পরিসংখ্যানগত অনুমানের শাস্ত্রীয় চিকিত্সা এই ধারনাটির উপর নির্ভর করে যে একটি সঠিকভাবে নির্দিষ্ট পরিসংখ্যান ব্যবহৃত হয় তা বিদ্যমান। অর্থাত, পর্যবেক্ষণ করা তথ্য y তৈরি করা বিতরণটি পরিসংখ্যানের মডেল M : P ( Y ) M = { P θ ( Y ) : θ Θ } তবে বেশিরভাগ পরিস্থিতিতে আমরা পারি না ধরুন যে এটি সত্যই সত্য। আমি অবাক হয়েছি যদি আমরা সঠিকভাবে নির্দিষ্ট করা অনুমান বাদ দিই তবে স্ট্যাটিস্টিকাল ইনফারেন্স পদ্ধতিগুলির সাথে কী ঘটে।P(Y)yM

P(Y)M={Pθ(Y):θΘ}

আমি ভুল শৃঙ্খলার অধীনে এমএল-অনুমানের উপর হোয়াইট 1982 এর কিছু কাজ পেয়েছি । যুক্তি দেওয়া হয় যে সর্বাধিক সম্ভাবনা মূল্নির্ধারক বিতরণের জন্য একটি সামঞ্জস্যপূর্ণ মূল্নির্ধারক হয় যে ছোট পরিসংখ্যান মডেল মধ্যে সব ডিস্ট্রিবিউশন থেকে বের কেএল-বিকিরণ এবং সত্য বিতরণ পি

Pθ1=argminPθMKL(P,Pθ)
P

আত্মবিশ্বাস সেট নির্মাতাদের কী হয়? আত্মবিশ্বাস সেট অনুমানকারীদের পুনরায় কাটাতে দেয়। যাক একটি সেট মূল্নির্ধারক, যেখানে হতে Ω ওয়াই নমুনা স্থান নেই এবং 2 Θ প্যারামিটার স্থান উপর ক্ষমতা সেট Θ । আমরা কি জানতে চাই ঘটনা যে সেট দ্বারা উত্পাদিত সম্ভাব্যতা δ অন্তর্ভুক্ত সত্য বন্টন পি * হলো, পি * ( পি *{ পি θ : θ δ ( ওয়াই ) }δ:ΩY2ΘΩY2ΘΘδP

P(P{Pθ:θδ(Y)}):=A.

যাইহোক, অবশ্যই আমরা সত্য বন্টন জানি না । সঠিকভাবে নিদিষ্ট ধৃষ্টতা আমাদের যে বলে পি *এম । তবে এটি এখনও মডেলটির কোন বিতরণ তা আমরা জানি না। তবে, inf θ Θ P θ ( θ δ ( Y ) ) : = B সম্ভাবনা A এর জন্য একটি নিম্ন সীমা । সমীকরণ বি হ'ল আত্মবিশ্বাস সেট অনুমানকারকের জন্য আস্থা স্তরের শাস্ত্রীয় সংজ্ঞা।PPM

infθΘPθ(θδ(Y)):=B
AB

আমরা সঠিকভাবে নিদিষ্ট ধৃষ্টতা ড্রপ পারেন, অগত্যা একটি নিম্ন জন্য আবদ্ধ নয় একজন শব্দটি আসলে আমরা এ, আর আগ্রহী। প্রকৃতপক্ষে, আমরা যদি ধরে নেই যে মডেল misspecied করা হয়, যা তর্কসাপেক্ষে সবচেয়ে বাস্তবসম্মত পরিস্থিতিতে কেনার ক্ষেত্রে দেখা যায়, একজন 0, কারণ সত্য বন্টন হয় পি * পরিসংখ্যান মডেল মধ্যে অন্তর্ভুক্ত করা হয় না এমBAAPM

অন্য দৃষ্টিকোণ থেকে কেউ মডেলটির ভুল বানান করা হলে সাথে কী সম্পর্কিত তা ভাবতে পারে । এটি আরও নির্দিষ্ট প্রশ্ন। নেই বি এখনও যদি মডেল misspecified, একটি অর্থ আছে। যদি তা না হয় তবে আমরা কেন প্যারামেট্রিক পরিসংখ্যান নিয়ে বিরক্ত করছি?BB

আমার ধারণা, হোয়াইট 1982 এ এই বিষয়গুলিতে কিছু ফলাফল রয়েছে। দুর্ভাগ্যক্রমে, আমার গাণিতিক পটভূমির অভাব আমাকে সেখানে লেখা অনেক কিছুই বুঝতে বাধা দেয়।


1
আমি এই প্রশ্নটি পেয়েছি + উত্তর stats.stackexchange.com / প্রশ্নগুলি / 149773/… । এটি খুব অনুরূপ। এই বইগুলি পড়া সম্ভবত এই প্রশ্নের উত্তর দিতে পারে। যাইহোক, আমি এখনও মনে করি যে ইতিমধ্যে এটি করেছে এমন কারও দ্বারা সংক্ষিপ্তসারটি খুব সহায়ক হবে।
জুলিয়ান কার্লস

2
এটি লজ্জার বিষয় যে এই প্রশ্নটি আরও আগ্রহ তৈরি করতে পারে নি - জুলিয়ানের লিঙ্কটিতে কিছু সুন্দর উপাদান রয়েছে তবে আমি এই বিষয়ে আরও চিন্তাভাবনা শুনতে আগ্রহী।
ফ্লোরিয়ান হারটিগ

1
বেশিরভাগ ক্ষেত্রে যা করা হয় তা হল পরিসংখ্যানের মডেলটি সঠিক কিনা ধরে নিয়ে পরীক্ষার পরিসংখ্যান বিতরণ নাল অনুমানের অধীনে গণনা করা হয়। যদি পি - মানটি যথেষ্ট কম হয় তবে এটি সিদ্ধান্তে পৌঁছে যে হয় এটি সুযোগের কারণে বা নালটি মিথ্যা। যদি মডেলটি ভুলভাবে নির্দিষ্ট করা হয় তবে এটি যৌক্তিকভাবে আঁকতে পারে এমন একটি সিদ্ধান্তও। অন্যান্য সমস্ত অনুমানের ক্ষেত্রে একই জিনিস রয়েছে: মডেলটি ভুলভাবে নির্দিষ্ট করা হয়েছে এটি একটি বিকল্প উপসংহার সরবরাহ করে। স্প্যানোসের কাজ পড়ার উপর ভিত্তি করে আমি এটি সম্পর্কে এইভাবে চিন্তা করি।
টবি

মূলত, সমস্ত মডেল ভুল। এটি পরিমাণগতভাবে ভুল বর্ণনাকে বিকাশ করতে সহায়তা করে। একটি চিত্রের জন্য, ভুল বানান হ'ল নিবন্ধন। উদাহরণস্বরূপ, যথেষ্ট পরিমাণে গণনার জন্য ত্রুটি (যেমন, তেজস্ক্রিয় ক্ষয় থেকে), ত্রুটিটি পোইসন বিতরণ করা হয়। সেক্ষেত্রে কোনও সময়ের সিরিজের নিবন্ধভুক্তি হ'ল চিত্রের বর্গমূলের y- অক্ষর ত্রুটি, এবং সেই একই ইউনিটগুলিতে শব্দ রয়েছে। উদাহরণ এখানে
কার্ল

উত্তর:


2

যাক y1,,yn পর্যবেক্ষিত তথ্য যা সম্ভাব্য হয় IID র্যান্ডম ভেরিয়েবল একটা ক্রম একটি আদায় হতে Y1,,Yn সাধারণ সম্ভাব্যতা ঘনত্ব ফাংশন সঙ্গে pe একটি সিগমা-সসীম পরিমাপ থেকে সম্মান সঙ্গে সংজ্ঞায়িত ν । ঘনত্ব pe ডেটা জেনারেট প্রক্রিয়া (ডিজিপি) ঘনত্ব বলা হয়।

গবেষক এর সম্ভাব্যতা মডেলে M{p(y;θ):θΘ} সম্ভাব্যতা ঘনত্ব ফাংশন যা একটি প্যারামিটার ভেক্টর দ্বারা সূচীবদ্ধ করা হয় একটি সংগ্রহ θ । প্রতিটি ঘনত্ব অনুমান M একটি একটি সাধারণ সিগমা-সসীম পরিমাপ থেকে সম্মান সঙ্গে সংজ্ঞায়িত করা হয় ν (যেমন, প্রতিটি ঘনত্ব একই নমুনা স্থানসহ একটি সম্ভাব্যতা ভর ফাংশন হতে পারে S )।

ঘনত্ব pe রাখা গুরুত্বপূর্ণ যা বাস্তবে ডেটাগুলির সম্ভাব্যতা মডেল থেকে ডেটা ধারণাগতভাবে পৃথক করে তোলে। ক্লাসিক পরিসংখ্যানগত চিকিত্সাগুলিতে এই ধারণাগুলির একটি সাবধানে বিভাজন হয় তা উপেক্ষা করা হয়, তৈরি হয় না, বা শুরু থেকেই ঠিক ধরে নেওয়া হয় যে সম্ভাবনার মডেলটি সঠিকভাবে নির্দিষ্ট করা হয়েছে।

পি সম্পর্কিত একটি সঠিকভাবে নির্দিষ্ট মডেল M এমন এক মডেল হিসাবে সংজ্ঞায়িত করা হয়েছে যেখানে p eM al- সর্বমোট সর্বত্র। যখন এম থেকে সম্মান সঙ্গে misspecified হয় পি ক্ষেত্রে যেখানে সম্ভাব্যতা মডেল নিদিষ্ট সঠিকভাবে হয় না এই অনুরূপ।pepeM νMpe

সম্ভাব্যতা মডেল সঠিকভাবে নির্দিষ্ট করা থাকে, তাহলে সেখানে একটি বিদ্যমান θ প্যারামিটার স্থান Θ যেমন যে pe(y)=p(y;θ) ν -almost সর্বত্র। এই জাতীয় প্যারামিটার ভেক্টরকে "ট্রু প্যারামিটার ভেক্টর" বলা হয়। যদি সম্ভাব্যতা মডেলটি ভুল বানান থেকে থাকে তবে সত্যিকারের পরামিতি ভেক্টরের উপস্থিতি নেই।

হোয়াইট এর মডেল misspecification কাঠামোর মধ্যে লক্ষ্য পরামিতি অনুমান খুঁজে পেতে θ এন যে ছোট এন ( θ ) ( 1 / এন ) Σ এন আমি = 1 লগ পি ( Y আমিθ^n^n(θ)(1/n)i=1nlogp(yi;θ) কিছু কম্প্যাক্ট প্যারামিটার স্থান ধরেΘ । ধারণা করা হয় একটি অনন্য কঠোর বিশ্বব্যাপী মিনিমাইজার,θ , প্রত্যাশিত মূল্যের এন উপর Θ অভ্যন্তর অবস্থিত Θ^nΘΘ। ভাগ্যবান ক্ষেত্রে যেখানে সম্ভাব্যতা মডেল সঠিকভাবে নির্ধারণ সালে θ "সত্যিকারের প্যারামিটার মান" হিসেবে ব্যাখ্যা করা যেতে পারে।

বিশেষ ক্ষেত্রে যেখানে সম্ভাব্যতা মডেলটি সঠিকভাবে নির্দিষ্ট করা হয়েছে, তারপরে θ^nপরিচিত সর্বাধিক সম্ভাবনা অনুমান। আমরা জানি না পরম যে জ্ঞান সম্ভাব্যতা মডেল সঠিকভাবে নির্ধারণ থাকে, তাহলে θ এনআধা-সর্বোচ্চ সম্ভাবনা অনুমান বলা হয় এবং লক্ষ্য অনুমান হয়θ*। আমরা যদি ভাগ্যবান পেতে এবং সম্ভাব্যতা মডেল সঠিকভাবে উল্লিখিত থাকলে, তারপর আপাতদৃষ্টিতে সর্বোচ্চ সম্ভাবনা অনুমান পরিচিত সর্বাধিক সম্ভাবনা অনুমান করার জন্য একটি বিশেষ ক্ষেত্রে যেমন হ্রাস করে এবং θ*সত্য প্যারামিটার মান হয়ে ওঠে।θ^nθθ

হোয়াইট এর অভিসৃতি করতে (1982) ফ্রেমওয়ার্ক অনুরূপ মধ্যে সমন্নয় θ যে প্রয়োজন ছাড়া θ অগত্যা সত্য প্যারামিটার বাহক। হোয়াইটের কাঠামোর মধ্যে আমরা কখনই ইভেন্টের সম্ভাবনাটি অনুমান করতে পারি না যে by উত্পাদিত সেটগুলিতে সত্য বিতরণ পি * অন্তর্ভুক্ত রয়েছে। পরিবর্তে, আমরা সর্বদা সম্ভাবনা বন্টন পি ** অনুমান করব যা ইভেন্টটির সম্ভাব্যতা যা by উত্পাদিত সেটে ঘনত্ব p(y;θ) দ্বারা নির্দিষ্ট বিতরণ অন্তর্ভুক্ত করে ।

শেষ অবধি, মডেল অপব্যবহার সম্পর্কে কয়েকটি মন্তব্য। উদাহরণস্বরূপগুলি খুঁজে পাওয়া সহজ যেখানে কোনও ভুল বানানো মডেল অত্যন্ত দরকারী এবং খুব ভবিষ্যদ্বাণীপূর্ণ। উদাহরণস্বরূপ, গাউসীয় অবশিষ্টাংশ ত্রুটি শব্দটির সাথে একটি ননলাইনার (বা এমনকি লিনিয়ার) রিগ্রেশন মডেলটি বিবেচনা করুন যার বৈকল্পিকতা খুব ছোট হলেও পরিবেশে প্রকৃত অবশিষ্ট ত্রুটি গাউসিয়ান নয়।

উদাহরণস্বরূপ সন্ধান করাও সহজ যেখানে সঠিকভাবে নির্দিষ্ট করা মডেল কার্যকর না এবং ভবিষ্যদ্বাণীমূলক নয়। উদাহরণস্বরূপ, স্টকের দামগুলির পূর্বাভাস দেওয়ার জন্য একটি এলোমেলো পদক্ষেপের মডেল বিবেচনা করুন যা আগামীকালকের সমাপ্তির দামটি আজকের সমাপনী দামের একটি ওজনযুক্ত সমষ্টি এবং অত্যন্ত বড় বৈকল্পিকতার সাথে কিছু গাউসিয়ান গোলমাল।

মডেলের অপব্যবহার কাঠামোর উদ্দেশ্য মডেলের বৈধতা নিশ্চিত করা নয় বরং নির্ভরযোগ্যতা নিশ্চিত করা। এটি, আপনার প্যারামিটারের অনুমানগুলি, আত্মবিশ্বাসের ব্যবধানগুলি, অনুমানের পরীক্ষাগুলি এবং এর সাথে সম্পর্কিত স্যাম্পলিং ত্রুটিটি ছোট বা বড় পরিমাণে মডেলের ভুল ব্যবহারের উপস্থিতি সত্ত্বেও সঠিকভাবে অনুমান করা হয়েছে তা নিশ্চিত করুন। আপাতদৃষ্টিতে সর্বোচ্চ সম্ভাবনা অনুমান এসিম্পটোটিকভাবে স্বাভাবিক কেন্দ্রীভূত হয় θ একটি সহভেদাংক ম্যাট্রিক্স মূল্নির্ধারক যা নেতিবাচক লগ-সম্ভাবনা ফাংশনের উভয় প্রথম এবং দ্বিতীয় ডেরাইভেটিভস উপর নির্ভর করে না। আপনি যদি ভাগ্যবান হন এবং মডেলটি সঠিক হন তবে বিশেষ সূত্রগুলি সমস্ত পরিচিত ধ্রুপদী পরিসংখ্যান কাঠামোর সাথে হ্রাস করে যেখানে লক্ষ্য "সত্য" পরামিতি মানগুলি অনুমান করা।


3

প্রথমত, আমি বলতে পারি যে এটি একটি সত্যই আকর্ষণীয় প্রশ্ন; এটি পোস্ট করার জন্য জুলিয়ানকে কুদোস। আমি এটি দেখতে পেয়েছি যে, এই ধরণের বিশ্লেষণে আপনি যে মৌলিক সমস্যার মুখোমুখি হচ্ছেন তা হ'ল any এর কোনও উপসেটের কোনও অনুমান Θ মডেল এম-তে সম্ভাব্যতা ব্যবস্থাগুলির সীমাবদ্ধ শ্রেণির উপর , সুতরাং যখন আপনি সত্যের অনুমানের সম্ভাবনাগুলি সম্পর্কে জিজ্ঞাসা শুরু করেন মডেল, মডেলের অধীনে, এটির অপ্রয়োজনীয়তা শুরু হয় কি না তা নিয়ে একটি তুচ্ছ প্রশ্নের অবনতি ঘটে। উপযুক্ত দূরত্বের মেট্রিক ব্যবহার করে মডেলটি সত্যিকারের সম্ভাব্যতা পরিমাপের কতটা কাছাকাছি চলে আসে তা দেখে হোয়াইট এটিকে ঘিরে। এটি তাকে সম্ভাব্যতা পরিমাপ P θ 1 এ নিয়ে যায় , যা পি ইন এর নিকটতম প্রক্সিMPθ1Pপি θ 1 দেখার এই পদ্ধতিটিআত্মবিশ্বাসের সেটগুলি সম্পর্কে আপনার প্রশ্নের সাথে সম্পর্কিত আকর্ষণীয় পরিমাণ দিতে বাড়ানো যেতে পারে।MPθ1

ABAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

PMPMPθ1M

Pθ1δAn। আপনি যদি কোনও (ধনাত্মক) নিম্ন সীমাবদ্ধ বা একটি (ধনাত্মক) রূপান্তর ফলাফল স্থাপন করতে পারেন তবে এটি আপনাকে গ্যারান্টি দেওয়ার ক্ষেত্রে কিছুটা মূল্য দেয় যে ভুল বানান থাকলেও আপনি এখনও কিছুটা সম্ভাবনার স্তর সহ নিকটতম প্রক্সিটি সঠিকভাবে অনুমান করতে পারেন। আমি আপনাকে সুপারিশ করব যে হোয়াইটের দ্বারা করা বিশ্লেষণের ধরণ অনুসরণ করে আপনি এই বিষয়গুলি অন্বেষণ করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.