আমি কি কোনও পূর্বনির্ধারিত তথ্যের বৈধতা পরীক্ষা করতে পারি?


10

সমস্যা

আমি একটি আর ফাংশন লিখছি যা কোনও পূর্ববর্তী এবং ডেটা প্রদত্ত কোনও পূর্ববর্তী তথ্য ঘনত্বের অনুমান করতে একটি বয়েশিয়ান বিশ্লেষণ করে। আমি যদি ব্যবহারকারীটির পূর্বে পুনর্বিবেচনা করা প্রয়োজন তবে ফাংশনটি একটি সতর্কতা পাঠাতে চাই।

এই প্রশ্নে, আমি পূর্বের মূল্যায়ন কীভাবে শিখতে আগ্রহী। পূর্ববর্তী প্রশ্নগুলি অবহিত প্রিয়ারদের ( এখানে এবং এখানে ) বিবরণী দেওয়ার মেকানিক্সকে কভার করেছে )

নিম্নলিখিত ক্ষেত্রেগুলির পূর্বে পুনর্নির্মাণের প্রয়োজন হতে পারে:

  • ডেটা এমন একটি চরম কেসকে উপস্থাপন করে যা পূর্বের কথা বলার সময় হিসাব করা হয়নি
  • ডেটাতে ত্রুটি (উদাহরণস্বরূপ যদি ডেটা ছের এককগুলিতে থাকে যখন পূর্বের কেজি হয়)
  • কোডটিতে একটি ত্রুটির কারণে উপলভ্য প্রবীণদের একটি সেট থেকে ভুল আগে বেছে নেওয়া হয়েছিল

প্রথম ক্ষেত্রে, প্রিরিররা সাধারণত পর্যাপ্ত পরিমাণে ছড়িয়ে পড়ে যে ডেটা মানগুলি অসমর্থিত পরিসীমা (যেমন <লগএন বা গামার জন্য <0) অবধি থাকে না হলে তথ্য সাধারণত তাদের অভিভূত করবে। অন্যান্য কেসগুলি বাগ বা ত্রুটি।

প্রশ্নাবলি

  1. কোনও পূর্বের মূল্যায়ন করতে ডেটা ব্যবহারের বৈধতা সম্পর্কিত কোনও সমস্যা আছে ?
  2. এই সমস্যাটির জন্য কোনও বিশেষ পরীক্ষা সবচেয়ে উপযুক্ত?

উদাহরণ

এখানে দুটি ডেটা সেট রয়েছে যা সাথে খারাপভাবে মেলে কারণ তারা জনসংখ্যার (লাল) বা (নীল) এর সাথে।logN(0,1)N(0,5)N(8,0.5)

নীল ডেটা একটি বৈধ পূর্বের + ডেটা সংমিশ্রণ হতে পারে যেখানে লাল ডেটাতে এমন একটি পূর্ব বিতরণ প্রয়োজন যা নেতিবাচক মানগুলির জন্য সমর্থিত।

এখানে চিত্র বর্ণনা লিখুন

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

উত্তর:


4

"পূর্ব" দ্বারা আপনি কী বোঝাতে চান তা আপনাকে পরিষ্কার করা দরকার। উদাহরণস্বরূপ, আপনি যদি যুক্তরাজ্যের আয়ু সম্পর্কে আমার পূর্ব বিশ্বাসে আগ্রহী হন তবে এটি ভুল হতে পারে না। এটা আমার বিশ্বাস! এটি পর্যবেক্ষণ করা ডেটার সাথে অসঙ্গতিপূর্ণ হতে পারে তবে এটি সম্পূর্ণ অন্য একটি বিষয়।

প্রসঙ্গের বিষয়গুলিও। উদাহরণস্বরূপ, ধরুন আমরা কোনও কিছুর জনসংখ্যার প্রতি আগ্রহী। আমার পূর্বে দৃser়ভাবে দাবি করে যে এই পরিমাণটি অবশ্যই কঠোরভাবে নেতিবাচক হবে। তবে ডেটা ত্রুটি সহ পর্যবেক্ষণ করা হয়েছে এবং আমাদের নেতিবাচক পরিমাপ রয়েছে। এই ক্ষেত্রে, পূর্ববর্তীটি অবৈধ নয়, এটি সুপ্ত প্রক্রিয়ার জন্য কেবল পূর্বের।

আপনার প্রশ্নের উত্তর দিতে,

  1. কোনও পূর্বের মূল্যায়ন করতে ডেটা ব্যবহারের বৈধতা সম্পর্কিত কোনও সমস্যা আছে?

একজন পিউরিস্ট যুক্তি দিতেন যে আপনার ডেটা দুবার ব্যবহার করা উচিত নয়। যাইহোক, বাস্তববাদী ব্যক্তি কেবলমাত্র এমন কাউন্টার করবে যে আপনি প্রথম স্থানে থাকা সম্পর্কে যথেষ্ট চিন্তা করেন নি।

2 কোনও বিশেষ পরীক্ষা কি এই সমস্যার জন্য উপযুক্ত?

এটি সত্যই বিবেচনাধীন মডেলটির উপর নির্ভর করে। আমি মনে করি সর্বাধিক প্রাথমিক আপনি ডেটা ব্যাপ্তির সাথে পূর্ব সীমা তুলনা করতে পারেন।


আপনার উত্তরের জন্য ধন্যবাদ, বিশেষত # 1 টি সহায়ক। পরীক্ষার জন্য, আমি এটি ভেবেছিলাম, তবে বেশিরভাগ প্রিদ্ধের পরিসরটি সীমাবদ্ধ থাকবে , তাই আমি সম্ভবত কোয়ান্টাইল অন্তরগুলির সীমাটি তুলনা করার কথা ভাবছিলাম, উদাহরণস্বরূপ সতর্কতা প্রেরণ করুন যদি: তথ্যের ৮০ তম কোয়ান্টাইল> ৯৯ তম কোয়ান্টাইল পূর্ববর্তী বা যদি: কোনও ডেটা 100-10e-log (n) তম কোয়ান্টাইলের চেয়ে বেশি) যদিও আমি সংখ্যার সাথে প্রায় খেলতে হবে যাতে আমি সঠিক ত্রুটিগুলি ধরতে পারি।
ডেভিড লেবাউর

3

এখানে আমার দুটি সেন্ট:

  1. আমি মনে করি আপনার অনুপাতের সাথে সম্পর্কিত পূর্বের ওভার পরামিতি সম্পর্কে উদ্বিগ্ন হওয়া উচিত।

  2. আপনি পূর্ববর্তী তথ্যবহুল সম্পর্কে কথা বলছেন, তবে আমি মনে করি আপনার ব্যবহারিকদের অযৌক্তিক অ-তথ্যমূলক পূর্বে কী সম্পর্কে সতর্ক করা উচিত। আমি বলতে চাইছি, কখনও কখনও শূন্যের মধ্য দিয়ে একটি সাধারণ এবং 100 বৈকল্পিক মোটামুটি তথ্যহীন এবং কখনও কখনও এটি তথ্যবহুল হয়, ব্যবহৃত আইশের উপর নির্ভর করে। উদাহরণস্বরূপ, যদি আপনি উপরের পূর্বের তুলনায় উচ্চতা (সেন্টিমিটার) মজুরিগুলি রিগ্রিজ করছেন তবে যথেষ্ট তথ্যবহুল। তবে, আপনি যদি উচ্চতা (মিটার) এ লগ মজুরিটি পুনরায় চাপান, তবে উপরের পূর্বটি সেই তথ্যপূর্ণ নয়।

  3. আপনি যদি পূর্বের ব্যবহার করে থাকেন যা পূর্বের বিশ্লেষণের ফলস্বরূপ, নতুন পূর্বটি আসলে পূর্ববর্তী বিশ্লেষণের একটি পুরানো পোস্টেরিয়েরি হয়, তবে বিষয়গুলি পৃথক। আমি ধরে নিচ্ছি এটি কেসটি নোট করুন।


আপনি দয়া করে পয়েন্ট 1 স্পষ্ট করতে পারেন? পুন: পয়েন্ট 2, ওপিতে যেমন উল্লেখ করা হয়েছে, পূর্বেরটি কীভাবে সেট করবেন সে সম্পর্কে আমি এই প্রশ্নে তেমন আগ্রহী নই; পুনরায় বিন্দু 3: অবহিত প্রাইভেটরদের অনেকগুলি উপলব্ধ ডেটার বিশ্লেষণ থেকে (তথ্যগুলিতে উপযুক্ত বিতরণের উপযুক্তকরণ) অন্যরা বিশেষজ্ঞের জ্ঞানের উপর ভিত্তি করে (এগুলি সাধারণত কম সীমাবদ্ধ হয়)।
ডেভিড লেবাউর

ধরুন আপনি যেমন একটি মডেল ফিট করছেন: y ~ a + b * x / z। জেড এর মানগুলিতে যদি কোনও বাধা না থাকে (যদি তারা ইতিবাচক বা নেতিবাচক হতে পারে), তার চেয়ে খ থেকে সংকেত সম্পর্কে কী আশা করা যায় তা জানা শক্ত। তদতিরিক্ত, জেড যদি শূন্যের কাছাকাছি হতে পারে তবে খ এর চেয়ে খুব কম বা খুব বড় হতে পারে। এটি আপনার পূর্বেরটিকে অযৌক্তিক করে তুলতে পারে। গেলম্যানের ব্লগে এই এন্ট্রিটি দেখুন: স্ট্যাটাকলম্বিয়া.ইডু
মানোয়েল গ্যাল্ডিনো

# 3: নির্দেশিত হিসাবে, দুবার ডেটা ব্যবহার সম্পর্কে সতর্কতা অবলম্বন করুন। উদাহরণস্বরূপ, পাতলা একটি হায়ারারিকিকাল মডেল এবং অন্য একটি সম্ভাবনার সাথে সম্মত একটি পূর্বনির্ধারন করা হয়। পরবর্তী সময়ে, আমি এই জাতীয় বিশ্লেষণে উদ্বিগ্ন হব। আমি নিয়ামক সরঞ্জাম হিসাবে পূর্বের আরও পছন্দ পছন্দ।
মানোয়েল গ্যালাদিনো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.