5 টি বিষয়ের 100 টি পরিমাপ 100 টি বিষয়ের 5 টি পরিমাপের তুলনায় খুব কম তথ্য সরবরাহ করে তা দেখানো হচ্ছে


21

একটি সম্মেলনে আমি নিম্নলিখিত বিবৃতিটি শুনেছি:

5 টি বিষয়ের 100 টি পরিমাপ 100 টি বিষয়ের 5 টি পরিমাপের চেয়ে কম তথ্য সরবরাহ করে।

এটি সত্য যে এটি সত্য, তবে আমি ভাবছিলাম যে কেউ কীভাবে এটি গাণিতিকভাবে প্রমাণ করতে পারেন ... আমি মনে করি যে একটি রৈখিক মিশ্র মডেল ব্যবহার করা যেতে পারে। তবে, তাদের অনুমানের জন্য ব্যবহৃত গণিত সম্পর্কে আমি বেশি কিছু জানি না (আমি কেবল lmer4এলএমএম এবং bmrsজিএলএমএমগুলির জন্য দৌড়েছি) আপনি কি আমাকে উদাহরণ দেখিয়ে দিতে পারেন যেখানে এটি সত্য? আমি আর সূত্রের কিছু কোডের চেয়ে কিছু সূত্রের সাথে একটি উত্তর পছন্দ করবো a একটি সাধারণ সেটিংটি নির্দ্বিধায় মনে করি যেমন উদাহরণস্বরূপ সাধারণত বিতরণ করা এলোমেলো ইন্টারসেপ্ট এবং opালু সহ রৈখিক মিশ্র মডেল।

পিএস একটি গণিত-ভিত্তিক উত্তর যা এলএমএমগুলিকে জড়িত করে না তাও ঠিক হবে। আমি এলএমএমগুলির কথা ভেবেছিলাম কারণ তারা আমার কাছে প্রাকৃতিক সরঞ্জামটি বোঝানোর প্রাকৃতিক সরঞ্জাম বলেছিল যে কেন কয়েকটি বিষয় থেকে আরও বেশি পদক্ষেপের চেয়ে কম বিষয়গুলি নেওয়া ভাল তবে এটি আমার ভুল হতে পারে।


3
+1 টি। আমি সহজ সেটিং জনসংখ্যা গড় আনুমানিক হিসাব একটি টাস্ক বিবেচনা করতে হবে যেখানে প্রতিটি বিষয় তাদের নিজস্ব গড় হয়েছে এবং এই বিষয় প্রতিটি পরিমাপ হিসাবে বিতরণ করা হয় । আমরা যদি প্রতিটি বিষয় থেকে পরিমাপ গ্রহণ করি , তবে ধ্রুবক পণ্য দেওয়া এবং সেট করার সর্বোত্তম উপায় । a N ( μ , σ 2 a ) x N ( a , σ 2 ) nμaN(μ,σa2)xN(a,σ2)nএন এম এন এম = এনmnmnm=N
অ্যামিবা বলছেন মনিকাকে

অর্জিত ডেটাপয়েন্টগুলির নমুনা গড়ের বৈচিত্রটি হ্রাস করার অর্থে "অনুকূল" । N
অ্যামিবা বলেছেন মোনিকা

1
হ্যাঁ। তবে আপনার প্রশ্নের জন্য আমাদের কীভাবে বৈকল্পিকগুলি অনুমান করা যায় তা যত্ন নেওয়ার দরকার নেই; আপনার প্রশ্নটি (যেমন আপনার প্রশ্নের উদ্ধৃতি) আমি বিশ্বব্যাপী গড় অনুমানের বিষয়ে বিশ্বাস করি এবং এটি স্পষ্টতই অনুমান হয় যে নমুনার সমস্ত পয়েন্টের সেরা গড় দ্বারা সেরা অনুমানক দেওয়া হয়েছে । তারপরে প্রশ্নটি হল: প্রদত্ত , , , এবং , কী ? তাহলে আমরা জানি যে, আমরা সম্মান সঙ্গে এটাকে কমানোর জন্য সক্ষম হবে দেওয়া বাধ্যতা। ˉ x N = n m μ σ 2 σ 2 a n m ˉ xμx¯N=nmμσ2σa2nmx¯n m = Nnnm=N
অ্যামিবা বলছেন মনিকাকে

1
আমি এর কোনটি কীভাবে অর্জন করতে পারি তা আমি জানি না, তবে আমি সম্মত হই যে এটি স্পষ্ট বলে মনে হচ্ছে: ত্রুটির বৈকল্পিকতা অনুমান করার জন্য একটি একক বিষয় থেকে সমস্ত পরিমাপ করা ভাল হবে ; এবং বিষয়টির বৈকল্পিকতা অনুমান করার জন্য প্রতিটি মাপদণ্ডের সাথে বিভিন্ন বিষয় থাকা ভাল (সম্ভবত?) ভাল হবে। যদিও এটি গড় সম্পর্কে এতটা স্পষ্ট নয় তবে আমার স্বজ্ঞাততা আমাকে বলে যে 1 টি পরিমাপের সাথে বিষয় থাকাও সবচেয়ে ভাল। আমি অবাক হয়েছি যদি এটি সত্য হয় ...এন এনNNN
অ্যামিবা

2
এর মতো কিছু হতে পারে: প্রতি-বিষয়ের অর্থের নমুনার , যেখানে প্রথম পদটি বিষয়টির বৈকল্পিক এবং দ্বিতীয়টি প্রতিটি বিষয়ের গড়ের অনুমানের বৈকল্পিক। তারপরে ওভার- অর্থ (অর্থাত্ গ্র্যান্ড গড়) হবে যা হলে ন্যূনতম হয় । ( σ 2 + σ 2 / এন ) / এম = σ 2 / এম + σ 2 / ( এন এম ) = σ 2 / এম + σ 2 / এন = σ 2 / মি + সি এন এস টি , এম = এনσa2+σ2/n
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
অ্যামিবা বলছেন

উত্তর:


25

সংক্ষিপ্ত উত্তর হল আপনার অনুমান সত্য কখন এবং শুধুমাত্র যখন একটি ইতিবাচক ভিতরে-বর্গ পারস্পরিক সম্পর্ক তথ্য । মহিমান্বিতভাবে বলতে গেলে, বেশিরভাগ ক্লাস্টারযুক্ত ডেটাসেটগুলি বেশিরভাগ সময় ইতিবাচক আন্ত-শ্রেণীর পারস্পরিক সম্পর্ক দেখায়, যার অর্থ অনুশীলনে সাধারণত আপনার অনুমানটি সত্য। তবে যদি আন্তঃ-শ্রেণীর পারস্পরিক সম্পর্ক 0 হয় তবে আপনি যে দুটি ক্ষেত্রে উল্লেখ করেছেন তা সমান তথ্যপূর্ণ tive যদি ভিতরে-বর্গ কোরিলেশন নেতিবাচক , তাহলে এটি আসলে কম তথ্যপূর্ণ আরো বিষয়ের উপর কম পরিমাপ গ্রহণ; আমরা আমাদের পছন্দ করতে চাই (প্যারামিটার অনুমানের প্রকরণটি হ্রাস করার ক্ষেত্রে) কোনও একক বিষয়ে আমাদের সমস্ত পরিমাপ নিতে take

পরিসংখ্যানগতভাবে দুটি দৃষ্টিভঙ্গি রয়েছে যার থেকে আমরা এটি সম্পর্কে ভাবতে পারি: একটি র্যান্ডম-ইফেক্টস (বা মিশ্র ) মডেল , যা আপনি আপনার প্রশ্নে উল্লেখ করেছেন বা একটি প্রান্তিক মডেল , যা এখানে কিছুটা তথ্যপূর্ণ হয়ে শেষ হয়।

র্যান্ডম-এফেক্টস (মিশ্র) মডেল

বলুন আমাদের কাছে সাবজেক্টের একটি সেট রয়েছে যার কাছ থেকে আমরা প্রতিটি । তারপরে ম সাবজেক্টের ম পরিমাপের একটি সাধারণ র্যান্ডম-ইফেক্ট মডেল হতে পারে যেখানে স্থির বাধা, এ র্যান্ডম সাবজেক্ট ইফেক্ট (সহ) বৈকল্পিক ), পর্যবেক্ষণ-স্তরের ত্রুটি শব্দটি (বৈকল্পিক ), এবং পরবর্তী দুটি এলোমেলো পদটি স্বতন্ত্র।এম আমি Y আমি = β + + U আমি + + আমি , β তোমার দর্শন লগ করা আমিnmji

yij=β+ui+eij,
βuiআমি σ 2 σu2eijσe2

এই মডেলটিতে জনসংখ্যার গড় উপস্থাপন করে এবং একটি ভারসাম্যপূর্ণ ডেটাসেট (অর্থাত্ প্রতিটি বিষয় থেকে সমান সংখ্যক পরিমাপ) সহ আমাদের সেরা অনুমানটি কেবল নমুনা গড়। সুতরাং আমরা যদি এই অনুমানের জন্য একটি ছোট বৈকল্পিক বোঝাতে "আরও তথ্য" গ্রহণ করি, তবে মূলত আমরা জানতে চাই যে নমুনার বৈচিত্রটি কীভাবে এবং উপর নির্ভরশীল । বীজগণিতের একটি বিট সঙ্গে আমরা এটি কাজ করতে পারেন n এম ভার ( 1βnm

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
this এই অভিব্যক্তিটি পরীক্ষা করে, আমরা দেখতে পাচ্ছি যে যখনই কোনও বিষয়ের বৈচিত্র রয়েছে (যেমন, ), বিষয়ের সংখ্যা বৃদ্ধি করা ( ) এই উভয় ছোট করে দেবে, এবং সংখ্যা বাড়িয়ে তুলবে বিষয় প্রতি পরিমাপের (n মিσu2>0nm) দ্বিতীয় মেয়াদটি কেবল ছোট করে তুলবে। (বহু-সাইট প্রতিলিপি প্রকল্পগুলি ডিজাইনের জন্য এটির ব্যবহারিক জড়িততার জন্য, আমি কিছুক্ষণ আগে লিখেছিলাম এই ব্লগ পোস্টটি দেখুন ))

এখন আপনি জানতে চেয়েছিলেন যে মোট পর্যবেক্ষণের সংখ্যা স্থির রেখে আমরা বা বা বৃদ্ধি বা হ্রাস করার পরে কী হয় । সুতরাং যে আমরা বিবেচনা একটি ধ্রুবক হতে, তাই পুরো ভ্যারিয়েন্স অভিব্যক্তি মাত্র মত দেখায় যে যা সম্ভব যখন যত ছোট মত বৃহৎ হিসাবে সম্ভব (সর্বাধিক , ক্ষেত্রে , যার অর্থ আমরা প্রতিটি বিষয় থেকে একক পরিমাপ করি)।mএন মি σ 2 ইউnnmএন এন = এন এম এম = 1

σu2n+constant,
nn=nmm=1

আমার সংক্ষিপ্ত উত্তরটি আন্তঃ-শ্রেণীর পারস্পরিক সম্পর্ককে বোঝায়, তবে এটি কোথায় ফিট করে? এই সাধারণ এলোমেলো-প্রভাবের মডেলটিতে -শ্রেণীর পারস্পরিক সম্পর্ক ( এখানে একটি স্কেচ )। সুতরাং আমরা as হিসাবে ভেরিয়েন্স সমীকরণটি উপরে লিখতে পারি এটি আসলে কোনও যোগ করে না আমরা ইতিমধ্যে উপরে যা দেখেছি তার অন্তর্দৃষ্টি, তবে এটি আমাদের বিস্মিত করে তোলে: যেহেতু অন্তর্-শ্রেণীর পারস্পরিক সম্পর্কটি একটি উদ্দীপনা সহকারের সহগ, এবং পারস্পরিক সম্পর্ক সহগগুলি নেতিবাচক হতে পারে, তবে কী ঘটবে (এবং এর অর্থ কী হবে) যদি আন্তঃ শ্রেণীর হয় পারস্পরিক সম্পর্ক নেতিবাচক ছিল? Var(1

ρ=σu2σu2+σe2
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

এলোমেলো-প্রভাবের মডেলটির প্রসঙ্গে, নেতিবাচক আন্ত-শ্রেণীর পারস্পরিক সম্পর্ক আসলেই বোঝা যায় না, কারণ এটি করে যে বিষয়টির বৈকল্পিকতা কোনওভাবে নেতিবাচক (আমরা সমীকরণ থেকে দেখতে পাচ্ছি , এবং এখানে এবং এখানে যেমন ব্যাখ্যা করা হয়েছে ) ... তবে রূপগুলি নেতিবাচক হতে পারে না! তবে এর অর্থ এই নয় যে একটি নেতিবাচক আন্ত-শ্রেণীর পারস্পরিক সম্পর্কের ধারণাটি বোঝায় না; এর ঠিক অর্থ হ'ল এলোমেলো-প্রভাবের মডেলটির এই ধারণাটি প্রকাশ করার কোনও উপায় নেই, যা এই মডেলের ব্যর্থতা, ধারণাটির নয়। এই ধারণাটি পর্যাপ্তভাবে প্রকাশ করার জন্য আমাদের প্রান্তিক মডেলটি বিবেচনা করা উচিত। ρσu2ρ

প্রান্তিক মডেল

এই একই ডেটাসেটের জন্য আমরা , of এর একটি তথাকথিত প্রান্তিক মডেল বিবেচনা করতে পারি যেখানে মূলত আমরা এলোমেলো বিষয়টির প্রভাবটিকে আগে থেকেই ঠেলে ত্রুটি মেয়াদ যাতে আমরা আছে । র্যান্ডম-প্রতিক্রিয়া মডেল আমরা দুটি র্যান্ডম পদ বিবেচিত এবং হতে IID কিন্তু প্রান্তিক মডেল আমরা পরিবর্তে বিবেচনা একটি অনুসরণ করতে ব্লক-তির্যক সহভেদাংক ম্যাট্রিক্স মত yij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
অর্থাৎ, এর অর্থ এই যে প্রান্তিক মডেল অধীনে কেবলমাত্র আমরা বিবেচনা দুই মধ্যে প্রত্যাশিত কোরিলেশন হতে একই সাবজেক্ট থেকে গুলি (আমরা ধরে নেই বিষয় জুড়ে পারস্পরিক সম্পর্ক 0)। কখনρeρইতিবাচক, একই বিষয় থেকে টানা দুটি পর্যবেক্ষণ ডেটাসেট থেকে এলোমেলোভাবে আঁকা দু'টি পর্যবেক্ষণের কারণে বিষয়গুলির কারণে ক্লাস্টারিং উপেক্ষা করার পরে গড়ে আরও বেশি মিলিত হয় (একসাথে কাছাকাছি)। যখন হয় নেতিবাচক , দুই একই বিষয়ের থেকে টানা পর্যবেক্ষণ হতে থাকে কম অনুরূপ (আরো পৃথক্), গড়ে, এলোমেলোভাবে সম্পূর্ণরূপে টানা দুই পর্যবেক্ষণ করে। ( প্রশ্ন / উত্তরে এই ব্যাখ্যা সম্পর্কে আরও তথ্য এখানে ।)ρ

সুতরাং এখন আমরা যখন প্রান্তিক মডেলের অধীনে নমুনার অর্থের বৈকল্পিকতার জন্য সমীকরণটি দেখি, তখন আমাদের the যা র্যান্ডম-এফেক্টস মডেলটির জন্য আমরা উপরে উত্পন্ন একই প্রকারের অভিব্যক্তি , যা আমাদের note উপরে আমাদের নোটের সাথে সামঞ্জস্যপূর্ণ

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
σe2+σu2=σ2eij=ui+eij। এর (পরিসংখ্যানগতভাবে সমতুল্য) দৃষ্টিভঙ্গির সুবিধাটি হ'ল এখানে আমরা নেতিবাচক বিষয় বৈচিত্রের মতো কোনও অদ্ভুত ধারণাটি গ্রহণ করার প্রয়োজন ছাড়াই একটি নেতিবাচক আন্ত-শ্রেণীর পারস্পরিক সম্পর্ক সম্পর্কে ভাবতে পারি। নেতিবাচক আন্ত-শ্রেণীর পারস্পরিক সম্পর্কগুলি এই কাঠামোর মধ্যে কেবল প্রাকৃতিকভাবে মাপসই।

(বিটিডাব্লু, উপরের উত্সের দ্বিতীয় থেকে শেষ লাইনটি সূচিত করে কেবল তাড়াতাড়ি একদিকে সরিয়ে দিয়ে বোঝায় যে আমাদের অবশ্যই , না হলে পুরো সমীকরণটি নেতিবাচক, তবে বৈকল্পিক) নেতিবাচক হতে পারে না! সুতরাং অন্তর্-শ্রেণীর পারস্পরিক সম্পর্কের উপর একটি নীচে আবদ্ধ থাকে যা আমাদের ক্লাস্টারে কত পরিমাপ করে তার উপর নির্ভর করে (অর্থাত্, আমরা প্রতিটি বিষয় দুবার পরিমাপ করি), অন্তর্-শ্রেণীর পারস্পরিক সম্পর্ক যেতে পারে way নেমে যেতে ; এটি কেবল যেতে পারে এবং আরও অনেক কিছু Fun মজাদার ঘটনা!)ρ1/(m1)m=2ρ=1m=3ρ=1/2

সুতরাং শেষ অবধি, কে মোট পর্যবেক্ষণের সংখ্যাটিকে একটি ধ্রুবক হিসাবে বিবেচনা করে আমরা দেখতে পাচ্ছি যে উপরের উত্সের দ্বিতীয় থেকে শেষের লাইনটি কেবল looks মত দেখাচ্ছে সুতরাং যখন , জমিদারি ছোট যতটা সম্ভব (যাতে আমরা আরো বিষয় কম পরিমাপ নিতে - সীমা, প্রত্যেক বিষয় 1 পরিমাপ) যতটা সম্ভব ছোট হিসাবে অনুমান ভ্যারিয়েন্স করে তোলে। কিন্তু যখন , আমরা আসলে চান যেমন হতে বৃহৎ সম্ভব (যে তাই হয়, সীমা, আমরা সব নিতে একটি একক সাবজেক্ট থেকে পরিমাপ) অর্ডার সম্ভব হিসাবে ছোট হিসাবে ভ্যারিয়েন্স করা হবে। এবং কখন( 1 + ( মি - 1 ) ρ ) × ধনাত্মক ধ্রুবক > 0 মি ρ < 0 এম এন এম ρ = 0 মি এনnm

(1+(m1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0 , অনুমানের বৈচিত্রটি কেবল একটি ধ্রুবক, তাই আমাদের এবং বরাদ্দ কোনও ব্যাপার নয়।mn

3
+1 টি। দুর্দান্ত উত্তর। আমাকে স্বীকার করতে হবে যে, দ্বিতীয় অংশটি প্রায় about , বেশ অপ্রকাশিত: এমনকি একটি বিশাল (বা অসীম) মোট সংখ্যা সহ আমরা যে পর্যবেক্ষণ করতে পারি তার মধ্যে সবচেয়ে ভাল যা আমরা করতে পারি তা হ'ল একক বিষয়তে সমস্ত পর্যবেক্ষণ বরাদ্দ করা, যার অর্থ স্ট্যান্ডার্ড ত্রুটিটি হবে এবং নীতিগতভাবে এটি আর কোনও হ্রাস করা সম্ভব নয় । এটা ঠিক এত অদ্ভুত! সত্য অজান্তেই থেকে যায়, যে কোনও সংস্থান যা এটি পরিমাপ করে। এই ব্যাখ্যাটি কি সঠিক? n m σ u β βρ<0nmσuβ
অ্যামিবা বলেছেন মনিকা পুনরায় স্থাপন করুন

3
ওহ! না. সঠিক নয় কারণ অনন্তের দিকে বাড়ার সাথে সাথে ho নেতিবাচক থাকতে পারে না এবং শূন্যের কাছে যেতে হয় (শূন্য বিষয় বৈকল্পের সাথে সম্পর্কিত)। হুম। এই নেতিবাচক পারস্পরিক সম্পর্ক একটি মজার বিষয়: এটি আসলে উত্পাদনশীল মডেলের একটি প্যারামিটার নয় কারণ এটি নমুনা আকার দ্বারা আবদ্ধ হয় (অন্যদিকে সাধারণভাবে কোনও জেনারেটাল মডেল আশা করে যে কোনও সংখ্যা পর্যবেক্ষণ উত্পন্ন করতে সক্ষম হবে, পরামিতিগুলি যাই হোক না কেন)। এটি সম্পর্কে ভাবার সঠিক উপায় কী তা আমি পুরোপুরি নিশ্চিত নই। ρmρ
অ্যামিবা বলেছেন মোনিকা

1
@ দেলতাভ এই ক্ষেত্রে "এলোমেলো প্রভাবের সমবায় ম্যাট্রিক্স" কী? উপরে জেক দ্বারা লিখিত মিশ্র মডেলে শুধুমাত্র একটি র্যান্ডম প্রভাব এবং তাই আছে না "সহভেদাংক ম্যাট্রিক্স" সত্যিই, কিন্তু মাত্র এক সংখ্যা: । কি আপনি উল্লেখ করছেন? Σσu2Σ
অ্যামিবা বলেছেন মোনিকা

2
@DeltaIV ওয়েল, সাধারণ নীতি en.wikipedia.org/wiki/Inverse-variance_weighting , এবং প্রতিটি বিষয়ের নমুনা গড় ভ্যারিয়েন্স দেওয়া হয় (যে কেন জেক যে উপরোক্ত লিখেছেন বিষয়গুলির মধ্যে বৈকল্পিকের অনুমানের উপর ওজন নির্ভর করতে হয়)। সাবজেক্টের মধ্যে বৈকল্পিকের অনুমানটি পুলের মধ্যে-সাবজেক্টের বিচ্যুতির পরিবর্তনের দ্বারা দেওয়া হয়, সাবজেক্টের মধ্যবর্তী পরিবর্তনের প্রাক্কলনটি হ'ল বিষয়গুলির মাধ্যমের বৈচিত্র এবং এইগুলি ব্যবহার করে ওজনগুলি গণনা করা যায়। (তবে এটি নিশ্চিত নয় যে এটি লিমার কী করবে তার তুলনায় এটি 100% সমান কিনা)σu2+σe2/mi
অ্যামিবা বলেছেন

1
জ্যাক, হ্যাঁ, এটি ঠিক এই -কোডিং যা আমাকে বিরক্ত করছিল b যদি এটি "নমুনা আকার" হয় তবে তা অন্তর্নিহিত সিস্টেমের প্যারামিটার হতে পারে না। আমার বর্তমান চিন্তাভাবনাটি হ'ল negative আসলে ইঙ্গিত করা উচিত যে বিষয়গুলির মধ্যে এমন আরও একটি বিষয় রয়েছে যা আমাদের কাছে উপেক্ষা / অজানা। উদাহরণস্বরূপ এটি কিছু হস্তক্ষেপের প্রাক ও পোস্ট হতে পারে এবং তাদের মধ্যে পার্থক্য এত বড় যে পরিমাপটি নেতিবাচকভাবে সম্পর্কিত হয়েছে। তবে এর অর্থ এই হবে যে সত্যিই একটি নমুনা আকার নয়, তবে এই অজানা কারণের মাত্রার সংখ্যা এবং এটি অবশ্যই শক্ত কোডড হতে পারে ...ρ মিmρমি
অ্যামিবা বলেছেন, রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.