"স্বতন্ত্র পর্যবেক্ষণ" এর অর্থ কী?


28

আমি স্বাধীন পর্যবেক্ষণ অনুমানের অর্থ কী তা বোঝার চেষ্টা করছি । কিছু সংজ্ঞা:

  1. "দু'টি ইভেন্ট স্বতন্ত্র এবং কেবল যদি " " ( পরিসংখ্যান শর্তাদি অভিধান )পি(একটি)=পি(একটি)*পি()
  2. "একটি ইভেন্টের ঘটনা অন্যটির সম্ভাব্যতা পরিবর্তন করে না" ( উইকিপিডিয়া )।
  3. "একটি পর্যবেক্ষণের নমুনা দ্বিতীয় পর্যবেক্ষণের পছন্দকে প্রভাবিত করে না" ( ডেভিড এম লেন )।

নির্ভরযোগ্য পর্যবেক্ষণগুলির একটি উদাহরণ যা প্রায়শই দেওয়া হয় তারা হলেন নীচের মতো শিক্ষকদের মধ্যে ঘেরাও করা শিক্ষার্থীরা। আসুন ধরে নেওয়া যাক শিক্ষকরা শিক্ষার্থীদের উপর প্রভাব ফেলে তবে শিক্ষার্থীরা একে অপরকে প্রভাবিত করে না।

সুতরাং এই ডেটাগুলির জন্য এই সংজ্ঞাটি লঙ্ঘন করা হয় কীভাবে? [ছাত্র = 1] এর জন্য [গ্রেড = 7] স্যাম্পলিং পরবর্তী গ্রেডের সম্ভাব্যতা বন্টনকে প্রভাবিত করে না যা পরের নমুনা হবে। (বা এটি করে? এবং যদি তাই হয়, তবে পর্যবেক্ষণ 1 পরবর্তী পর্যবেক্ষণ সম্পর্কে কী পূর্বাভাস দেয়?)

আমি যদি এর gender পরিবর্তে পরিমাপ করতাম তবে পর্যবেক্ষণগুলি কেন স্বাধীন হবে teacher_id? তারা পর্যবেক্ষণগুলি একইভাবে প্রভাবিত করে না?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
কেউ পরামর্শ দিতে পারে যে শিক্ষক 1 এর জন্য গ্রেড বিতরণের শিক্ষক 2 এর তুলনায় "গড়" মান ছিল এবং তাই শিক্ষক 1 এর শিক্ষার্থীদের সকলেরই শিক্ষকের শিক্ষার্থীদের তুলনায় গড়ে কম গ্রেড থাকতে হবে 2. অন্য কথায় দুই শিক্ষার্থীর জন্য শিক্ষার্থীদের / গ্রেডের বিতরণ বিভিন্ন বিতরণ হতে পারে। এটি পর্যবেক্ষণ নির্ভর করে রেন্ডার করার জন্য যথেষ্ট হবে।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

1
@ গ্যাভিনসিম্পসন: আমি যুক্তির এই সঠিক লাইনটি সম্পর্কে ভাবছিলাম। তবে কি আমি প্রতিস্থাপন যদি teacherদ্বারা gender? লিঙ্গ বেশিরভাগ সামাজিক বিজ্ঞানের ডেটাতে উপস্থিত থাকে এবং কিছুটা হলেও কিছুটা হলেও সম্পর্কিত হয়।
রুবেনগের্ট

1
এটি অবশ্যই প্রতিক্রিয়া উপর নির্ভর করে। আমরা যদি ইউ কে বিজ্ঞানে শিক্ষার্থীদের বাংলাদেশের দিকে তাকিয়ে ছিল, সম্ভবত দুই লিঙ্গ জন্য বিভিন্ন লব্ধি ডিস্ট্রিবিউশন, সঙ্গে একটি প্রভাব হবে গড়ে জনগোষ্ঠী আপনি পড়াশোনা করছে করেছে। যাইহোক, এই সমস্ত কিছুই অবশিষ্টাংশের জন্য (একটি পরিসংখ্যানের মডেলটিতে) গুরুত্বপূর্ণ, বা লাগানো মডেলের উপর শর্তাধীন প্রতিক্রিয়ার জন্য আলাদাভাবে রাখুন। অন্য কথায়, যদি পর্যবেক্ষণগুলি স্বতন্ত্র না হয়, যতক্ষণ না মডেলরা এইরূপে অ্যাকাউন্টগুলির অবদান রাখে ঠিক ততক্ষণ ঠিক আছে যে অবশিষ্টাংশগুলি স্বাধীন।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

4
(পরিসংখ্যান) স্বাধীনতার সংজ্ঞা হিসাবে আপনি (1) বা (2) গ্রহণ করতে পারবেন না , কারণ কার্যকারিতার উল্লেখ ছাড়াই স্বাধীনতা সংজ্ঞায়িত করা যেতে পারে। তিনটি উদ্ধৃতিই কেবল অনানুষ্ঠানিক, স্বজ্ঞাত উদাহরণ দেওয়ার চেষ্টা । ((3) সম্ভবত তথ্যের পরিমাণের পরিমাণগত, কঠোর সংজ্ঞাতে আপনার অ্যাক্সেস থাকতে পারে এমন সংজ্ঞা হিসাবে গ্রহণ করা যেতে পারে)) সুতরাং "সংজ্ঞা" শিরোনামের অধীনে উপস্থিত একটি প্রকৃত সংজ্ঞা উল্লেখ করা ভাল ধারণা হবে উইকিপিডিয়া নিবন্ধে আপনি উল্লেখ।
whuber

1
না, আপনি অবশিষ্টাংশকে স্বাধীনভাবে রেন্ডার করতে পারেন (বা কমপক্ষে নির্ভরতা এতটুকু হ্রাস করুন যে অবশিষ্টাংশগুলি স্বতন্ত্র প্রদর্শিত হবে)। এটি লিনিয়ার মডেলের অনুমানগুলি থেকে বলে; যেখানে Λ একটি পরস্পর সম্পর্ক ম্যাট্রিক্স। সাধারণ অনুমানটি হ'ল Λ একটি আইডেন্টিটি ম্যাট্রিক্স, সুতরাং অফ-ডায়াগণগুলি শূন্য এবং সুতরাং স্বাধীনতার অনুমানটি অবশিষ্টাংশগুলিতে রয়েছে। অন্য উপায় রাখুন যদিও, এটি লাগানো মডেলটির উপর y শর্তাধীন সম্পর্কে একটি বিবৃতি । ε~এন(0,σ2Λ)ΛΛY
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

উত্তর:


11

সম্ভাবনা তত্ত্ব ইন, পরিসংখ্যানগত স্বাধীনতা (যা কার্যকারণ স্বাধীনতা হিসাবে একই নয়) আপনার সম্পত্তি (3) হিসাবে সংজ্ঞায়িত করা হয়, কিন্তু (1) এর ফলে অনুসরণ এবং বি ইভেন্টগুলি পরিসংখ্যানগতভাবে স্বতন্ত্র বলে যদি বলা হয় এবং কেবল যদি:একজনবি

পি(একজনবি)=পি(একজন)পি(বি)

যদি তবে তা অনুসরণ করে:P(B)>0

পি(একজন|বি)=পি(একজনবি)পি(বি)=পি(একজন)পি(বি)পি(বি)=পি(একজন)

এর অর্থ হ'ল পরিসংখ্যানগত স্বাধীনতা বোঝায় যে একটি ঘটনার সংঘটন অপরটির সম্ভাব্যতার উপর প্রভাব ফেলে না। এটি বলার আর একটি উপায় হ'ল একটি ইভেন্টের ঘটনাকে অন্য সম্পর্কে আপনার বিশ্বাসকে পরিবর্তন করা উচিত নয়। পরিসংখ্যানগত স্বাধীনতার ধারণাটি সাধারণত ঘটনা থেকে র্যান্ডম ভেরিয়েবলগুলিতে এমনভাবে প্রসারিত হয় যা ধারাবাহিকভাবে এলোমেলো ভেরিয়েবলগুলি (যার কোনও নির্দিষ্ট ফলাফলের শূন্য সম্ভাবনা থাকে) সহ এলোমেলোভাবে বিবৃতি দেওয়া যেতে পারে। র্যান্ডম ভেরিয়েবলের জন্য স্বাধীনতার চিকিত্সা মূলত বিতরণ ফাংশনগুলিতে প্রয়োগ করা একই সংজ্ঞা জড়িত।


এটা বোঝা গুরুত্বপূর্ণ যে স্বাধীনতা একটি খুব শক্তিশালী সম্পত্তি - যদি ঘটনাগুলি পরিসংখ্যানগতভাবে স্বতন্ত্র থাকে তবে (সংজ্ঞা অনুসারে) আমরা একজনকে অন্যটিকে পর্যবেক্ষণ থেকে শিখতে পারি না। এই কারণে, পরিসংখ্যানগত মডেলগুলি কিছু অন্তর্নিহিত বিতরণ বা পরামিতি প্রদত্ত সাধারণত শর্তাধীন স্বাধীনতার অনুমান জড়িত । কেউ বায়েশিয়ান পদ্ধতি বা শাস্ত্রীয় পদ্ধতি ব্যবহার করছেন কিনা তার উপর সঠিক ধারণাগত কাঠামো নির্ভর করে। পূর্ববর্তীটিতে পর্যবেক্ষণযোগ্য মানগুলির মধ্যে সুস্পষ্ট নির্ভরশীলতা জড়িত থাকে, তবে শেষেরটিতে নির্ভরযোগ্যতার (জটিল এবং সূক্ষ্ম) অন্তর্ভুক্ত রূপ অন্তর্ভুক্ত থাকে। এই সমস্যাটি সঠিকভাবে বোঝার জন্য শাস্ত্রীয় বনাম বায়েশিয়ান পরিসংখ্যানের কিছুটা বোঝার প্রয়োজন।

পরিসংখ্যানের মডেলগুলি প্রায়শই বলবেন যে তারা একটি অনুমান ব্যবহার করে যে এলোমেলো ভেরিয়েবলের ক্রমগুলি "স্বতন্ত্র এবং অভিন্নরূপে বিতরণ (আইআইডি)" হয়। উদাহরণস্বরূপ, যদি আপনি একটি লক্ষণীয় ক্রম থাকতে পারে , যার মানে প্রতিটি পর্যবেক্ষণযোগ্য দৈব চলক এক্স আমি স্বাভাবিকভাবে গড় সঙ্গে বিতরণ করা হয় μ এবং মানক চ্যুতির σএক্স1,এক্স2,এক্স3,~আইআইডি এন(μ,σ2)এক্সআমিμσ। ক্রমের প্রতিটি এলোমেলো ভেরিয়েবল অন্যের "স্বতন্ত্র" এই অর্থে যে এর ফলাফলটি অন্য মানগুলির বর্ণিত বিতরণকে পরিবর্তন করে না। এই ধরণের মডেলটিতে আমরা মডেলটির পরামিতিগুলি অনুমান করার জন্য সিকোয়েন্সের পর্যবেক্ষণকৃত মানগুলি ব্যবহার করি এবং এরপরে আমরা ক্রমটির অনাবৃত মানগুলির পূর্বাভাস দিতে পারি। এটি অগত্যা অন্যদের সম্পর্কে জানতে কিছু পর্যবেক্ষণ করা মান ব্যবহার করে invol

বায়েশিয়ান পরিসংখ্যান: সবকিছু ধারণাগতভাবে সহজ। অনুমান শর্তসাপেক্ষে আইআইডি হ'ল প্যারামিটারগুলি μ এবং σ দেওয়া হয় এবং সেই অজানা পরামিতিগুলিকে এলোমেলো ভেরিয়েবল হিসাবে বিবেচনা করে। এই পরামিতিগুলির জন্য কোনও অবনমিত পূর্ব বিতরণ দেওয়া, পর্যবেক্ষণযোগ্য ক্রমের মানগুলি (নিঃশর্ত) নির্ভরশীল, সাধারণত ধনাত্মক সম্পর্কযুক্ত। অতএব, এটি নিখুঁতভাবে উপলব্ধি করে যে আমরা পরে অনাবৃত ফলাফলের পূর্বাভাস দেওয়ার জন্য পর্যবেক্ষিত ফলাফলগুলি ব্যবহার করি - এগুলি শর্তাধীন স্বাধীন, তবে শর্তহীন নির্ভর।X1,X2,X3,...μσ

শাস্ত্রীয় পরিসংখ্যান: এটি বেশ জটিল এবং সূক্ষ্ম। অনুমান IID দেওয়া হয় পরামিতি μ এবং σX1,X2,X3,...μσ, তবে সেই পরামিতিগুলিকে "অজানা স্থির" হিসাবে গণ্য করুন। যেহেতু পরামিতিগুলি স্থির হিসাবে বিবেচিত হয়, এই ক্ষেত্রে শর্তাধীন এবং শর্তহীন স্বাধীনতার মধ্যে কোনও স্পষ্ট পার্থক্য নেই। তবুও, আমরা এখনও প্যারামিটারগুলি অনুমান করতে এবং অবরুদ্ধ মানগুলির ভবিষ্যদ্বাণী করতে পর্যবেক্ষিত মানগুলি ব্যবহার করি। সুতরাং, আমরা পর্যবেক্ষিত ফলাফলগুলি পরের অনাবৃত ফলাফলগুলির পূর্বাভাস দেওয়ার জন্য ব্যবহার করি যদিও তারা একে অপরের থেকে স্বতন্ত্রভাবে "স্বতন্ত্র"। এই আপাত অসঙ্গতিটি ও'নিল, বি (২০০৯) এক্সচেঞ্জিবিলিটি, সহকারীতা এবং বেয়েস এর কার্যক্রমে বিশদভাবে আলোচনা করা হয়েছে আন্তর্জাতিক পরিসংখ্যান পর্যালোচনা 77 (2) , পৃষ্ঠা 241 - 250


যে অভিমানী এই মত মডেল কিছু আপনার ছাত্র বাংলাদেশের ডেটাতে এই প্রয়োগ করা হচ্ছে, আপনি হবে সম্ভবত gradeহয় শর্তসাপেক্ষে স্বাধীন প্রদত্ত teacher_id। আপনি প্রতিটি শিক্ষকের গ্রেড বিতরণ সম্পর্কে তথ্য নির্ধারণের জন্য ডেটা ব্যবহার করবেন (যা এক হিসাবে গণ্য হবে না) এবং এটি আপনাকে gradeঅন্য একজন ছাত্রের অজানা সম্পর্কে ভবিষ্যদ্বাণী করতে দেয় । কারণ gradeপরিবর্তনশীল অনুমান ব্যবহার করা হয়, এটা কোনো অজানা আপনার ভবিষ্যৎবাণী প্রভাবিত করবে gradeঅন্য শিক্ষার্থীর জন্য পরিবর্তনশীল। প্রতিস্থাপন করা হচ্ছে teacher_idসঙ্গে genderএটি পরিবর্তন করে না; উভয় ক্ষেত্রেই আপনার একটি পরিবর্তনশীল রয়েছে যা আপনি ভবিষ্যদ্বাণী হিসাবে ব্যবহার করতে পারেন grade

আপনি যদি বয়েসিয়ান পদ্ধতি ব্যবহার করেন তবে আপনার শর্তাধীন স্বাধীনতার একটি সুস্পষ্ট ধারণা এবং শিক্ষকদের গ্রেড বিতরণের জন্য পূর্বের বিতরণ থাকতে হবে এবং এটি গ্রেডের নিঃশর্ত (ভবিষ্যদ্বাণীমূলক) নির্ভরতার দিকে পরিচালিত করে , আপনাকে অন্যের ভবিষ্যদ্বাণীতে যৌক্তিকভাবে একটি গ্রেড ব্যবহার করতে দেয়। আপনি যদি শাস্ত্রীয় পরিসংখ্যান ব্যবহার করে থাকেন তবে আপনার কাছে স্বাধীনতার অনুমান হবে ("অজানা ধ্রুবকগুলির" পরামিতিগুলির উপর ভিত্তি করে) এবং আপনি ধ্রুপদী পরিসংখ্যান সম্পর্কিত ভবিষ্যদ্বাণী পদ্ধতি ব্যবহার করবেন যা আপনাকে অন্য গ্রেডকে ভবিষ্যদ্বাণী করার জন্য এক গ্রেড ব্যবহার করতে দেয়।


সম্ভাব্যতা তত্ত্বের কিছু ভিত্তিগত উপস্থাপনা রয়েছে যা শর্তসাপেক্ষ সম্ভাবনা বিবৃতি দিয়ে স্বাধীনতার সংজ্ঞা দেয় এবং তারপরে ফলস্বরূপ যৌথ সম্ভাবনার বিবৃতি দেয়। এটি কম সাধারণ।


6
আপনি নিজের উত্তরের প্রথম অংশে যা বর্ণনা করেছেন তা পরিসংখ্যানগত স্বাধীনতা। তবে আপনার বাক্য "... যদি ঘটনাগুলি পরিসংখ্যানগতভাবে স্বতন্ত্র থাকে তবে (সংজ্ঞা অনুসারে) আমরা একজনকে অন্যটিকে পর্যবেক্ষণ থেকে শিখতে পারি না।" হয় blatantly ভুল। বিশ্ব পরিসংখ্যানগতভাবে স্বতন্ত্র তবে অনুরূপ ইভেন্ট এবং এলোমেলো পরিবর্তনশীল of
অ্যালেকোস পাপাদোপল্লো

1
"শেখার" অর্থ কি অন্যের পর্যবেক্ষণের ভিত্তিতে কোনও জিনিস সম্পর্কে আমাদের বিশ্বাসকে পরিবর্তন করা উচিত নয়? যদি তাই হয়, স্বাধীনতা (সংজ্ঞায়িতভাবে) এটিকে আবদ্ধ করে না?
মনিকা পুনরায় ইনস্টল করুন

6
আমি @ অ্যালেক্সের মতো একটি অনুরূপ মন্তব্য করতে যাচ্ছি। সামগ্রিকভাবে যে ধারণাটি পাওয়া যায় তা হ'ল আপনি দৃser়ভাবে বলছেন যে একটি এলোমেলো ভেরিয়েবলের একটি উপলব্ধি পর্যবেক্ষণ আমাদের এর বিতরণ সম্পর্কে কিছুই বলে না , যাতে আপনি দ্বিতীয় স্বাধীন বোধের বিষয়ে কিছুই অনুমান করতে পারবেন না। এটি যদি হয়, স্যাম্পলিং এবং অনুমানের তত্ত্বের বেশিরভাগটির বিকাশ অসম্ভব। তবে আপনি এই অর্থে সঠিক যে আমরা যদি F কে জানি এবং একটি উপলব্ধি পর্যবেক্ষণ করি তবে এটি আমাদের অন্য কোনও স্বাধীন উপলব্ধি সম্পর্কে কোনও অতিরিক্ত তথ্য দেয় না । FF
whuber

4
আমি মনে করি বিষয়টি এখানে বন্টন সহ স্ট্যান্ডার্ড IID মডেল পরোক্ষভাবে একজন ধৃষ্টতা ব্যবহার করছে শর্তাধীন স্বাধীনতা জ্ঞান দেওয়া এফF এর জ্ঞানের শর্তসাপেক্ষে , পর্যবেক্ষণগুলি স্বতন্ত্র, তবে শর্তহীন আপনার এমন একটি পরিস্থিতি রয়েছে যেখানে প্রতিটি পর্যবেক্ষণ এফ সম্পর্কে তথ্য দেয় যা তারপরে অন্যান্য পর্যবেক্ষণগুলি সম্পর্কে আপনার বিশ্বাসকে প্রভাবিত করে। FFFF
মনিকা পুনরায় ইনস্টল করুন

2
এই সমস্যাটির অসুবিধা হ'ল ধ্রুপদী পরিসংখ্যানগুলি অন্তর্নিহিত বিতরণ এবং পরামিতিগুলিকে "অজানা ধ্রুবক" হিসাবে বিবেচনা করে এবং তাই এই ক্ষেত্রে শর্তযুক্ত বা শর্তহীন স্বাধীনতার মধ্যে কোনও স্পষ্ট পার্থক্য করে না। বায়েশিয়ান পরিসংখ্যানগুলিতে, এটি সব খুব সহজ।
মনিকা পুনরায় ইনস্টল করুন

4

যাক একটি দ্বারা - মাত্রিক র্যান্ডম ভেক্টর, র্যান্ডম ভেরিয়েবল অর্থাত একটি নির্দিষ্ট অবস্থানে থাকা সংগ্রহ (পরিমাপযোগ্য বাস্তব ফাংশন)।x=(X1,...,Xj,...,Xk)k

এই জাতীয় অনেকগুলি ভেক্টর বিবেচনা করুন, বলুন এবং এই ভেক্টরগুলিকে i = 1 , দ্বারা সূচক করুন , এন , তাই, বলুনni=1,...,n

এবং তাদেরকে একটি সংগ্রহ "নমুনা", বলা হিসাবে বিবেচনাএস=( x এর 1 ,, এক্স আমি ,, x এন )। তারপরে আমরা প্রতিটিকে-কেডাকি-

xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k মাত্রিক ভেক্টর একটি "পর্যবেক্ষণ" (যদিও এটি জড়িত এলোমেলো ভেরিয়েবলের উপলব্ধিটি পরিমাপ ও রেকর্ড করার পরে এটি সত্যিই এক হয়ে যায়)।

আসুন প্রথমে কেসটি চিকিত্সা করুন যেখানে হয় সম্ভাব্যতা ভর ফাংশন (পিএমএফ) বা সম্ভাব্যতা ঘনত্ব ফাংশন (পিডিএফ) উপস্থিত রয়েছে এবং এছাড়াও, যৌথ যেমন ফাংশন। বোঝাতে দ্বারা যৌথ PMF বা প্রতিটি র্যান্ডম ভেক্টর যুগ্ম পিডিএফ, এবং( এক্স 1 , , এক্স আমি , , X এন ) যৌথ PMF বা এই সব ভেক্টর যৌথ পিডিএফ একসঙ্গে। fi(xi),i=1,...,nf(x1,...,xi,...,xn)

তারপরে, নমুনা "স্বতন্ত্র নমুনা" বলা হয়, যদি নিম্নলিখিত গাণিতিক সাম্য থাকে:S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

যেখানে হ'ল এন র্যান্ডম ভেক্টর / পর্যবেক্ষণ দ্বারা নির্মিত যৌথ ডোমেন ।DSn

এর অর্থ হ'ল "পর্যবেক্ষণগুলি" "যৌথভাবে স্বতন্ত্র", (পরিসংখ্যানগত দিক থেকে, বা "সম্ভাবনায় স্বতন্ত্র" যেমনটি প্রাচীন কথায় ছিল যা আজও মাঝে মাঝে দেখা যায়)। অভ্যাসটি কেবল তাদের "স্বাধীন পর্যবেক্ষণ" বলা হয় call

নোট করুন যে এখানে পরিসংখ্যানগত স্বতন্ত্রতা সম্পত্তি সূচি , অর্থাৎ পর্যবেক্ষণের মধ্যে। এটা কি সম্ভাব্য / পরিসংখ্যানগত সম্পর্ক হয় সম্পর্কহীন হয় মধ্যে মধ্যে র্যান্ডম ভেরিয়েবল প্রতিটি পর্যবেক্ষণ (সাধারণ ক্ষেত্রে আমরা এখানে চিকিত্সা যেখানে প্রতিটি পর্যবেক্ষণ বহুমাত্রিক হয়)।i

Note also that in cases where we have continuous random variables with no densities, the above can be expressed in terms of the distribution functions.

This is what "independent observations" means. It is a precisely defined property expressed in mathematical terms. Let's see some of what it implies.

SOME CONSEQUENCES OF HAVING INDEPENDENT OBSERVATIONS

A. If two observations are part of a group of jointly independent observations, then they are also "pair-wise independent" (statistically),

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

This in turn implies that conditional PMF's/PDFs equal the "marginal" ones

f(xixm)=fi(xi)im,i,m=1,...,n

This generalizes to many arguments, conditioned or conditioning, say

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

etc, as long as the indexes to the left are different to the indexes on the right of the vertical line.

This implies that if we actually observe one observation, the probabilities characterizing any other observation of the sample do not change. So as regards prediction, an independent sample is not our best friend. We would prefer to have dependence so that each observation could help us say something more about any other observation.

B. On the other hand, an independent sample has maximum informational content. Every observation, being independent, carries information that cannot be inferred, wholly or partly, by any other observation in the sample. So the sum total is maximum, compared to any comparable sample where there exists some statistical dependence between some of the observations. But of what use is this information, if it cannot help us improve our predictions?

Well, this is indirect information about the probabilities that characterize the random variables in the sample. The more these observations have common characteristics (common probability distribution in our case), the more we are in a better position to uncover them, if our sample is independent.

In other words if the sample is independent and "identically distributed", meaning

fi(xi)=fm(xm)=f(x),im

it is the best possible sample in order to obtain information about not only the common joint probability distribution f(x), but also for the marginal distributions of the random variables that comprise each observation, say fj(xji).

So even though f(xixm)=fi(xi), so zero additional predictive power as regards the actual realization of xi, with an independent and identically distributed sample, we are in the best position to uncover the functions fi (or some of its properties), i.e. the marginal distributions.

Therefore, as regards estimation (which is sometimes used as a catch-all term, but here it should be kept distinct from the concept of prediction), an independent sample is our "best friend", if it is combined with the "identically distributed" property.

C. It also follows that an independent sample of observations where each is characterized by a totally different probability distribution, with no common characteristics whatsoever, is as worthless a collection of information as one can get (of course every piece of information on its own is worthy, the issue here is that taken together these cannot be combined to offer anything useful). Imagine a sample containing three observations: one containing (quantitative characteristics of) fruits from South America, another containing mountains of Europe, and a third containing clothes from Asia. Pretty interesting information pieces all three of them -but together as a sample cannot do anything statistically useful for us.

Put in another way, a necessary and sufficient condition for an independent sample to be useful, is that the observations have some statistical characteristics in common. This is why, in Statistics, the word "sample" is not synonymous to "collection of information" in general, but to "collection of information on entities that have some common characteristics".

APPLICATION TO THE OP'S DATA EXAMPLE

Responding to a request from user @gung, let's examine the OP's example in light of the above. We reasonably assume that we are in a school with more than two teachers and more than six pupils. So a) we are sampling both pupilss and teachers, and b) we include in our data set the grade that corresponds to each teacher-pupil combination.

Namely, the grades are not "sampled", they are a consequence of the sampling we did on teachers and pupils. Therefore it is reasonable to treat the random variable G (=grade) as the "dependent variable", while pupils (P) and teachers T are "explanatory variables" (not all possible explanatory variables, just some). Our sample consists of six observations which we write explicitly, S=(s1,...,s6) as

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

Under the stated assumption "pupils do not influence each other", we can consider the Pi variables as independently distributed. Under a non-stated assumption that "all other factors" that may influence the Grade are independent of each other, we can also consider the Gi variables to be independent of each other.
Finally under a non-stated assumption that teachers do not influence each other, we can consider the variables T1,T2 as statistically independent between them.

But irrespective of what causal/structural assumption we will make regarding the relation between teachers and pupils, the fact remains that observations s1,s2,s3 contain the same random variable (T1), while observations s4,s5,s6 also contains the same random variable (T2).

Note carefully the distinction between "the same random variable" and "two distinct random variables that have identical distributions".

So even if we assume that "teachers do NOT influence pupils", then still, our sample as defined above is not an independent sample, because s1,s2,s3 are statistically dependent through T1, while s4,s5,s6 are statistically dependent through T2.

Assume now that we exclude the random variable "teacher" from our sample. Is the (Pupil, Grade) sample of six observations, an independent sample? Here, the assumptions we will make regarding what is the structural relationship between teachers, pupils, and grades does matter.

First, do teachers directly affect the random variable "Grade", through perhaps, different "grading attitudes/styles"? For example T1 may be a "tough grader" while T2 may be not. In such a case "not seeing" the variable "Teacher" does not make the sample independent, because it is now the G1,G2,G3 that are dependent, due to a common source of influence, T1 (and analogously for the other three).

But say that teachers are identical in that respect. Then under the stated assumption "teachers influence students" we have again that the first three observations are dependent with each other, because teachers influence pupils who influence grades, and we arrive at the same result, albeit indirectly in this case (and likewise for the other three). So again, the sample is not independent.

THE CASE OF GENDER

Now, let's make the (Pupil, Grade) six-observation sample "conditionally independent with respect to teacher" (see other answers) by assuming that all six pupils have in reality the same teacher. But in addition let's include in the sample the random variable "Ge=Gender" that traditionally takes two values (M,F), while recently has started to take more. Our once again three-dimensional six-observation sample is now

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

Note carefully that what we included in the description of the sample as regards Gender, is not the actual value that it takes for each pupil, but the random variable "Gender". Look back at the beginning of this very long answer: the Sample is not defined as a collection of numbers (or fixed numerical or not values in general), but as a collection of random variables (i.e. of functions).

Now, does the gender of one pupil influences (structurally or statistically) the gender of the another pupil? We could reasonably argue that it doesn't. So from that respect, the Gei variables are independent. Does the gender of pupil 1, Ge1, affects in some other way directly some other pupil (P2,P3,...)? Hmm, there are battling educational theories if I recall on the matter. So if we assume that it does not, then off it goes another possible source of dependence between observations. Finally, does the gender of a pupil influence directly the grades of another pupil? if we argue that it doesn't, we obtain an independent sample (conditional on all pupils having the same teacher).


I do not agree in your point B. For some purposes, like estimating a mean, negative correlation is better than independence.
kjetil b halvorsen

@kjetil Better in what sense?
Alecos Papadopoulos

It would help if you could connect this concretely to the OP's questions in the text. Given this, how do we understand that the listed observations are not independent? & how does leaving out teacher differ from leaving out sex?
gung - Reinstate Monica

@gung I included some elaboration along the lines you suggested.
Alecos Papadopoulos

Better in the sense of reducing the variance
kjetil b halvorsen

2

The definitions of statistical independence that you give in your post are all essentially correct, but they don't get to the heart of the independence assumption in a statistical model. To understand what we mean by the assumption of independent observations in a statistical model, it will be helpful to revisit what a statistical model is on a conceptual level.

Statistical models as approximations to "nature's dice"

Let's use a familiar example: we collect a random sample of adult humans (from a well-defined population--say, all adult humans on earth) and we measure their heights. We wish to estimate the population mean height of adult humans. To do this, we construct a simple statistical model by assuming that people's heights arise from a normal distribution.

Our model will be a good one if a normal distribution provides a good approximation to how nature "picks" heights for people. That is, if we simulate data under our normal model, does the resulting dataset closely resemble (in a statistical sense) what we observe in nature? In the context of our model, does our random-number generator provide a good simulation of the complicated stochastic process that nature uses to determine the heights of randomly selected human adults ("nature's dice")?

The independence assumption in a simple modeling context

When we assumed that we could approximate "nature's dice" by drawing random numbers from a normal distribution, we didn't mean that we would draw a single number from the normal distribution, and then assign that height to everybody. We meant that we would independently draw numbers for everybody from the same normal distribution. This is our independence assumption.

Imagine now that our sample of adults wasn't a random sample, but instead came from a handful of families. Tallness runs in some families, and shortness runs in others. We've already said that we're willing to assume that the heights of all adults come from one normal distribution. But sampling from the normal distribution wouldn't provide a dataset that looks much like our sample (our sample would show "clumps" of points, some short, others tall--each clump is a family). The heights of people in our sample are not independent draws from the overall normal distribution.

The independence assumption in a more complicated modeling context

But not all is lost! We might be able to write down a better model for our sample--one that preserves the independence of the heights. For example, we could write down a linear model where heights arise from a normal distribution with a mean that depends on what family the subject belongs to. In this context, the normal distribution describes the residual variation, AFTER we account for the influence of family. And independent samples from a normal distribution might be a good model for this residual variation.

Overall here, what we have done is to write down a more sophisticated model of how we expect nature's dice to behave in the context of our study. By writing down a good model, we might still be justified in assuming that that the random part of the model (i.e. the random variation around the family means) is independently sampled for each member of the population.

The (conditional) independence assumption in a general modeling context

In general, statistical models work by assuming that data arises from some probability distribution. The parameters of that distribution (like the mean of the normal distribution in the example above) might depend on covariates (like family in the example above). But of course endless variations are possible. The distribution might not be normal, the parameter that depends on covariates might not be the mean, the form of the dependence might not be linear, etc. ALL of these models rely on the assumption that they provide a reasonably good approximation to how nature's dice behave (again, that data simulated under the model will look statistically similar to actual data obtained by nature).

When we simulate data under the model, the final step will always be to draw a random number according to some modeled probability distribution. These are the draws that we assume to be independent of one another. The actual data that we get out might not look independent, because covariates or other features of the model might tell us to use different probability distributions for different draws (or sets of draws). But all of this information must be built into the model itself. We are not allowed to let the random final number draw depend on what values we drew for other data points. Thus, the events that need to be independent are the rolls of "nature's dice" in the context of our model.

It is useful to refer to this situation as conditional independence, which means that the data points are independent of one another given (i.e. conditioned on) the covariates. In our height example, we assume my height and my brother's height conditioned on my family are independent of one another, and are also independent of your height and your sister's height conditioned on your family. Once we know somebody's family, we know what normal distribution to draw from to simulate their height, and the draws for different individuals are independent regardless of their family (even though our choice of what normal distribution to draw from depends on family). It's also possible that even after dealing with the family structure of our data, we still don't achieve good conditional independence (maybe it's also important to model gender, for example).

পরিশেষে, পর্যবেক্ষণগুলির শর্তসাপেক্ষ স্বতন্ত্রতা ধরে নেওয়া বোধগম্য কিনা তা একটি সিদ্ধান্ত যা কোনও নির্দিষ্ট মডেলের প্রসঙ্গে অবশ্যই গ্রহণ করা উচিত। এ কারণেই, উদাহরণস্বরূপ, লিনিয়ার রিগ্রেশন-এ, আমরা পরীক্ষা করি না যে ডেটাগুলি একটি সাধারণ বিতরণ থেকে আসে, তবে আমরা পরীক্ষা করে দেখি যে ফলাফলগুলি একটি সাধারণ বিতরণ থেকে আসে (এবং সম্পূর্ণ পরিসীমা জুড়ে একই সাধারণ বিতরণ থেকে) তথ্য)। লিনিয়ার রিগ্রেশন ধরে নিয়েছে যে, কোভেরিয়েটস (রিগ্রেশন লাইন) এর প্রভাবের জন্য অ্যাকাউন্টিংয়ের পরে, মূল পোস্টে স্বাধীনতার কঠোর সংজ্ঞা অনুসারে তথ্যগুলি একটি সাধারণ বিতরণ থেকে স্বাধীনভাবে নমুনা করা হয়।

আপনার উদাহরণ প্রসঙ্গে

আপনার ডেটাতে "শিক্ষক" উচ্চতার উদাহরণে "পরিবার" এর মতো হতে পারে।

এটি একটি চূড়ান্ত স্পিন

প্রচুর পরিচিত মডেল ধরে নেন যে অবশিষ্টাংশগুলি একটি সাধারণ বিতরণ থেকে উত্থিত হয়। ভাবুন আমি আপনাকে এমন কিছু ডেটা দিয়েছি যা খুব স্পষ্টভাবে স্বাভাবিক ছিল না। সম্ভবত তারা দৃ strongly়ভাবে স্কিউড, বা তারা বিমোডাল হতে পারে। এবং আমি আপনাকে বলেছিলাম "এই ডেটাগুলি একটি সাধারণ বিতরণ থেকে আসে" "

"কোনও উপায় নেই," আপনি বলবেন, "এটাই স্বাভাবিক যে এগুলি স্বাভাবিক নয়!"

"ডেটা স্বাভাবিক হওয়ার বিষয়ে কে কিছু বলেছিল?" আমি বলি. "আমি কেবল বলেছিলাম যে এগুলি একটি সাধারণ বিতরণ থেকে আসে" "

"একই রকম!" তুমি বলো. "আমরা জানি যে একটি সাধারণ বিতরণ থেকে যুক্তিসঙ্গতভাবে বড় নমুনার একটি হিস্টোগ্রাম প্রায় স্বাভাবিক দেখায় ঝোঁক!"

"তবে," আমি বলি, "আমি কখনও বলিনি যে তথ্যগুলি সাধারণ বিতরণ থেকে স্বতন্ত্রভাবে নমুনা দেওয়া হয়েছিল The

পরিসংখ্যানগত মডেলিংয়ে (শর্তাধীন) স্বাধীনতার অনুমিতি আমার মতো স্মার্ট-অ্যালেক্সগুলিকে অবশিষ্টাংশের বিতরণকে উপেক্ষা করতে এবং মডেলটির ভুল প্রয়োগ করতে বাধা দেওয়ার জন্য রয়েছে।

দুটি চূড়ান্ত নোট

1) "প্রকৃতির ডাইস" শব্দটি মূলত আমার নয়, তবে বেশ কয়েকটি উল্লেখের সাথে পরামর্শ করেও আমি বুঝতে পারি না যে এই প্রসঙ্গে আমি এটি কোথায় পেয়েছি।

2) কিছু পরিসংখ্যানের মডেল (যেমন স্বশাসিত মডেল) পর্যবেক্ষণের স্বাধীনতার প্রয়োজন হয় না এইভাবে। বিশেষত, তারা প্রদত্ত পর্যবেক্ষণের জন্য স্যাম্পলিং বিতরণকে কেবল স্থায়ী কোভেরিয়্যাটগুলিই নির্ভর করে না, বরং এর আগে যে ডেটা এসেছে তার উপরও নির্ভর করে।


এর জন্য ধন্যবাদ. আমি পছন্দ করি যে এটি খুব অ্যাক্সেসযোগ্য উপায়ে দেওয়া হয়েছে। শিক্ষকের পক্ষে এটি কীভাবে কার্যকর হয় সেই সমস্যাটি আপনি সম্বোধন করেন, আপনি কি যৌনতার ধারণাটিকে সমাহার হিসাবে চিহ্নিত করার জন্য আলোচনাটি বাড়িয়ে দিতে পারেন?
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.