দুটি গ্রুপের মধ্যে পার্থক্যের জন্য কীভাবে পরীক্ষা করা যায় যখন ডেটা সাধারণত বিতরণ করা হয় না?


19

আমি সমস্ত জৈবিক বিবরণ এবং পরীক্ষাগুলি মুছে ফেলব এবং হাতে থাকা সমস্যা এবং আমি পরিসংখ্যানগতভাবে যা করেছি তা উদ্ধৃত করব। আমি জানতে চাই যে এটির সঠিক কিনা, এবং না হলে কীভাবে এগিয়ে যেতে হবে। যদি ডেটা (বা আমার ব্যাখ্যা) যথেষ্ট পরিমাণে পরিষ্কার না হয় তবে আমি সম্পাদনা করে আরও ভাল করে ব্যাখ্যা করার চেষ্টা করব।

ধরা যাক, আমার দুটি গ্রুপ / পর্যবেক্ষণ রয়েছে, এক্স এবং ওয়াই, আকার এবং । এই দুটি পর্যবেক্ষণের মাধ্যম সমান কিনা তা জানতে চাই। আমার প্রথম প্রশ্নটি হ'ল:Nx=215Ny=40

  1. অনুমানগুলি সন্তুষ্ট হলে, এখানে প্যারামেট্রিক দ্বি-নমুনা টি-টেস্ট ব্যবহার করা কি প্রাসঙ্গিক? আমি এটি জিজ্ঞাসা করছি কারণ আমার বোঝা থেকে এটি যখন আকার ছোট হয় তখন সাধারণত প্রয়োগ হয়?

  2. আমি এক্স এবং ওয়াই উভয়ের হিস্টোগ্রামের প্লট করেছি এবং সেগুলিকে সাধারণত বিতরণ করা হয়নি, দ্বি-নমুনা টি-পরীক্ষার অন্যতম অনুমান। আমার বিভ্রান্তি হ'ল, আমি এগুলিকে দুটি জনসংখ্যা হিসাবে বিবেচনা করি এবং সে কারণেই আমি সাধারণ বিতরণের জন্য পরীক্ষা করেছিলাম। তবে আমি এখন একটি দ্বি-নমুনা টি-টেস্ট করতে চলেছি ... এটি কি ঠিক?

  3. কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য থেকে, আমি বুঝতে পেরেছি আপনি যদি একাধিকবার নমুনা প্রদর্শন করেন (আপনার জনসংখ্যার আকারের উপর নির্ভর করে পুনরাবৃত্তি সহ / ছাড়াই) এবং প্রতিবার নমুনার গড় গণনা করেন তবে এটি প্রায় বিতরণ করা হবে। এবং, এই র্যান্ডম ভেরিয়েবলগুলির গড়টি জনসংখ্যার গড়ের একটি ভাল অনুমান হবে। সুতরাং, আমি এক্স এবং ওয়াই উভয় ক্ষেত্রেই এটি করার সিদ্ধান্ত নিয়েছি, 1000 বার, এবং নমুনা পেয়েছি এবং আমি প্রতিটি নমুনার গড় হিসাবে একটি এলোমেলো পরিবর্তনশীল নির্ধারণ করেছি। প্লটটি খুব সাধারণভাবে বিতরণ করা হয়েছিল। এক্স এবং ওয়াই এর গড় গড় ছিল 4.2 এবং 15.8 (যা জনসংখ্যার হিসাবে সমান ছিল + - 0.15) এবং তারতম্য ছিল 0.95 এবং 12.11।
    অসম বৈকল্পিকগুলি সহ আমি এই দুটি পর্যবেক্ষণে (1000 টি ডাটা পয়েন্ট) একটি টি-টেস্ট করেছি, কারণ সেগুলি খুব আলাদা (0.95 এবং 12.11)। এবং নাল অনুমানকে প্রত্যাখ্যান করা হয়েছিল।
    এটি কি আদৌ বোঝায়? এটি কি সঠিক / অর্থবোধক পদ্ধতি বা দ্বি-নমুনা জেড-পরীক্ষা যথেষ্ট বা এটি সম্পূর্ণ ভুল?

  4. আমি নিশ্চিত হওয়ার জন্য একটি অ-প্যারাম্যাট্রিক উইলকক্সন পরীক্ষাও করেছি (মূল এক্স এবং ওয়াইয়ের উপর) এবং নাল অনুমানটি দৃinc়ভাবে সেখানেও প্রত্যাখ্যান করা হয়েছিল। আমার আগের পদ্ধতিটি সম্পূর্ণ ভুল ছিল এমন পরিস্থিতিতে, আমি মনে করি যে পরিসংখ্যানগত শক্তি ব্যতীত কোনও প্যারামিমেট্রিক পরীক্ষা করা ভাল হয়?

উভয় ক্ষেত্রে, উপায়গুলি উল্লেখযোগ্যভাবে পৃথক ছিল। তবে, আমি জানতে চাই যে দুটি বা উভয়ই পদ্ধতির ত্রুটিযুক্ত / সম্পূর্ণ ভুল এবং যদি তাই হয় তবে বিকল্পটি কী?

উত্তর:


21

টি-পরীক্ষাটি কেবলমাত্র ছোট নমুনার জন্য isতিহাসিক হোল্ড ওভার। হ্যাঁ এটি প্রাথমিকভাবে ছোট নমুনাগুলির জন্য তৈরি হয়েছিল তবে তত্ত্বের মধ্যে এমন কিছুই নেই যা ছোট থেকে বড়কে আলাদা করে। কম্পিউটার পরিসংখ্যান করার জন্য প্রচলিত দিনগুলিতে টি-টেবিলগুলি প্রায়শই কেবল প্রায় 30 ডিগ্রি স্বাধীনতার দিকে চলে গিয়েছিল এবং সাধারণভাবে টি বিতরণের ঘনিষ্ঠতা হিসাবে ব্যবহৃত হত। টি-টেবিলের আকারটি যুক্তিসঙ্গত রাখার সুবিধার জন্য এটি ছিল। কম্পিউটারের সাথে এখন আমরা যে কোনও নমুনা আকারের জন্য টি-টেস্ট করতে পারি (যদিও খুব বড় নমুনাগুলির জন্য জেড-টেস্টের ফলাফল এবং টি-পরীক্ষার ফলাফলের মধ্যে পার্থক্য খুব কম)। মূল ধারণাটি হ'ল মানক বিচ্যুতির অনুমান করার জন্য নমুনাটি ব্যবহার করার সময় টি-টেস্ট ব্যবহার করা এবং জনসংখ্যার মানক বিচ্যুতিগুলি (খুব বিরল) জানা থাকলে জেড-টেস্ট ব্যবহার করা।

কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য আমাদের নমুনা আকারগুলি যথেষ্ট পরিমাণে দীর্ঘ না করা পর্যন্ত জনসংখ্যাকে সাধারণত বিতরণ না করা সত্ত্বেও সাধারণ তত্ত্ব অনুমিতি (এই ক্ষেত্রে টি-পরীক্ষা) ব্যবহার করতে দেয়। এর অর্থ এই নয় যে আপনার পরীক্ষাটি আনুমানিক (তবে আপনার নমুনা আকারের সাথে অনুমোদনের ব্যবস্থাটি খুব ভাল হওয়া উচিত)।

উইলকক্সন পরীক্ষাটি কোনও উপায় নয় (যদি না আপনি জানেন যে জনসংখ্যা নিখুঁতভাবে প্রতিসম এবং অন্যান্য সম্ভাব্য অনুমানগুলি ধারণ করে)) যদি মাধ্যমগুলি আগ্রহের মূল বিষয় হয় তবে টি-টেস্টটি সম্ভবত উদ্ধৃত করার চেয়ে ভাল।

আপনার মানক বিচ্যুতিগুলি এত আলাদা এবং প্রদত্ত আকারগুলি অ-স্বাভাবিক এবং সম্ভবত একে অপরের থেকে পৃথক, এই উপায়ের পার্থক্যটি এখানে চলছে সবচেয়ে আকর্ষণীয় জিনিস নাও হতে পারে। বিজ্ঞান সম্পর্কে এবং আপনার ফলাফলগুলির সাথে আপনি কী করতে চান তা ভেবে দেখুন। জনসংখ্যা পর্যায়ে বা ব্যক্তি পর্যায়ে সিদ্ধান্ত নেওয়া হচ্ছে? এই উদাহরণটি বিবেচনা করুন: আপনি ড্রাগের উপর একটি নির্দিষ্ট রোগের জন্য 2 টি ওষুধের তুলনা করছেন, একটি অর্ধেক নমুনা তাত্ক্ষণিকভাবে মারা গেলেন অন্য অর্ধেকটি প্রায় এক সপ্তাহের মধ্যে উদ্ধার হয়েছে; ওষুধ বিতে সমস্ত বেঁচে ও পুনরুদ্ধার হয়েছিল, তবে পুনরুদ্ধারের সময়টি এক সপ্তাহের চেয়ে বেশি ছিল। এই ক্ষেত্রে আপনি কী পুনরুদ্ধারের সময়টি কম সময় বোঝাতে চান তা সম্পর্কে সত্যই চিন্তা করবেন? বা এ-এর অর্ধেক মৃত্যুবরণকে পুনরুদ্ধার করতে খুব দীর্ঘ সময় কাটাতে (বি গ্রুপের কারও চেয়ে বেশি দীর্ঘ) প্রতিস্থাপন করুন।


আপনাকে গ্রেগ ধন্যবাদ। আমি ধরে নিয়েছি যে প্রতি সেয়ে পদ্ধতিতে কোনও ভুল নেই? আমি বুঝতে পারি যে আমি সম্ভবত সঠিক প্রশ্ন জিজ্ঞাসা করছি না, তবে আমার উদ্বেগটি পরিসংখ্যানের পরীক্ষা / পদ্ধতি সম্পর্কে এবং সমানভাবে দু'টি নমুনা দেওয়া বোঝার বিষয়ে। আমি সঠিক প্রশ্ন জিজ্ঞাসা করছি কিনা তা যাচাই করে নেব এবং কোন প্রশ্ন থাকলে ফিরে আসব। আমি যদি জৈবিক সমস্যাটি ব্যাখ্যা করি তবে এটি আরও পরামর্শ দিয়ে সহায়তা করবে। আবার ধন্যবাদ.
অরুণ

5

গ্রেগের ইতিমধ্যে খুব বিস্তৃত উত্তরের একটি যোগ।

যদি আমি আপনাকে সঠিকভাবে বুঝতে পারি তবে আপনার পয়েন্ট 3 এ নিম্নলিখিত পদ্ধতিটি জানিয়েছে:

  • পালন একটি বিতরণ নমুনা ।এক্সnX
  • তারপরে, সেই মানগুলির অঙ্ক করুন এবং তাদের গড় গণনা করুন।এনmn
  • এই 1000 বার পুনরাবৃত্তি করুন, সংশ্লিষ্ট উপায় সংরক্ষণ করুন
  • পরিশেষে, এই অর্থগুলির গড়টি গণনা করুন এবং ধরে নিন যে গড়টি সেইভাবে গণিতের গড়ের সমান হয়।X

এখন আপনার অনুমানটি হ'ল, এর জন্য কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি ধরে রাখে এবং সংশ্লিষ্ট র্যান্ডম ভেরিয়েবলটি সাধারণত বিতরণ করা হবে।

ত্রুটি সনাক্ত করতে আপনার গণনার পিছনে গণিতটি একবার দেখে নেওয়া যাক:

আমরা আপনার , বা, পরিসংখ্যান পরিভাষায় আপনার নমুনাগুলি কল করব , আপনার কাছে । এখন আমরা আকার নমুনা আঁকা এবং তাদের গড় গনা। এর অর্থের চতুর্থ কোনওরকম দেখতে দেখতে:এক্স 1 , , এক্স এন এক্স 1 , , এক্স এনএক্স এম কেX এক্স1,...,এক্সএনএক্স1,...,এক্সএন~এক্সমি

ওয়াই=1মিΣআমি=1মিএক্সμআমি

যেখানে -এর মানে 1 এবং মধ্যবর্তী মান যে আঁকা টানা হয়েছে । এই সমস্ত অর্থের গড় গণনা করা ফলস্বরূপ n iμআমিএনআমি

11000Σ=110001মিΣআমি=1মিএক্সμআমি

আপনাকে সঠিক গাণিতিক পরিভাষা থেকে বাঁচাতে এই যোগফলটি একবার দেখুন। যা ঘটে তা হল সমষ্টিটিতে সবেমাত্র একাধিকবার যুক্ত করা হয়েছে। সব সব, আপনি পর্যন্ত যোগ সংখ্যা এবং তাদের দ্বারা বিভক্ত করা । আসলে, আপনি এলোমেলো ওজনের সাথে এর একটি ভারিত গড় গণনা করছেন । 1000 মি 1000 মি এক্স iএক্সআমি1000মি1000মিএক্সআমি

তবে এখন, কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি বলেছেন যে প্রচুর স্বতন্ত্র র্যান্ডম ভেরিয়েবলের যোগফল প্রায় স্বাভাবিক approximately (যার ফলস্বরূপ গড় প্রায় সাধারণও হয়)।

আপনার উপরের যোগফলটি স্বাধীন নমুনা তৈরি করে না। আপনার সম্ভবত এলোমেলো ওজন রয়েছে তবে এটি আপনার নমুনাগুলিকে মোটেও স্বতন্ত্র করে না। সুতরাং, 3 লিখিত পদ্ধতি আইনী নয়।

যাইহোক, গ্রেগ যেমন ইতিমধ্যে বিবৃত একটি ব্যবহার আপনার মূল ডেটার উপর -test প্রায় সঠিক হতে পারে - যদি সত্যিই গড় এ আগ্রহী।টি


ধন্যবাদ. মনে হচ্ছে টি-টেস্টটি ইতিমধ্যে সিএলটি ব্যবহার করে সমস্যার যত্ন নিয়েছে (গ্রেগের উত্তর থেকে যা আমি উপেক্ষা করেছি)। এটি নির্দেশ করার জন্য এবং 3 এর সুস্পষ্ট ব্যাখ্যার জন্য ধন্যবাদ) যা আমি আসলে জানতে চেয়েছিলাম। এই ধারণাগুলি উপলব্ধি করার জন্য আমাকে আরও বেশি সময় ব্যয় করতে হবে।
অরুণ

2
মনে রাখবেন যে হাতের বিতরণের উপর নির্ভর করে সিএলটি ভিন্নভাবে ভাল সম্পাদন করে (বা আরও খারাপ, প্রত্যাশিত মান বা বিতরণের বৈকল্পিক উপস্থিতি নেই - তবে সিএলটি বৈধও নয়)। যদি সন্দেহ হয় তবে সর্বদা আপনার পক্ষে যেমনটি দেখা যায় তার অনুরূপ এমন একটি বিতরণ উত্পন্ন করা ভাল ধারণা এবং তারপরে কয়েকশবার এই বিতরণটি ব্যবহার করে আপনার পরীক্ষাটি অনুকরণ করে। আপনি আনুমানিক সিএলটি সরবরাহের গুণমান সম্পর্কে অনুভূতি পাবেন।
থিলো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.