আমার অত্যন্ত স্কিউড ডেটাতে টি-টেস্ট ব্যবহার করা উচিত? বৈজ্ঞানিক প্রমাণ, দয়া করে?


15

ব্যবহারকারীর অংশগ্রহণ (যেমন: পোস্টের সংখ্যা) সম্পর্কে আমার কাছে অত্যন্ত স্কিউড (ক্ষতিকারক বিতরণের মতো দেখতে) ডেটাসেটের নমুনা রয়েছে, যার বিভিন্ন আকার রয়েছে (তবে 200 এর চেয়ে কম নয়) এবং আমি তাদের গড়ের তুলনা করতে চাই। তার জন্য, আমি দ্বি-নমুনা অযৌক্তিক টি-টেস্ট ব্যবহার করছি (এবং ওয়েলেচের ফ্যাক্টরের সাথে টি-পরীক্ষা, যখন নমুনাগুলির বিভিন্ন বৈকল্প ছিল)। যেমনটি আমি শুনেছি, সত্যই বড় আকারের নমুনাগুলির জন্য, এটি নমুনাটি সাধারণ বিতরণ না করে তা বিবেচ্য নয়।

কেউ, আমি কী করেছি তা পর্যালোচনা করে বলেছিলেন যে আমি যে পরীক্ষাগুলি ব্যবহার করছি তা আমার ডেটার জন্য উপযুক্ত নয়। তারা টি-পরীক্ষা ব্যবহার করার আগে আমার নমুনাগুলি লগ-ট্রান্সফর্ম করার পরামর্শ দিয়েছিল।

আমি একজন শিক্ষানবিস, সুতরাং "অংশগ্রহণের মেট্রিকের লগ" দিয়ে আমার গবেষণা প্রশ্নের উত্তর দেওয়া আমার কাছে সত্যিই বিভ্রান্ত বলে মনে হচ্ছে।

তারা ভুল আছে? আমি কি ভূল? যদি সেগুলি ভুল হয় তবে এমন কোনও বই বা বৈজ্ঞানিক কাগজ রয়েছে যা আমি তাদের তুলে ধরতে / দেখাতে পারি? আমি যদি ভুল হয় তবে আমার কোন পরীক্ষাটি ব্যবহার করা উচিত?


1
টি-টেস্টের সাধারণ বিতরণ অনুমান csic.cornell.edu/Elrod/t-test/t-test-assumptions.html রয়েছে । আপনি হয়ত ভাবছেন যে টি-বিতরণটি যখন নমুনা পর্যাপ্ত পরিমাণে বড় হয় তখন স্বাভাবিকের সমান হয়।
rdorlearn

6
এই প্রসঙ্গে "বৈজ্ঞানিক প্রমাণ" এর অর্থ কী?
গ্লেন_বি -রিনস্টেট মনিকা

1
আমি ভেবেছিলাম যে ধারনাটি ছিল একটি নির্দিষ্ট জনগোষ্ঠীর সমস্ত সম্ভাব্য নমুনার সমস্ত উপায় স্বাভাবিক হওয়া উচিত। সুতরাং, সিএলটি দ্বারা, এটি আমার ডেটাসেটের ক্ষেত্রেও সত্য হবে।
মিলেনা আরাউজো

1
বৈজ্ঞানিক প্রমাণ = প্রাসঙ্গিক কিছু প্রাসঙ্গিক: একটি বই, একটি কাগজ, ইত্যাদি
মাইলেনা আরাউজো

উত্তর:


36

আমি 'ক্ষতিকারক' বিশেষত উচ্চ স্কু বলব না। উদাহরণস্বরূপ এটির লগটি বাম-স্কিউ স্পষ্টভাবে রয়েছে এবং এর মুহুর্তের স্কিউনেস মাত্র 2।

1) ক্ষুদ্রতর ডেটা এবং 500 এর নিকট এন সাথে টি-পরীক্ষা ব্যবহার করা ভাল :

ক) পরীক্ষার পরিসংখ্যানগুলির অঙ্কটি সূক্ষ্ম হওয়া উচিত: যদি ডেটাগুলি সাধারণ স্কেল (এবং এর চেয়ে যথেষ্ট ভারী-লেজযুক্ত নয়) দিয়ে স্বতঃস্ফূর্ত হয় তবে তাদের গড় পর্যবেক্ষণের সংখ্যার সমান আকারের প্যারামিটার দিয়ে গামা-বিতরণ করা হয়। প্রায় 40 বা তার বেশি আকারের আকারের প্যারামিটারের জন্য এর বিতরণটি খুব স্বাভাবিক দেখাচ্ছে (আপনার যথার্থতার জন্য লেজটির মধ্যে কতটা দূরে রয়েছে তার উপর নির্ভর করে)।

এটি গাণিতিক প্রমাণের পক্ষে সক্ষম তবে গণিত বিজ্ঞান নয়। আপনি অবশ্যই অনুকরণের মাধ্যমে অনুকরণীয়ভাবে এটি পরীক্ষা করতে পারেন, অবশ্যই, তবে আপনি ঘনিষ্ঠতা সম্পর্কে ভুল হলে আপনার আরও বড় নমুনার প্রয়োজন হতে পারে। ক্ষতিকারক ডেটাগুলির নমুনার অঙ্কগুলি (এবং তাই, নমুনার অর্থ) এর বিতরণটি যখন এন = 40:

এখানে চিত্র বর্ণনা লিখুন

খুব সামান্য স্কিউ। নমুনা আকারের বর্গমূল হিসাবে এই স্কিউনেস হ্রাস পায়। সুতরাং এন = 160 এ, এটি স্কু হিসাবে অর্ধেক এন = 640 এ এটি স্কিউ হিসাবে এক চতুর্থাংশ:

এখানে চিত্র বর্ণনা লিখুন

এটি কার্যকরভাবে প্রতিসাম্যপূর্ণ তা গড়ের দিকে ঝাপটানো এবং এটি শীর্ষে প্লট করে দেখা যায়:

এখানে চিত্র বর্ণনা লিখুন

নীল মূল, লাল উল্টানো হয়। আপনি দেখতে যেমন এগুলি প্রায় কাকতালীয়।

-

এন=40

এখানে চিত্র বর্ণনা লিখুন

এন=500

-

গ) আসলে যা গুরুত্বপূর্ণ তা হ'ল শূন্যের নীচে সম্পূর্ণ পরিসংখ্যান বিতরণ। সংখ্যার স্বাভাবিকতা টি-স্ট্যাটিস্টিককে টি-বিতরণ করতে যথেষ্ট নয়। তবে তাত্পর্যপূর্ণ-ডেটা ক্ষেত্রে, এটিও খুব একটা সমস্যা নয়:

এখানে চিত্র বর্ণনা লিখুন

এন=40এন=500এন=500

তবে নোট করুন, তবে বাস্তবে ক্ষতিকারক ডেটার জন্য, স্ট্যান্ডার্ড বিচ্যুতি কেবল তখন ভিন্ন হবে যদি উপায়গুলি আলাদা হয়। যদি সূচকীয় অনুমানের ঘটনাটি হয় তবে নালীর নীচে, বিভিন্ন জনসংখ্যার বৈচিত্রগুলি সম্পর্কে চিন্তা করার কোনও বিশেষ দরকার নেই, কারণ সেগুলি কেবল বিকল্পের অধীনে ঘটে। সুতরাং একটি সমতুল্য টি-টেস্টটি এখনও ঠিক থাকা উচিত (এক্ষেত্রে আপনি হিস্টগ্রামে উপরের ভাল অনুমানটি দেখতে কিছুটা ভালও হতে পারেন)।


2) লগগুলি গ্রহণ করা আপনাকে এখনও এটি উপলব্ধি করার অনুমতি দিতে পারে

লগλ1লগλ2λ1λ2

[আপনি যদি লগগুলিতে এই পরীক্ষাটি করেন তবে আমি সেই ক্ষেত্রে একটি সমতুল্য পরীক্ষা করার পরামর্শ দিতে চাইব]]

সুতরাং - সংযোগকে ন্যায্যতা প্রমাণের জন্য কেবল একটি বাক্য বা দু'জনের নিছক হস্তক্ষেপের সাথে, আমার উপরে যেমন রয়েছে - আপনার অংশগ্রহণের মেট্রিকের লগ সম্পর্কে নয়, অংশগ্রহন মেট্রিক সম্পর্কেই আপনার সিদ্ধান্তগুলি লিখতে সক্ষম হওয়া উচিত।


3) আপনি করতে পারেন প্রচুর পরিমাণে আছে!

ক) আপনি ক্ষতিকারক ডেটা জন্য উপযুক্ত একটি পরীক্ষা করতে পারেন। সম্ভাবনা অনুপাত ভিত্তিক পরীক্ষা নেওয়া সহজ। যেমনটি ঘটে, তাত্পর্যপূর্ণ ডেটার জন্য আপনি একটি লেজযুক্ত ক্ষেত্রে এই পরিস্থিতির জন্য একটি ছোট-নমুনা এফ-পরীক্ষা (উপায়ের অনুপাতের ভিত্তিতে) পান; দুটি লেজযুক্ত LRT সাধারণত ছোট আকারের নমুনার আকারের জন্য প্রতিটি লেজের সমান অনুপাত রাখে না। (এটি টি-টেস্টের চেয়ে ভাল শক্তি থাকা উচিত, তবে টি-পরীক্ষার শক্তিটি বেশ যুক্তিসঙ্গত হওয়া উচিত এবং আমি আশা করব যে আপনার নমুনা আকারে খুব বেশি পার্থক্য না ঘটে))

খ) আপনি একটি ক্রম-পরীক্ষা করতে পারেন - এমনকি যদি এটি চান তবে এটি টি-টেস্টের ভিত্তিতেও করুন। সুতরাং পরিবর্তন যে একমাত্র জিনিস হ'ল পি-মান গণনা। অথবা আপনি বুটস্ট্র্যাপ-ভিত্তিক পরীক্ষার মতো আরও কিছু পুনরায় মডেলিং পরীক্ষা করতে পারেন। এটিতে ভাল শক্তি থাকা উচিত, যদিও এটি আপনার বিতরণের তুলনায় আপনি কোন পরীক্ষার পরিসংখ্যান পছন্দ করেন তার উপর আংশিকভাবে নির্ভর করবে।

গ) আপনি র‌্যাঙ্ক ভিত্তিক ননপ্যারামেট্রিক পরীক্ষা (যেমন উইলকক্সন-মান-হুইটনি) করতে পারেন। যদি আপনি ধরে নেন যে যদি বিতরণগুলি পৃথক হয়, তবে সেগুলি কেবলমাত্র স্কেল ফ্যাক্টর দ্বারা পৃথক হয় (এক্সপোনেনশিয়াল সহ বিভিন্ন স্কিউ বিতরণের জন্য উপযুক্ত) তবে আপনি এমনকি স্কেল পরামিতিগুলির অনুপাতের জন্য একটি আত্মবিশ্বাসের ব্যবধানও পেতে পারেন।

[এই উদ্দেশ্যে, আমি লগ-স্কেলে কাজ করার পরামর্শ দেব (লগগুলিতে লোকেশন শিফট স্কেল শিফটের লগ হ'ল)। এটি পি-মান পরিবর্তন করবে না, তবে এটি আপনাকে স্কেল শিফ্টের জন্য একটি বিরতি পেতে পয়েন্টের প্রাক্কলনটি এবং সিআইয়ের সীমাবদ্ধতা আরও বাড়িয়ে তুলবে]]

এটিরও খুব ভাল শক্তি থাকতে হবে যদি আপনি ক্ষতিকারক পরিস্থিতিতে থাকেন তবে সম্ভবত টি-টেস্ট ব্যবহারের মতো ভাল নয়।


একটি রেফারেন্স যা লোকেশন শিফট বিকল্পের ক্ষেত্রে উদাহরণগুলির জন্য যথেষ্ট বিস্তৃত সেট বিবেচনা করে (উদাহরণস্বরূপ নূরের নীচে ভেরিয়েন্স এবং স্কিউনেস বিজাতীয়ত্ব উভয় সহ)

ফাগারল্যান্ড, এমডাব্লু এবং এল স্যান্ডভিক (২০০৯),
"অসম বৈকল্পিকের সাথে স্কিউ বিতরণের জন্য পাঁচটি দ্বি-নমুনা অবস্থানের পরীক্ষার পারফরম্যান্স,"
সমকালীন ক্লিনিকাল ট্রায়ালস , 30 , 490-496

এটি সাধারণত ওয়েলচ ইউ-টেস্টের প্রস্তাব দেয় (ওয়েলচ বিবেচিত বেশ কয়েকটি পরীক্ষার মধ্যে একটি বিশেষ এবং কেবলমাত্র তারা পরীক্ষা করেছিল) recommend আপনি যদি ঠিক একই ওয়েলচের পরিসংখ্যান ব্যবহার না করেন তবে প্রস্তাবনাগুলি কিছুটা ভিন্ন হতে পারে (যদিও সম্ভবত এটি খুব বেশি নয়)। [দ্রষ্টব্য যে যদি আপনার বিতরণগুলি ক্ষতিকারক হয় তবে আপনি লগ না নেওয়া যদি আপনি স্কেল বিকল্পে আগ্রহী হন ... তবে আপনার ক্ষেত্রে অসম বৈকল্পিকতা থাকবে না]]


4
দুর্দান্ত উত্তর! আপনি একক পোস্টে কতটা তথ্য প্যাক করেছেন তা আমি সত্যিই হতবাক হয়ে গিয়েছিলাম
ক্রিশ্চিয়ান সাউর

@ গ্লেন_বি, এটি একটি দুর্দান্ত উত্তর! আপনাকে অনেক ধন্যবাদ. আরও একটি প্রশ্ন: আমার নমুনা একই ডেটাसेट থেকে আসে। আমি বৈশিষ্ট্যযুক্ত এক্স এবং ব্যবহারকারী বৈশিষ্ট্যযুক্ত ব্যবহারকারীদের নমুনাগুলির তুলনা করতে চাই users আকারে বিশাল পার্থক্য রয়েছে, তবে এটির আকারে বড় ঘনত্ব রয়েছে বলে মনে হয় না (ঘনত্ব এবং সম্ভাবনার প্লটগুলির দিকে তাকিয়ে)। যাইহোক টি-টেস্ট ব্যবহার করা কি সমস্যা হবে?
মাইলেনা আরাউজো

আপনি যখন "আকারের বিশাল পার্থক্য" বলছেন আপনি কি নমুনা আকারের (10000 বনাম 500) সম্পর্কে কথা বলছেন বা প্রতিটি গ্রুপের মধ্যে আদর্শ মানের মধ্যে? (প্রসঙ্গক্রমে, এগুলি কি ধারাবাহিক বা বিযুক্ত? এই জাতীয় উপাত্তের জন্য সাধারণ ন্যূনতম মানগুলি কতটা ছোট? লগগুলি কি একই আকারের হয় - এটি কি আমরা কেবলমাত্র একটি স্কেল শিফট যা বিবেচনা করছি?)
গ্লেন_বি -রিনস্টেট মনিকা

1
এর মতো ডেটার জন্য আপনি কোনও টেবিল দিয়ে ভাল হতে পারেন। সমালোচনামূলক তথ্যটি হ'ল এটি কেবল বিচ্ছিন্ন নয়, তবে প্রায় সমস্ত মানই সর্বনিম্ন কয়েকটি সংখ্যক প্রশ্নের মধ্যে থাকে। যদি আপনি কোনও হিস্টোগ্রাম প্লট করেন তবে ডুবড়িগুলি ছাড়াই এটি প্লট করুন এবং নিশ্চিত করুন যে সমস্ত নিম্ন মানের পৃথক পৃথক (0, 1, 2 প্রত্যেকটির জন্য বারগুলি সেগুলি একত্রিত না করে)। ডান কেটে ফেলা এবং বামদিকে আরও বেশি ছড়িয়ে দেওয়া ভাল (যেখানে প্রায় সমস্ত ডেটা থাকে) যতক্ষণ না আপনি এটি পরিষ্কার করে দেন যতক্ষণ না আপনি কোনও কিছু কেটে ফেলেন তবে ডানদিকে আরও কিছু রয়েছে। আপনি কী পরিমাপ করছেন এবং কী অর্জন করতে চাইছেন সে সম্পর্কে তথ্য অন্তর্ভুক্ত করুন ... (সিটিডি)
Glen_b -Rininstate মনিকা

1
আমার উত্তরের @ স্কটএইচ অংশ ১.২ এটিকে সুস্পষ্টভাবে সম্বোধন করে এবং আলোচনার অধীনে মামলার ক্ষেত্রে এটি কতটা গুরুত্বপূর্ণ তা লক্ষ্য করে (অনুরূপ নমুনার আকারে
আনুষঙ্গিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.