একটি বৃহত তথ্য সেট জন্য তাত্পর্য স্তর কীভাবে চয়ন করবেন?


15

আমি প্রায় 200,000 এন থাকা ডেটা সেট নিয়ে কাজ করছি। প্রতিক্রিয়াগুলিতে, আমি খুব ছোট তাত্পর্যপূর্ণ মানগুলি দেখছি << 0.001 খুব ছোট প্রভাবের আকারের সাথে যুক্ত, যেমন r = 0.028। আমি যা জানতে চাই তা হ'ল, নমুনার আকারের সাথে সম্পর্কিত কোনও উপযুক্ত তাত্পর্য নির্ধারণের মূলত উপায় কি? এত বড় নমুনা সহ এফেক্ট আকারের ব্যাখ্যা সম্পর্কে কি অন্য কোনও গুরুত্বপূর্ণ বিবেচনা রয়েছে?


10
এটি ব্যবহারিক বনাম পরিসংখ্যানগত তাত্পর্যপূর্ণ একটি বিষয়। যদি opeালটি প্রকৃতপক্ষে 0 থেকে আলাদা হয়, এমনকি একটি ক্ষুদ্র পরিমাণ যেমন .000000000000011) দ্বারা, ফলাফলের ব্যবহারিক তাত্পর্য না থাকা সত্ত্বেও একটি বৃহত পরিমাণের নমুনা খুব ক্ষুদ্র p ভ্যালু দেবে। আপনি যখন এত বড় নমুনা আকার পাবেন তখন আপনি p ভ্যালুয়ের চেয়ে বিন্দু অনুমানের চেয়ে বেশি ভাল ব্যাখ্যা করতে পারেন।
ম্যাক্রো

@ ম্যাক্রো দুঃখিত আপনি এখানে বিন্দু অনুমান দ্বারা কী বোঝাতে চেয়েছেন তা পরিষ্কার করতে পারেন?
ted.strauss

3
উপরে ম্যাক্রোর মন্তব্যে যুক্ত হওয়া, এই পরিস্থিতিতে আমি অনুসন্ধানগুলিতে "ব্যবহারিক" বা "ক্লিনিকাল" তাত্পর্যটি খুঁজছি। আপনি যা করছেন তার জন্য, আপনার যত্ন নেওয়ার পক্ষে কি প্রভাবটি যথেষ্ট বড়?
মিশেল

1
বিন্দু অনুমানটি পর্যবেক্ষণের রিগ্রেশন opeাল অনুমান।
ম্যাক্রো

2
@ ম্যাক্রো এবং আমি দুজনই যা বলছি তা হ'ল ক্লিনিকাল এফেক্ট (পয়েন্ট আনুমানিক, opালু) গুরুত্বপূর্ণ কিনা তা আপনার সিদ্ধান্ত নেওয়া দরকার। আপনার প্রান্তিকতা "হ্যাঁ, এটি একটি গুরুত্বপূর্ণ ক্লিনিকাল প্রভাব" সিদ্ধান্ত নেওয়ার ভিত্তিতে রয়েছে "উল্লেখযোগ্য পি-মান" না দিয়ে কারণ আপনার পি-মানগুলির বেশিরভাগ (সমস্ত?) উল্লেখযোগ্য।
মিশেল 21

উত্তর:


20

ভিতরে তাত্পর্য পরীক্ষার তুচ্ছতা , জনসন (1999) উল্লেখ করা যে আপনি মিথ্যা ছোট তাদের করতে পারেন হিসাবে আপনি, যথেষ্ট ডেটা সংগ্রহ নাল হাইপোথিসিস অভিমানী দ্বারা চান, যার ফলে এটি প্রায় সবসময় যে P-মূল্যবোধ, অবাধ হয়। বাস্তব বিশ্বে, আধা-আংশিক পারস্পরিক সম্পর্কগুলি হুবুহু হবার সম্ভাবনা নেই, যা রিগ্রেশন সহগের পরীক্ষার তাত্পর্য বিশিষ্ট কল্পনা। পি-মান তাত্পর্য কাট অফগুলি আরও বেশি স্বেচ্ছাসেবী। তাত্পর্য এবং তাত্পর্যপূর্ণ মধ্যে কাট অফ হিসাবে .05 এর মান নীতি অনুসারে নয়, কনভেনশন দ্বারা ব্যবহৃত হয়। সুতরাং আপনার প্রথম প্রশ্নের উত্তর হ'ল না, উপযুক্ত তাৎপর্যের প্রান্তিক স্থানে সিদ্ধান্ত নেওয়ার কোনও নীতিগত উপায় নেই।

সুতরাং আপনি কি করতে পারেন, আপনার বিশাল ডাটা সেট দেওয়া? এটি আপনার রিগ্রেশন সহগগুলির পরিসংখ্যানগত তাত্পর্য অনুসন্ধান করার জন্য আপনার কারণ (গুলি) এর উপর নির্ভর করে। আপনি কি কোনও জটিল বহু-কল্পিত সিস্টেমকে মডেল করার এবং এমন একটি কার্যকর তত্ত্ব বিকাশের চেষ্টা করছেন যা বাস্তবতার সাথে ফিট করে বা ভবিষ্যদ্বাণী করে? তারপরে সম্ভবত আপনি আরও বিস্তৃত মডেল বিকাশের বিষয়ে এবং মডেলিংয়ের দৃষ্টিভঙ্গি গ্রহণের বিষয়ে চিন্তা করতে পারেন, যেমন রডজার্স (২০১০) -তে বর্ণিত , গাণিতিক ও পরিসংখ্যানের মডেলিংয়ের জ্ঞানতত্ত্ব । প্রচুর ডেটা থাকার একটি সুবিধা হল খুব সমৃদ্ধ মডেলগুলি একাধিক স্তর এবং আকর্ষণীয় ইন্টারঅ্যাকশনযুক্ত (আপনার কাছে এটির ভেরিয়েবল রয়েছে বলে ধরে নেওয়া) অন্বেষণ করতে সক্ষম করা।

অন্যদিকে, যদি আপনি কোনও নির্দিষ্ট গুণাগুণকে পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ বলে বিবেচনা করেন বা না করেন সে বিষয়ে আপনি কিছুটা রায় দিতে চান, তবে আপনি গুডস (1982) পরামর্শটি উলের (২০০৩) সংক্ষিপ্ত হিসাবে গ্রহণ করতে চাইতে পারেন : কিউ-মান গণনা করুন যেমন যা পি-মানগুলিকে 100 এর নমুনা আকারে মানক করে exactly ঠিক এক .001 এর একটি পি-মান .045 এর পি-মান রূপান্তর করে - পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ এখনও।p(n/100)

সুতরাং যদি এটি কিছু স্বেচ্ছাসেবী থ্রেশহোল্ড বা অন্য ব্যবহার করে তাৎপর্যপূর্ণ হয় তবে এর কী? যদি এটি একটি পর্যবেক্ষণমূলক অধ্যয়ন হয় তবে এটি প্রমাণ করার জন্য আপনার আরও অনেক কাজ থাকতে পারে যে এটি আপনি যেভাবে ভাবেন সেভাবেই অর্থবহ এবং কেবলমাত্র একটি উত্সাহী সম্পর্ক নয় যা প্রদর্শিত হয় কারণ আপনি আপনার মডেলটিকে ভুল বানিয়েছেন। মনে রাখবেন যে কোনও চিকিত্সা প্রভাবের পরিবর্তে চিকিত্সার বিভিন্ন স্তরের ক্ষেত্রে নির্বাচন করে এমন লোকগুলির মধ্যে পূর্ব-বিদ্যমান পার্থক্যগুলি উপস্থাপন করে যদি একটি ছোট প্রভাব এতটা চিকিত্সাগতভাবে আকর্ষণীয় নয়।

মন্তব্যকারীরা যেমন উল্লেখ করেছেন, আপনি যে সম্পর্কটি দেখছেন তা ব্যবহারিকভাবে তাত্পর্যপূর্ণ কিনা তা বিবেচনা করার দরকার নেই। ভেরিয়েন্স ব্যাখ্যা করার জন্য আপনি যে পরিসংখ্যানগুলি থেকে r 2 তে উদ্ধৃত করেছেন তা রূপান্তর করা ( r পারস্পরিক সম্পর্ক, বিবর্তনের জন্য এটি বর্গক্ষেত্র) যথাক্রমে মাত্র 3 এবং 6% রূপান্তরিত ব্যাখ্যা দেয়, যা খুব বেশি বলে মনে হয় না।rr2r


@ রোল্যান্ডো 2 সম্পাদনার জন্য ধন্যবাদ, সর্বদা বড় / ছোট পি-মানগুলির মধ্যে বিভ্রান্ত হয়! আমি মনে করি যদি এটি বিতরণের ডানদিকে বন্ধ হয় তবে এটি বড়, তবে পি-মানটি ছোট।
অ্যান জেড।

2
(+1) এটি একটি গুরুত্বপূর্ণ সত্য যে অনেক চিকিত্সকরা এ সম্পর্কে সাবধানতার সাথে ভাবেন না: "পি-মানগুলি স্বেচ্ছাসেবী হয়, যাতে আপনি যথেষ্ট পরিমাণে তথ্য সংগ্রহের মাধ্যমে এগুলি যতটা ছোট করে তুলতে পারেন, নাল অনুমানটি মিথ্যা বলে ধরে নিয়েছেন যে এটি প্রায় সর্বদা হয়। "
ম্যাক্রো

ধন্যবাদ! আপনার পেনাল্টিমেট অনুচ্ছেদে পয়েন্টগুলি ভালভাবে নেওয়া হয়েছে। আমি উউলির নিবন্ধটি পড়ছি এবং লক্ষ্য করেছি যে আপনার কিউ-মান সূত্রটি বন্ধ। এটি পি * নয় পি / - হওয়া উচিত আমি এখানে এটি পরিবর্তন করার চেষ্টা করেছি তবে সম্পাদনাগুলি অবশ্যই 6 টি অক্ষর হতে হবে।
ted.strauss

@ ted.strauss আমি আনন্দিত এটি সহায়ক। কখনও কখনও আমি পি-ভ্যালুগুলির মতো সরঞ্জামগুলির সীমাবদ্ধতা দ্বারা নিরুৎসাহিত বোধ করি যা আমাদের সাথে কাজ করতে হয়। সূত্রটিতে ভুল লক্ষ করার জন্য ধন্যবাদ, আমি এটি ঠিক করেছি।
অ্যান জেড।

দুর্দান্ত উত্তরের জন্য ধন্যবাদ। তবে উপরে উল্লিখিত লিঙ্কটি ব্যবহার করে আমি উল্লি 2003 পেপারটি অ্যাক্সেস করতে পারছি না।
কার্তিক এস

-3

আমি অনুমান করি যে চেক করার একটি সহজ উপায় আপনি যা জানেন তা থেকে দ্বিগুণ একটি বিতরণ এবং দুটি ফলাফলের তুলনা করে এলোমেলোভাবে একই পরিমাণে বৃহত সংখ্যার নমুনা তৈরি করা হবে। আপনি যদি এটি বেশ কয়েকবার করেন এবং অনুরূপ পি-মানগুলি পর্যবেক্ষণ করেন তবে এটি প্রস্তাব দেয় যে কোনও বাস্তব প্রভাব নেই। অন্যদিকে যদি আপনি না করেন তবে সম্ভবত আছে।


7
আমি মনে করি আপনি একটি বড় নমুনা আকারের সাথে কোনও সত্য পার্থক্যের নাল অনুমানের অধীনে সিমুলেশনগুলি করার পরামর্শ দিচ্ছেন এবং মূল্যগুলি দেখুন। আমি এই অনুকরণগুলি না করেই বলতে পারি যে < .001 ফলাফলের পি- ভ্যালুগুলির অনুপাত মূল পোস্টার হিসাবে লক্ষ্য করা হিসাবে তার চেয়ে কম হবে। এটি কোনও নমুনা আকারের জন্য সত্য। এটি একটি পি- মূল্য সংজ্ঞা । p<.001pp
ম্যাক্রো

1
বস্তুত, -values যে প্রক্রিয়ায় আপনার বর্ণিত একটি থাকবে বের হবে ইউ এন আমি মি ( 0 , 1 ) বন্টন। pUniform(0,1)
ম্যাক্রো

1
H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0বিতরণের ফাংশন হল জি 0 , সঙ্গে জি 0 , ক্রমাগত এবং nondecreasing এটা বিপরীত হয়েছে যাতে জি - 1 0 । তারপরে, আমরা পি ( টি ) = 1 - জি 0 ( টি ) , এবং, তোমার জন্য [ 0 , 1 ]TG0G0G01p(t)=1G0(t)u[0,1]
জেন

1
(জেনের মন্তব্যের ধারাবাহিকতা):
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.