দেখুন এবং আপনি পাবেন (একটি সম্পর্ক)


66

আমার কয়েকশো পরিমাপ আছে। এখন, আমি প্রতিটি পরিমাপের সাথে প্রতিটি পরিমাপের সাথে সম্পর্কিত করতে এক ধরণের সফ্টওয়্যার ব্যবহার করার বিষয়টি বিবেচনা করছি। এর অর্থ হ'ল হাজারো পারস্পরিক সম্পর্ক রয়েছে। এর মধ্যে (পরিসংখ্যানগতভাবে) একটি উচ্চ সম্পর্ক থাকতে হবে, এমনকি ডেটা সম্পূর্ণরূপে এলোমেলো হলেও (প্রতিটি পরিমাপে প্রায় 100 টি ডাটাপয়েন্ট থাকে)।

যখন আমি কোনও সম্পর্ক খুঁজে পাই, তখন আমি কীভাবে সহবাসের জন্য সন্ধান করছিলাম সে সম্পর্কিত তথ্যটি কীভাবে অন্তর্ভুক্ত করব?

আমি পরিসংখ্যানের উচ্চ স্তরে নেই, সুতরাং দয়া করে আমার সাথে সহ্য করুন।


5
এটি কেন একাধিক হাইপোথিসিস পরীক্ষার প্রয়োজন তার একটি দুর্দান্ত উদাহরণ।

সম্ভবত কোনওটি বৃহত্তম পারস্পরিক সম্পর্কের জন্য তাত্পর্যপূর্ণ গুরুত্বের জন্য নাল বিতরণ, দ্বিতীয় বৃহত্তম পারস্পরিক সম্পর্কের জন্য পৃথক প্রান্তিকের জন্য নাল বিতরণ তৈরি করতে ব্যবহার করতে পারেন। আশা করি পাইথন বা আর এ কেবল কয়েক ঘন্টা সময় লাগবে (হা! বিখ্যাত শেষ শব্দগুলি।) তবে নিশ্চয়ই কেউ ইতিমধ্যে এটি করেছে এবং কোথাও কোডটি সংরক্ষণ করেছে?

4
Rএই মেশিনে @ টমোতে 300 বাই 100 ম্যাট্রিক্সের সর্বাধিক xcorrel <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))
সংযোগের

উত্তর:


74

এটি একটি দুর্দান্ত প্রশ্ন, এমন একজনের পক্ষে যোগ্য যিনি একজন পরিস্কার পরিসংখ্যানবাদী চিন্তাবিদ, কারণ এটি একাধিক পরীক্ষার সূক্ষ্ম তবে গুরুত্বপূর্ণ দিকটি স্বীকৃতি দেয়।

আছে P-মান সমন্বয় মান পদ্ধতি যেমন Bonferroni এবং Sidak পদ্ধতি (হিসাবে (অথবা এবং, equivalently তাদের আস্থা অন্তর প্রসারিত করার) একাধিক পারস্পরিক সম্পর্ক কোফিসিয়েন্টস এর QV )। তবে এগুলি সহজাত গাণিতিক সম্পর্কের কারণে বৃহত্তর পারস্পরিক সম্পর্ক মেট্রিক্সের সাথে অনেক বেশি রক্ষণশীল যারা সাধারণভাবে সম্পর্কযুক্ত সহগের মধ্যে থাকতে হবে hold (এই জাতীয় সম্পর্কের কয়েকটি উদাহরণের জন্য সাম্প্রতিক প্রশ্ন এবং পরবর্তী থ্রেডটি দেখুন )) এই পরিস্থিতিটি মোকাবেলার জন্য সর্বোত্তম পন্থার মধ্যে একটি হ'ল ক্রমশক্তি (বা পুনরায় মডেলিং) পরীক্ষা করা is। পারস্পরিক সম্পর্কের সাথে এটি করা সহজ: পরীক্ষার প্রতিটি পুনরাবৃত্তিতে, কেবল এলোমেলোভাবে ক্ষেত্রগুলির প্রতিটিের মানের ক্রমগুলি স্ক্র্যাম্ব করে (যার ফলে কোনও সহজাত সম্পর্ককে নষ্ট করে) এবং সম্পূর্ণ পারস্পরিক সম্পর্ক মেট্রিক্স পুনরুদ্ধার করে। কয়েক হাজার পুনরাবৃত্তির জন্য এটি করুন (বা আরও), তারপরে পারস্পরিক সম্পর্ক মেট্রিক্সের এন্ট্রিগুলির বিতরণের সংক্ষিপ্তসার করুন, উদাহরণস্বরূপ, তাদের 97.5 এবং 2.5 শতাংশ প্রদান: এগুলি শূন্যের অধীনে পারস্পরিক প্রতিসম দ্বিমুখী 95% আস্থা অন্তর হিসাবে পরিবেশন করবে কোন পারস্পরিক সম্পর্ক সম্পর্কিত অনুমান। (প্রথমবার যখন আপনি প্রচুর সংখ্যক ভেরিয়েবলের সাথে এটি করেন আপনি অবাক হয়ে যাবেন যে কোনও সহজাত সম্পর্ক নেই, এমনকি কতটা পারস্পরিক সম্পর্কের সহগও হতে পারে))

ফলাফলগুলি প্রতিবেদন করার সময়, আপনি কোনও গণনা করেন না কেন, আপনার নিম্নলিখিতগুলি অন্তর্ভুক্ত করা উচিত:

  • পারস্পরিক সম্পর্কের ম্যাট্রিক্সের আকার ( অর্থাত্ আপনি কতগুলি পরিবর্তনশীলকে দেখেছেন)।

  • আপনি যে কোনও পারস্পরিক সম্পর্ক সহগের p-মান বা "তাত্পর্য" নির্ধারণ করেছেন ( উদাহরণস্বরূপ , এগুলি যেমন রয়েছে তেমনি রেখেছেন, একটি Bonferroni সংশোধন প্রয়োগ করেছেন, ক্রমশক্তি পরীক্ষা করেছেন বা যা কিছু)।

  • আপনি পারস্পরিক সম্পর্কের বিকল্প ব্যবস্থা যেমন স্পিয়ারম্যান র‌্যাঙ্ক সহসংযোগের দিকে নজর রেখেছেন কিনা । যদি আপনি তা করেন তবে এটি নির্দেশ করুন যে আপনি কেন সেই পদ্ধতিটি বেছে নিলেন যা আপনি প্রকৃতপক্ষে প্রতিবেদন করছেন এবং ব্যবহার করছেন।


1
এটি পি-মান সমন্বয় পদ্ধতির একটি চমত্কার পুঙ্খানুপুঙ্খ বিবরণ তবে যা শোধ করা যায় না তা হ'ল সামঞ্জস্যের মানদণ্ড। .তিহ্যগতভাবে এটি পারিবারিকভাবে ত্রুটি হার হয়েছে। তবে এটি একটি কঠোর মানদণ্ড এবং যখন আপনি কয়েক হাজার তুলনা দেখছেন তখন কার্যকর হয় না। সেক্ষেত্রে প্রথমে বেঞ্জামিনির পরামর্শ দেওয়া মিথ্যা আবিষ্কারের হারটি এখন সাধারণত ব্যবহৃত হয়।
মাইকেল চেরনিক

corr(x1,y1)corr(xn,yn)xiyicorr(xi,yj) ij)? আমাদের কি এখনও সংশোধন দরকার?
Jase

@ জেস হ্যাঁ, আপনি করেন। সংশোধনের পরিমাণটি ভেরিয়েবলের মধ্যে আন্তঃসম্পর্ক নির্ভর করে। সিমুলেশন-ভিত্তিক পদ্ধতিগুলি এই সংশোধনগুলি নির্ধারণ করার একমাত্র কার্যকর উপায় সম্পর্কে।
whuber

বাহ সুন্দর. আপনি যে পদ্ধতিটি আলোচনা করেছেন তা কি সিরিয়াল সম্পর্ক এবং হেটেরোসিসেস্টাস্টিটি সমস্যাগুলির জন্য মানগত ত্রুটিগুলিও সংশোধন করবে?
জেস

@ জেস হিটারোসেসটেস্টিক মডেলটিতে পারস্পরিক সম্পর্ক সহগগুলি ব্যাখ্যা করা কঠিন হবে। আপনার মন্তব্যটি বহু ধারাবাহিক সম্পর্কের সহগগুলির অনুমানের পরিবর্তে টাইম সিরিজ সেটিংয়ের ক্ষেত্রে একটি লিনিয়ার মডেলকে উল্লেখ করেছে।
হোবার

10

পিটার ফ্লমের প্রশ্নের আপনার ফলোআপ প্রতিক্রিয়া থেকে মনে হচ্ছে আপনার কৌশল সম্পর্কিত উচ্চতর স্তরের কাঠামোটি দেখে এমন কৌশলগুলি দ্বারা আপনাকে আরও ভাল পরিবেশিত হতে পারে।

ফ্যাক্টর বিশ্লেষণ, পিসিএ, বহুমাত্রিক স্কেলিং এবং ভেরিয়েবলের ক্লাস্টার বিশ্লেষণের মতো কৌশলগুলি আপনার ভেরিয়েবলগুলিকে তুলনামূলকভাবে আরও সম্পর্কিত ভেরিয়েবলের সেটে গ্রুপ করতে ব্যবহার করতে পারে।

এছাড়াও, কী ধরণের কাঠামো উপস্থিত থাকতে হবে সে সম্পর্কে আপনি তাত্ত্বিকভাবে ভাবতে চাইতে পারেন। যখন আপনার ভেরিয়েবলের সংখ্যা বড় হয় এবং পর্যবেক্ষণের সংখ্যা কম হয়, আপনি প্রায়শই পূর্বের প্রত্যাশার উপর বেশি নির্ভর করে থাকেন।


1
(+1) @ পিটার ফ্লমের প্রতিক্রিয়া সম্পর্কে ওপির মন্তব্যের আলোকে ভাল পরামর্শ।
শুক্রবার

7

এটি একাধিক তুলনার উদাহরণ। এটিতে একটি বিশাল সাহিত্য রয়েছে।

যদি আপনার কাছে 100 টি ভেরিয়েবল থাকে তবে তা আপনার 100 * 99/2 = 4950 সম্পর্কিত হবে।

যদি ডেটা কেবল শব্দ হয় তবে আপনি 20 এর মধ্যে 1 টি পি = .05-তে উল্লেখযোগ্য হবে বলে আশা করবেন। এটি 247.5

যদিও আরও দূরে যাবার আগে আপনি কেন আপনি এটি করছেন তা বলতে পারলে ভাল হবে। এই ভেরিয়েবলগুলি কী, আপনি সেগুলি সংশোধন করছেন কেন, আপনার মূল ধারণাটি কী?

বা, আপনি কেবল উচ্চ সম্পর্কের জন্য মাছ ধরছেন?


3
আমি কেন এটি করতে চেয়েছিলাম তার কারণটি ছিল আমার ডেটা বোঝার দিকে খোলা মন থাকা, তাই সম্ভবত কোনও উপায়ে আমি জ্ঞানচর্চা করার উদ্দেশ্যে পূর্বে ভাবিওনি এমন সম্পর্কগুলির সন্ধান করছি। আমি অবশ্যই আমার বসকে বা কিছু ঘৃণ্য বিষয়টিকে সন্তুষ্ট করার জন্য এটি করছি না। আমি বরং এই তথ্যের সুনির্দিষ্ট বিষয়গুলিতে যাব না, কারণ আমি এই প্রশ্নের সাধারণ উত্তর চাই, তাই আমি ভবিষ্যতে সমস্ত পরিস্থিতিতে এটি ব্যবহার করতে পারি।
ডেভিড

7

হাইপোথেসিস গঠনের জন্য আপনি সম্ভবত ডেটাটির এলোমেলো উপসেটের প্রাথমিক বিশ্লেষণ করতে পারেন এবং তারপরে বাকী ডেটা ব্যবহার করে আগ্রহের এই কয়েকটি অনুমানের পরীক্ষা করতে পারেন। এইভাবে আপনাকে প্রায় একাধিক পরীক্ষার জন্য সংশোধন করতে হবে না। (আমি মনে করি...)

অবশ্যই, আপনি যদি এই জাতীয় পদ্ধতি ব্যবহার করেন তবে আপনি চূড়ান্ত বিশ্লেষণের জন্য ব্যবহৃত ডেটাসেটের আকার হ্রাস করবেন এবং তাই প্রকৃত প্রভাবগুলি খুঁজে পাওয়ার জন্য আপনার শক্তি হ্রাস করবেন। তবে একাধিক তুলনার জন্য সংশোধন শক্তিও হ্রাস করে এবং তাই আমি নিশ্চিত নই যে আপনি অগত্যা কোনও কিছু হারাবেন।


5
(+1) এটি সাধারণত একটি দুর্দান্ত ধারণা। বৃহত্তর পারস্পরিক সম্পর্কের ম্যাট্রিক্সের জন্য, তবে অনেকগুলি পরিসংখ্যান রয়েছে এবং এর মধ্যে অনেকগুলি একই সাথে উত্সাহজনকভাবে বড় হতে পারে যা এটি সাধারণত সামঞ্জস্য করার জন্য অর্থ প্রদান করে। অন্যথায় আপনি বিপুলসংখ্যক বিভ্রান্তিকরভাবে "তাৎপর্যপূর্ণ" পারস্পরিক সংযোগগুলি তাড়া করে শেষ করেন যা কেবল হোল্ড-আউট ডেটাতে অদৃশ্য হয়ে যায়। (বলুন, 50 অসামঞ্জস্যিত আদর্শ মানের বিভিন্ন থেকে কয়েকশ
আঁকায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.