পারস্পরিক সম্পর্ক উন্নতির জন্য এটি কি ডেটাসেটে গড় ব্যবহারের অনুমতি দেয়?


9

আমার একটি নির্ভরশীল এবং একটি স্বাধীন ভেরিয়েবল সহ একটি ডেটাসেট রয়েছে। দুজনই কোনও সময়ের সিরিজ নয়। আমার 120 টি পর্যবেক্ষণ রয়েছে। পারস্পরিক সম্পর্ক সহগ 0.43

এই গণনার পরে, আমি প্রতি 12 টি পর্যবেক্ষণের জন্য গড়ের সাথে উভয় ভেরিয়েবলের জন্য একটি কলাম যুক্ত করেছি, যার ফলে 108 টি পর্যবেক্ষণ (জোড়) সহ 2 টি নতুন কলাম রয়েছে। এই কলামগুলির পারস্পরিক সম্পর্ক সহগ ০.7777

দেখে মনে হচ্ছে আমি এইভাবে পারস্পরিক সম্পর্ক উন্নত করেছি। এটি কি অনুমতি দেওয়া হয়? আমি কি গড় ব্যবহার করে স্বতন্ত্র ভেরিয়েবলের ব্যাখ্যা শক্তি বাড়িয়েছি?


4
আপনি যা করেছেন তা হ'ল স্মুথিং ফিল্টারের মাধ্যমে ডেটা চালানো। এটি সিগন্যাল প্রসেসিংয়ে সর্বদা করা হয় এবং এটি পুরোপুরি গ্রহণযোগ্য এবং ডেটা এমনকি ব্যবহারযোগ্য না হওয়ার আগে সাধারণত এটি প্রয়োজন। এটি সর্বদা বৈদ্যুতিন পরিমাপে প্রচলিত গোলমাল দূর করে। তবে এটি আপনার নির্দিষ্ট সমস্যার জন্য গ্রহণযোগ্য কিনা আপনি আপনার ডেটাতে "গোলমাল" বনাম "গুণমান" কতটা অর্জন করতে চাইছেন তার নির্দিষ্টকরণ এবং সম্ভবত "ডিগ্রি" এর উপর নির্ভর করে। আমি শুধু খেয়াল তাই আমি সন্দেহ তুমি কি করেছিলে অর্থহীন কারণ অনুক্রম পরিবর্তন পরিবর্তন ফলাফল "দুজনেই সময় সিরিজ নয়"
ডাঙ্ক

সবাইকে ধন্যবাদ. আমার নির্ভরশীল পরিবর্তনশীল হ'ল একটি বাজানো সিস্টেমের মাসিক ফলাফলের একটি সিরিজ (এই ফলাফলগুলি সম্পর্কিত নয়)। স্বাধীন পরিবর্তনশীল হ'ল আমি নির্মিত একটি সূচকটির ফলাফল। এই সূচকটি নির্দিষ্ট মাসে স্পোর্টস ম্যাচের স্কোরগুলি কী পরিমাণে চূড়ান্ত হয়েছে সে সম্পর্কিত একটি স্কোর উত্পন্ন করে (এই ক্রীড়াগুলির সাথে সম্পর্কিত নয়)। আমি সন্দেহ করছিলাম যে আমি যা করেছি তা অর্থহীন, যদিও এটি আমাকে অবাক করে দিয়েছিল যে পারস্পরিক সম্পর্কের সহগ এতটা উন্নত হয়েছিল।
ব্যবহারকারী 2165379

2
আমি নিশ্চিত না তবে আমার মনে হয় যে কোনও ডেটার গড় গড়ে তুললে একই রকম ফলাফল পাওয়া যায়। আমি ভাবব যে গড়পড়তা বহিরাগতদের প্রভাবকে হ্রাস করে। সুতরাং, পারস্পরিক সম্পর্ক উন্নতি করতে হবে। যদিও, আমি বাজি ধরছি যে কিছু ম্যাথিক-গীক ভালভাবে নির্বাচিত ডেটা নিয়ে আসতে পারে যা বিপরীত প্রভাব ফেলবে, তবে আমি বাস্তবের জগতে এমন ডেটা হওয়ার আশা করি না।
ডঙ্ক

আপনি এই ডেটাটি কীসের জন্য নির্দিষ্ট করেছেন তা আমি দেখতে পেলাম না। যাইহোক, সাধারণভাবে, আপনার নির্দিষ্ট দর্শকদের কাছে আপনার ডেটা উপস্থাপন করার সময়, কীভাবে ডেটা প্রাপ্ত হয়েছিল তা প্রকাশ করা ভাল অভ্যাস।
জন মিলিকেন

3
উপস্থাপিত গড় মানগুলির পারস্পরিক সম্পর্ক কী? এটি অবশ্যই মূল ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্কের কোনও যুক্তিসঙ্গত অনুমান নয়।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


15

আসুন দুটি ভেক্টর এক নজরে আসুন, প্রথম সত্তা

    2 6 2 6 2 6 2 6 2 6 2 6

এবং দ্বিতীয় ভেক্টর হচ্ছে

   6 2 6 2 6 2 6 2 6 2 6 2

আপনি পাবেন পিয়ারসন পারস্পরিক সম্পর্ক গণনা করা

cor(a,b)
[1] -1

তবে আপনি যদি মানগুলির জন্য ক্রমাগত জোড়ার গড় নেন তবে উভয় ভেক্টর অভিন্ন। সনাক্তকারী ভেক্টরগুলির পারস্পরিক সম্পর্ক 1

  4 4 4 4 4 4  

এই সাধারণ উদাহরণটি আপনার পদ্ধতির একটি খারাপ দিক চিত্রিত করে।

সম্পাদনা করুন : এটি আরও সাধারণভাবে ব্যাখ্যা করার জন্য: পারস্পরিক সম্পর্ক সহগ নিম্নলিখিত পদ্ধতিতে গণনা করা হয়।

E[(XμX)(YμY)]σX σY

কিছু গড় Xগুলি এবং কিছু Yএর মধ্যে পার্থক্য পরিবর্তন করে X এবং μX পাশাপাশি পার্থক্য Y এবং μY


1
আমি কিছু মার্ক আপ যোগ করেছি তবে আপনি সংজ্ঞা দিতে পারেন এবং করতে পারেন μ এবং σস্পষ্টভাবে শর্তাবলী।
নিক কক্স

ধন্যবাদ. এর অর্থ কি এই যে আমার ফলাফলগুলি গড় ব্যবহার করে চাটুকারের 'ফুলে উঠেছে' এবং গড় ছাড়াই পর্যবেক্ষণগুলি ব্যবহার করা সর্বদা ভাল?
ব্যবহারকারী 21653799

হাইপোথিসিস টেস্টিংয়ের জন্য আপনার ডেটা নিজেই দেখে নেওয়া উচিত এবং গড় হিসাবে নয়। অন্যান্য ডোমেনে বর্ণনামূলক পরিসংখ্যান একটি দরকারী সরঞ্জাম হতে পারে। আপনার বর্ণনামূলক পরিসংখ্যান যেমন কোয়ান্টাইলস (বিশেষত মধ্যক) এবং উচ্চতর (কেন্দ্রীভূত) মুহুর্তগুলির যেমন বৈকল্পিকতা, স্কিউনেস এবং কুর্তোসিসের অন্যান্য চিত্রগুলিও দেখতে হবে। তবে আমাদের ক্ষেত্রে এটি কার্যকর নয়। ভেক্টর এবং বি একই কোয়ান্টাইল, একই মুহুর্ত এবং একই কেন্দ্রিক মুহূর্ত রয়েছে।
ফেরি

1
গড় হিসাবে আধা-এলোমেলো ছড়িয়ে পড়া অপসারণ করে পারস্পরিক সম্পর্ক বাড়িয়ে তোলে তবে পর্যাপ্ত বিকৃত গড় গড়ে তুলনাকে শূন্যের দিকে ঠেলে দিতে পারে।
নিক কক্স

ধন্যবাদ. সুতরাং যদি সাধারণভাবে পারস্পরিক সম্পর্ক বাড়ানো যায়, তবে বোঝা যায় এটি কোনও উন্নতি নয়? বা কোয়াডস এলোমেলো ছড়িয়ে পড়া অপসারণের কারণে এটির উন্নতি?
ব্যবহারকারী 2165379

10

গড় আকর্ষণীয় বা সুবিধাজনক হতে পারে। এটি সবচেয়ে ধোঁকাবাজির সময়ও প্রতারণার উত্স হতে পারে, সুতরাং গড় হারের জন্য সুস্পষ্ট যুক্তি না থাকলেও সাবধানে পদচারণ করুন।

এটি এমন একটি পরিস্থিতি যা এটি কোনও ভাল ধারণা নয়। বিবেচনা করুন যে গোষ্ঠীগুলির যত্ন সহকারে সংজ্ঞা দিয়ে আপনি (সাধারণত) দুটি ডেটা সংক্ষিপ্ত বিন্দুতে দুটি ভেরিয়েবলের উপর আলাদা করতে পারবেন; এবং তারপরে আপনি প্রস্থের সাথে একটি নিখুঁত সম্পর্ক স্থাপন করবেন1। অভিনন্দন, না! পদ্ধতির কোনও ভাল কারণ ছাড়াই এখানে উন্নতি বোগাস og বিপদের কাছে যাওয়ার জন্য আপনার এই চরম মামলার কাছে যাওয়ার দরকার নেই।

কিছু পরিস্থিতি রয়েছে যার মধ্যে গড় গড় বোঝা যায়। উদাহরণস্বরূপ, যদি seasonতুগত পরিবর্তনগুলি অল্প বা স্বার্থের হয়, তবে বার্ষিক মানগুলিতে গড় গড় হ্রাস করা ডেটাসেট তৈরি করে যাতে আপনি সেই বার্ষিক মানগুলিতে ফোকাস করতে পারেন।

বিভিন্ন ক্ষেত্রে গবেষকরা একেবারে আলাদা স্কেলে পারস্পরিক সম্পর্কের বিষয়ে আগ্রহী হতে পারেন, যেমন বেকারত্ব এবং ব্যক্তি, কাউন্টি, রাজ্য, দেশগুলির জন্য অপরাধের মধ্যে (যে কোনও শর্তই সর্বাধিক বিবেচনা করা যায় তার পরিবর্তে)।

আগ্রহ এবং প্রায়শই অনুমানের সমস্যার অন্যতম প্রধান উত্স, বিভিন্ন স্কেল বা স্তরে কী চলছে তা ব্যাখ্যা করার মধ্যে। উদাহরণস্বরূপ, বেকারত্বের হার এবং অঞ্চলগুলির জন্য অপরাধের হারের মধ্যে একটি উচ্চ সম্পর্কের অর্থ এই নয় যে বেকাররা অপরাধী হওয়ার প্রবণতা বেশি; আপনার এটির উপর পরিষ্কার হতে ডেটা প্রয়োজন individuals কেবলমাত্র অর্থনীতি বা গোপনীয়তার বিষয়টি হিসাবে ডেটা প্রভিশন কেবলমাত্র স্বল্প মজাদার স্কেলে ডেটা উপলব্ধ হওয়ার ক্ষেত্রে সর্বাধিক বিশ্রী হতে পারে।

আমি আরও লক্ষ করি যে অনেকগুলি পরিমাপ প্রথম স্থানে প্রায়শই ছোট সময়ের ব্যবধান এবং / অথবা ছোট স্থান ব্যবধানের সাথে গড় হয়, তাই প্রায়শই কোনও ক্ষেত্রে ডেটা গড়ে পৌঁছে যায়।


3
আমি @ ফেরদীর উত্তরটি নিম্নরূপে প্রতিধ্বনিত করলাম যে গড়ের বিভিন্ন উপায় থাকতে পারে। এটি অনিশ্চয়তার অতিরিক্ত উত্স তৈরি করে। বিশেষত বৃহত্তর অঞ্চলগুলিকে একত্রিত করতে অসুবিধাটি বিশেষত তীব্র।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.