গড় opeাল গণনা: সুরেলা বা গাণিতিক গড়?


11

বড় ডেটাসেটের জন্য আমাকে গড় আপস্লোপ শতাংশ opeাল গণনা করতে হবে, মৌলিক পদ্ধতিটি এখানে বিশদ তবে, আমি ভাবতে শুরু করেছি যে সুরেলা গণিতের চেয়ে সুরেলা গড়টি আরও উপযুক্ত হতে পারে, কারণ এটি প্রযুক্তিগতভাবে পরিবর্তনের হার। পয়েন্ট, অঞ্চল, লাইন ইত্যাদির তুলনায় slালু গড় গড় বিষয়ে অন্য কোনও আলোচনায় আমি এই পরিবর্তনটি দেখিনি It এটি সম্পাদন করা মোটামুটি সোজা হওয়া উচিত।

সম্পাদনা করুন: এক্ষেত্রে গড় calcাল গণনা করার উদ্দেশ্য হ'ল মডেলিং চ্যানেল দীক্ষা থ্রেশহোল্ডগুলি ব্যবহার করার জন্য একটি প্যারামিটার তৈরি করা (অনেকের মধ্যে)। আমার কাছে ক্ষেত্র-সংগৃহীত চ্যানেলের প্রধান অবস্থানগুলির একটি সেট রয়েছে যা আমি প্রবাহের জমা, বিভিন্ন গড় উত্সাহিত প্যারামিটার ইত্যাদি সংগ্রহ করব এবং অন্যান্য পরামিতিগুলির শর্তে সঞ্চারের প্রান্তিকতা বর্ণনা করার জন্য একাধিক লিনিয়ার রিগ্রেশন ব্যবহার করব।


4
এটি নির্ভর করে যে আপনি কেন গড় opeাল গণনা করছেন। উদ্দেশ্য কি? আপনি কোন শারীরিক পরিমাণ পরিমাপ করার চেষ্টা করছেন? যদিও গড়ের বিভিন্ন ধরণের বৈধতা রয়েছে, সুরেলা মানে থেকে সাবধান থাকুন: কোনও opeাল শূন্য হলে এটি সমস্যা সৃষ্টি করে যা প্রায়শই ঘটে।
whuber

উত্তর:


10

গড় opeাল প্রাকৃতিক পরিমাণের মতো শোনাচ্ছে তবে এটি অদ্ভুত বিষয়। উদাহরণস্বরূপ, একটি সমতল অনুভূমিক সমতলটির গড় opeাল শূন্য, তবে আপনি যখন সেই সমভূমির একটি ডেমটিতে একটি সামান্য বিট, শূন্য-গড় শব্দের যোগ করেন, গড় opeালু কেবল উপরে যেতে পারে। অন্যান্য অদ্ভুত আচরণগুলি হ'ল ডিএম রেজোলিউশনের গড় slালটির নির্ভরতা, যা আমি এখানে নথিভুক্ত করেছি , এবং ডিএম কীভাবে তৈরি হয়েছিল তার উপর নির্ভরশীলতা। উদাহরণস্বরূপ, কনট্যুর মানচিত্রগুলি থেকে তৈরি কিছু ডেমগুলি আসলে সামান্য টেরেসযুক্ত - ছোট্ট আকস্মিক লাফিয়ে যেখানে কনট্যুর লাইন থাকে - তবে অন্যথায় পুরো পৃষ্ঠের সঠিক প্রতিনিধিত্ব করা হয়। গড়পড়তা প্রক্রিয়ায় খুব বেশি বা খুব কম ওজন দেওয়া হলে এই হঠাৎ লাফানো গড় opeালু পরিবর্তন করতে পারে।

লালনপালন তৌল প্রাসঙ্গিক, কারণ প্রভাব, একটি সমন্বয়পূর্ণ গড় (এবং অন্যান্য উপায়ে) differentially ঢালে তৌল করা হয়। এটি বুঝতে, x এবং y এর জন্য দুটি ধনাত্মক সংখ্যার সুরেলা অর্থ বিবেচনা করুন । সংজ্ঞানুসারে,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

যেখানে ওজন এক = y / (x + y) এবং খ = x / (x + y)। (এগুলিকে "ওজন" বলা যোগ্য, কারণ এগুলি ইতিবাচক এবং toক্যের সমষ্টি। পাটিগণিতের জন্য, ওজন a = 1/2 এবং b = 1/2)। স্পষ্টরূপে, ওজন সংযুক্ত এক্স , / (এক্স + Y) y এর সমান, বড় যখন এক্স হয় ছোট তুলনায় Y । এইভাবে সুরেলা মানে ছোট মানগুলি অতিরিক্ত ওজন ।

এটি প্রশ্নকে প্রশস্ত করতে সহায়তা করতে পারে। সুরেলা গড়টি একটি গড় মূল্য পি দ্বারা প্যারামিটারাইজড গড়ের পরিবারের অন্যতম । ঠিক যেমন সমন্বয়পূর্ণ গড় গড় দ্বারা প্রাপ্ত হয় বিপরীতকের এর এক্স এবং ওয়াই (এবং তাদের গড় পারস্পরিক গ্রহণ), সাধারণভাবে আমরা PTH ক্ষমতা গড় পারে এক্স এবং ওয়াই (এবং তারপর ফলাফল 1 / PTH ক্ষমতা নিতে )। পি = 1 এবং পি = -1 কেসগুলি যথাক্রমে পাটিগণিত এবং সুরেলা উপায়। (আমরা সীমাবদ্ধতা গ্রহণের মাধ্যমে পি = 0 এর একটি অর্থ সংজ্ঞায়িত করতে পারি এবং এর মাধ্যমে এই পরিবারের সদস্য হিসাবে জ্যামিতিক গড়ও অর্জন করতে পারি)) পি হিসাবে1 থেকে হ্রাস পায়, ছোট মানগুলি আরও বেশি করে ওজনযুক্ত হয়; এবং পি যেমন 1 থেকে বৃদ্ধি পায়, বৃহত্তর মানগুলি আরও বেশি ভারী হয়। এটি অনুসরণ করে যে পি কেবলমাত্র বৃদ্ধি পায় এবং পি কমে যাওয়ার সাথে সাথে এটি হ্রাস করতে হবে। (এটি নীচের দ্বিতীয় চিত্রটিতে স্পষ্টতই প্রমাণিত হয়েছে যে তিনটি লাইনই হয় সমতল বা বাম থেকে ডানে বর্ধমান।)

বিষয়টি সম্পর্কে একটি ব্যবহারিক দৃষ্টিভঙ্গি গ্রহণের পরিবর্তে আমরা insteadালুগুলির বিভিন্ন মাধ্যমের আচরণটি অধ্যয়ন করতে পারি এবং এই জ্ঞানটি আমাদের বিশ্লেষণাত্মক সরঞ্জাম বাক্সে যুক্ত করতে পারি: যখন আমরা আশা করি যে aালু এমনভাবে একটি সম্পর্কের মধ্যে প্রবেশ করবে যাতে ছোট opালুগুলি আরও বেশি দেওয়া উচিত একটি প্রভাব, আমরা পি এর চেয়ে কম 1 এর সাথে একটি মাধ্যম বেছে নিতে পারি ; এবং বিপরীতে, আমরা বৃহত্তম opালুতে জোর দেওয়ার জন্য 1 এর উপরে পি বাড়িয়েছি । এই লক্ষ্যে, আসুন বিন্দুর আশেপাশে নিকাশী বিভিন্ন ধরণের প্রোফাইল বিবেচনা করা যাক।

কী চলতে পারে তা দেখানোর জন্য, আমি তিনটি গুণগতভাবে পৃথক স্থানীয় অঞ্চল বিবেচনা করেছি : একটি যেখানে সমস্ত opাল সমান (যা একটি ভাল রেফারেন্স তোলে); অন্যটি হল যেখানে স্থানীয়ভাবে আমরা একটি বাটির নীচে অবস্থিত: আমাদের চারপাশে opালু শূন্য হয়, তবে ধীরে ধীরে বৃদ্ধি পায় এবং শেষ পর্যন্ত, রিমের চারপাশে নির্বিচারে বড় হয়ে যায়। এই অবস্থার বিপরীতটি ঘটে যখন কাছাকাছি opালগুলি মাঝারি হয় তবে তারপরে আমাদের থেকে দূরে থাকে। এটি আচরণের একটি বাস্তববাদী বিস্তৃত পরিসীমা আবরণ বলে মনে হবে।

এই তিন ধরণের নিকাশী ফর্মের সিউডো-থ্রি ডি প্লট এখানে রয়েছে:

3 ডি প্লট

এখানে আমি প্রতিটিটির গড় opeাল গণনা করেছি - একই রঙের কোডিংয়ের সাথে - পি এর ক্রিয়াকলাপ হিসাবে , পি -2 -1 (সুরেলা গড়) থেকে 2 এর মধ্য দিয়ে দিতে পারি।

Opeাল মানে বনাম পি

অবশ্যই নীল রেখাটি অনুভূমিক: মানটি যা গ্রহণ করে তা নির্বিশেষে ধ্রুবক slালের অর্থ ধ্রুবক ছাড়া অন্য কিছু হতে পারে না (যা রেফারেন্সের জন্য 1 তে সেট করা হয়েছে)। লাল বাটিটির সুদূর প্রান্তের চারপাশের উঁচু stronglyালগুলি দৃ the়ভাবে গড় influenceালুগুলিকে প্রভাবিত করে যেমন পি পরিবর্তিত হয়: লক্ষ্য করুন যে তারা একবারে কত বড় হয়ে যায় পি 1 ছাড়িয়ে যায়। তৃতীয় (সোনালি-সবুজ) পৃষ্ঠের অনুভূমিক রিমটি সুরেলা গড়ের কারণ ঘটায় (পি = - 1) শূন্য হতে।

এটি লক্ষণীয় যে তিনটি বক্ররেখার আপেক্ষিক অবস্থানগুলি পি = 0 (জ্যামিতিক গড়) থেকে পরিবর্তিত হয়: পি এর চেয়ে 0 এর জন্য, লাল বাটিটি নীলের চেয়ে বড় গড় opালু হয়, তবে নেতিবাচক পি এর জন্য , লাল বাটিটি কম গড় হয় নীল চেয়ে opালু। সুতরাং, আপনার পি এর পছন্দটি গড় opালুগুলির তুলনামূলকভাবে তুলনামূলক পরিবর্তন করতে পারে ter

হলুদ-সবুজ আকারের সুরেলা গড় (পি = -1) এর গভীর প্রভাব আমাদের বিরতি দেওয়া উচিত: এটি দেখায় যে নিকাশীতে যখন যথেষ্ট ছোট op ালু থাকে তখন সুরেলা গড় এত ছোট হতে পারে যে এটি কোনও প্রভাবকে ছাড়িয়ে যায় it অন্যান্য সমস্ত opালু।

একটি আত্মা অনুসন্ধানমূলক তথ্য বিশ্লেষণ, আপনি নানারকম বিবেচনা করতে পারেন পি এটি লেট --perhaps এড়ানোর চরম ওজন করার জন্য 1 থেকে একটু বৃহত্তর 0 থেকে পরিসীমা - এবং গবেষনার যা গড় মান ঢাল এবং পরিবর্তনশীল আপনার মধ্যে শ্রেষ্ঠ সম্পর্ক তৈরি করে মডেলিং হয় (যেমন চ্যানেল আরম্ভের প্রান্তিকতা)। "বেস্ট" সাধারণত একটি রিগ্রেশন মডেলতে "সর্বাধিক রৈখিক" বা "ধ্রুবক [সমকামী] অবশিষ্টাংশ তৈরি করা" অর্থে বোঝা যায়।


পুরো বিশ্লেষণের জন্য ধন্যবাদ! আমি এই সম্পর্কে কিছুটা জন্য গুজব করতে হবে।
জে গারনারী

1

আমি তীব্র তাত্ত্বিক উত্তরের পরিপূরক উত্তর খুঁজে পেতে একটি অভিজ্ঞতা অভিজ্ঞতা গ্রহণ করেছি wh আমি ডিগ্রি এবং that ালুতে averageাল গণনা করার সিদ্ধান্ত নিয়েছি যে একটি কৌণিক গড় ব্যবহার করে । এরপরে, আমি শতাংশ opeালের গণিত এবং সুরেলা উপায় গণনা করেছি আমি অধ্যয়নের স্থানে এলোমেলোভাবে অবস্থিত নমুনা পয়েন্টগুলির একটি সেট তৈরি করেছি। আমি সর্বনিম্ন 100 মিটার দূরত্ব সহ 2000 পয়েন্টের জন্য অনুরোধ করেছি, যা 1326 পয়েন্ট পেয়েছে। আমি প্রতিটি বিন্দুতে প্রতিটি গড় ঢাল রাস্টার মান নমুনা, এবং সূত্র ব্যবহার করে ডিগ্রীতে শতাংশ মানে রূপান্তরিত Degrees = atan(percent/100)। এখানে আমার ধারণাটি হ'ল কৌণিক গড়টি "সঠিক" গড় ডিগ্রিগুলিতে opeাল উত্পাদন করে এবং যে কোনও শতাংশের সাথে এর কাছাকাছি এসে পৌঁছানো সঠিক পদ্ধতি হবে।

এর পরে, আমি একটি ক্রুসকল-ওয়ালেস পরীক্ষা ব্যবহার করে সমস্ত অ-শূন্য মানগুলি তুলনা করেছি (অনুমানগুলি যে বেশিরভাগ শূন্য valuesালের মানগুলির জন্য এটি তিনটিতেই শূন্য হবে এবং শূন্য মানগুলি পদ্ধতির মধ্যে পার্থক্যকে মুখোশ করবে)। আমি তিনটি (চি-স্কোয়ার = 17.9570, ডিএফ = 2, পি = 0.0001) এর মধ্যে একটি উল্লেখযোগ্য পার্থক্য পেয়েছি, সুতরাং আমি আলফা = 0.05 (এলিয়ট এবং হায়ানান 2011) ব্যবহার করে ডানের প্রক্রিয়া ব্যবহার করে ডেটাটি আরও পরীক্ষা করে দেখেছি । শেষ ফলাফলটি হ'ল পাটিগণিত এবং সুরেলা গড় একে অপরের থেকে উল্লেখযোগ্যভাবে পৃথক, তবে নেগ্রারটি কৌণিক গড় থেকে উল্লেখযোগ্যভাবে পৃথক:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

যদি আমার অনুমানগুলি সমস্ত সঠিক ছিল (তারা খুব ভাল নাও হতে পারে), এর অর্থ হ'ল সুরযুক্ত এবং পাটিগণিতের অর্থ একে অপরের থেকে আলাদা মান তৈরি করার সময়, এগুলি উভয়ই কৌণিক মানে গ্রহণযোগ্য হওয়ার জন্য "ঘনিষ্ঠ নিযুক্ত"। এখানে আরও দুটি ক্যাভেট রয়েছে যা আমি ভাবতে পারি (দয়া করে অন্য কোনওটিকে যদি তাদের সম্পর্কে মনে করেন তবে যোগ করুন):

  1. বৃহত্তর নমুনা আকার পারে শতাংশ অর্থ এবং কৌণিক গড় মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য খুঁজে। তবে, আমার নমুনার আকারটি কেবল শূন্য-অমূল্যের জন্য ~ 1000 পয়েন্ট ছিল।
  2. যেহেতু আমার নমুনা পয়েন্টগুলি নিকাশী অববাহাগুলি বিবেচনা না করেই জায়গা ছিল তাই কিছু ছদ্ম-প্রতিলিপি জড়িত থাকতে পারে, কারণ কোনও গড় opeাল এটির উপরে meanালু সম্পর্কিত হতে চলেছে।

1
এটি আকর্ষণীয় (+1) তবে সীমাবদ্ধতা থেকে সাবধান থাকুন। (1) হ্যাঁ, আপনি যদি বৃহত্তর নমুনার আকার চয়ন করেন তবে আপনি দেখতে পাবেন যে সমস্ত পার্থক্য উল্লেখযোগ্য। সুতরাং পরিসংখ্যান অনুমানের পরীক্ষাটি করা কোনও অর্থবোধ করে না: আপনি পদ্ধতির মধ্যে পার্থক্যের পরিমাণের দিকে মনোযোগ দিতে চান । (২) আপনার ফলাফলগুলি সম্পূর্ণভাবে আপনার ডেটার প্রকৃত বৈশিষ্ট্যের উপর নির্ভর করে। এগুলি অন্যান্য ডেটাসেটের সাথে পৃথক হবে। (3) কৌণিক গড়টি একটি রেফারেন্স হিসাবে দরকারী তবে এটি কোনওভাবেই পছন্দসই মান নয়। কোন রেফারেন্স হিসাবে ব্যবহার করবেন তা সম্পূর্ণ বিশ্লেষণ বা ম্যাপিংয়ে কীভাবে ব্যবহৃত হবে তা নির্ভর করে।
whuber

0

Opeালকে সংজ্ঞায়িত করার মতো কোনও পরামিতি জানা নেই এই ধারণাটি প্রদান করে কোনও পরিসংখ্যানবিদ ianালটি ব্যবহার করতে বলবেন যা এটি থেকে ডেটা আরএমএসের বিচ্যুতিকে হ্রাস করে। (অবশ্যই, whuber এর উদাহরণগুলি উপযুক্ত নয়, যেহেতু তিনি গাণিতিকভাবে উত্পাদিত ল্যান্ডফর্মগুলি বেছে নিয়েছেন, তবে সত্যিকারের ল্যান্ডফর্মগুলির জন্য জ্ঞাত-পরামিতিগুলির ধারণাটি বৈধ হওয়া উচিত))


এই উত্তর প্রশংসা করা হয়, কিন্তু আমি মনে করি এটি পরিস্থিতি ভুল বুঝে। সর্বাধিক উল্লেখযোগ্যভাবে, এই opালগুলি বক্ররেখার সাথে ফিট করতে ব্যবহৃত হয় না: "ডেটাগুলির আরএমএস বিচ্যুতি" ধারণাটি কেবল প্রযোজ্য নয়। দ্বিতীয়ত, আমি সত্যিই কী সম্মুখীন হবে তার বিস্তৃত বর্ণালী ছড়িয়ে দেওয়ার জন্য গুণগত ল্যান্ডফর্ম ধরণগুলি বেছে নিয়েছি, তাই আমি বজায় রেখেছি তারা কী আশা করবে সে সম্পর্কে দরকারী তথ্য দেয়। এখানে কী চলছে তা বোঝার জন্য রিয়েল ডেটাসেটগুলি তেমন অবদান রাখে না, কারণ "সত্য" গড় opeালের মতো কোনও জিনিস নেই। মূল প্রশ্নটি হল গড়গুলি কীভাবে দরকারী বা তথ্যবহুল হবে।
whuber

1
বিটিডাব্লু, আমি বিশ্বাস করি একটি পরিসংখ্যানবিদ হিসাবে আমার কিছু যোগ্যতা রয়েছে । এটি এই বিষয়ে আমার মতামতকে আরও ভাল বা আরও খারাপ করে তোলে না: অন্য কারও মতো আমাকেও যথাসম্ভব স্পষ্ট ও উদ্দেশ্যমূলকভাবে ব্যাক আপ করা দরকার এবং আমি ভুল হতে এবং আমার মন পরিবর্তন করতে পেরে যথেষ্ট সংবেদনশীল: - )। আমি আপনার "যে কোনও পরিসংখ্যানবিদ" মন্তব্যটির পাল্টা হিসাবে এই পয়েন্টটি অফার করছি।
whuber

কী মাপসই উপযোগী তা প্রশ্ন, আমি জমা দিয়েছি, opeালটি কী ব্যবহার করা উচিত তার উপর নির্ভর করে। স্থল স্ল্যাম্প সম্ভাবনার জন্য, উদাহরণস্বরূপ, স্টিপার opালগুলি একটি ঝাপসা সম্ভাবনা বনাম opeালু মডেল অনুসারে হালকা opালের তুলনায় উচ্চতর ওজনিত হবে, তারপরে আরএমএস ফিটের পদ্ধতিটি বৈধ হওয়া উচিত। অন্যান্য ওজনযুক্ত মডেলগুলি অন্যান্য ব্যবহারের সাথে মিলে ব্যবহৃত হবে। সংক্ষেপে, ওজন বা অন্যান্য উপায়ে আমরা যা জানি তার সবকিছুর মডেল করুন, তারপরে আরএমএসের উপর নির্ভর করুন যা আমরা না করি তার সবকিছুর জন্য মডেল হিসাবে পরামর্শ দিন।
জনসনকি

আমি জন এই মন্তব্যের ভিত্তিতে একমত, কিন্তু আপনার উপসংহারটি কীভাবে অনুসরণ করা হয় তা আমি দেখতে পাই না। যদি স্টিপার opালগুলি ভারী ওজন গ্রহণ করতে হয় তবে মনে হয় আরএমএস হ'ল আপনি যা করতে চান না, কারণ এটি devাল নির্বিশেষে সমস্ত বিচ্যুতিকে সমানভাবে ওজন করে। তদুপরি, আরএমএস, চতুষ্কোণ ক্ষতির ফাংশন হিসাবে, অন্যান্য কৌশল কী অর্জন করতে পারে তার সার্বজনীন প্রতিস্থাপন হতে পারে না, slালের অবিচ্ছিন্ন পুনঃপ্রকাশ এবং বিকল্প ক্ষতির ক্রিয়াকলাপগুলি (উদাহরণস্বরূপ দৃ methods় মানানসই পদ্ধতি দ্বারা শোষণ করা সহ) ব্যবহার সহ।
হোবল

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.