মৌলিক হাইপোথিসিস টেস্টিং কেন মধ্যের দিকে মনোযোগ দেয় না এবং কেন?


32

প্রাথমিক আন্ডার-গ্রেড পরিসংখ্যান কোর্সে শিক্ষার্থীরা একটি জনসংখ্যার গড় জন্য অনুমানের পরীক্ষা শেখানো হয় (সাধারণত?)
কেন এটি কেন কেন্দ্রীকরণের দিকে মনোযোগ কেন্দ্রীভূত হয় না? আমার অনুমান যে কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যের কারণে গড়টি পরীক্ষা করা আরও সহজ তবে আমি কিছু শিক্ষিত ব্যাখ্যা পড়তে চাই।


3
গড়টির স্বতন্ত্রতা, গণনা এবং ক্যালকুলাসের জন্য দরকারী বৈশিষ্ট্য রয়েছে। এটি প্রায়শই পর্যাপ্ত পরিসংখ্যানের সাথে সম্পর্কিত।
হেনরি

উত্তর:


40

কারণ অ্যালান টুরিং রোনাল্ড ফিশারের পরে জন্মগ্রহণ করেছিলেন।

পুরানো দিনগুলিতে, কম্পিউটারগুলির আগে, এই সমস্ত জিনিসগুলি হাতে বা খুব ভালভাবে, এখন আমরা ক্যালকুলেটরগুলিকে কল করব। উপায়ে তুলনা করার পরীক্ষাগুলি এইভাবে করা যেতে পারে - এটি শ্রমসাধ্য, তবে সম্ভব। কোয়ান্টাইলগুলির জন্য টেস্ট (যেমন মিডিয়ান) এইভাবে করা বেশ অসম্ভব।

উদাহরণস্বরূপ, কোয়ান্টাইল রিগ্রেশন অপেক্ষাকৃত জটিল ফাংশন হ্রাস করার উপর নির্ভর করে hand এটি হাত দিয়ে সম্ভব হবে না। প্রোগ্রামিং দিয়ে এটি সম্ভব। উদাহরণস্বরূপ কোয়েঙ্কার বা উইকিপিডিয়া দেখুন

কোয়ান্টাইল রিগ্রেশন এর ওএলএস রিগ্রেশন এর চেয়ে কম অনুমান রয়েছে এবং আরও তথ্য সরবরাহ করে।


6
তখন কম্পিউটারগুলির অস্তিত্ব ছিল তবে আমরা এটির সাথে এখন যা বোঝাচ্ছি তার থেকে কিছু আলাদা বোঝানো।
মার্টেন

6
প্রকৃতপক্ষে! কম্পিউটারগুলি এমন লোক ছিল যারা গণনা করত।
পিটার ফ্লুম - মনিকা পুনরায়

2
@nafrtiti সিলেবাসটি পরিবর্তিত হচ্ছে, তবে ধীরে ধীরে। কাটিয়ে উঠতে প্রচুর গতি রয়েছে এবং বাইরের পরিসংখ্যানগুলি নতুন ধারণাগুলিতে অভ্যস্ত হয় না তাই এগুলি প্রত্যাখ্যান করতে পারে।
পিটার ফ্লুম - মনিকা পুনরায়

3
@ সানকিঙ্গিয়াও বাছাই করা যোগ করার চেয়ে অনেক বেশি ব্যয়বহুল। যোগ করা হ'ল ও (এন) এবং এটি হার্ডওয়্যারের অন্যতম প্রাথমিক কার্যকারিতা এবং এর জন্য কেবল একটি নিবন্ধক প্রয়োজন। এগুলি ছাড়াও, আমার আরও যতটুকু তথ্য জানা দরকার তা হ'ল আরও ডেটাতে মোট এবং আইটেমের সংখ্যা এবং নতুন গড় গণনা করা। মিডিয়ান গণনা করার জন্য, আমার পুরো সেটটি দরকার
জিমি জেমস

3
কুইক সিলেক্ট (এবং খারাপ পিভটগুলি এলোমেলোভাবে বেছে নেওয়া হয় তবে পিভট সিলেক্ট করার জন্য মিডিয়ান অফ -5 ব্যবহার করে) আপনি ও (এন) এর একটি কোয়ান্টাইল খুঁজে পেতে পারেন, মাঝারি এবং গড়ের ব্যবধানকে ছোট করে তুলুন। অবশ্যই আপনাকে জানতে হবে যে এই জাতীয় পদ্ধতিগুলি বিদ্যমান (যা টারিংয়ের সময়ও অজানা ছিল)।
অ্যাশ Shāţi '

22

আমি হ্যারেল এবং ফ্লমের দেওয়া সঠিক কারণে তৃতীয় কারণ যুক্ত করতে চাই। কারণটি হ'ল আমরা ইউক্লিডিয়ান দূরত্ব (বা এল 2) ব্যবহার করি এবং ম্যানহাটনের দূরত্বকে (বা এল 1) আমাদের ঘনিষ্ঠতা বা ত্রুটির মানক মাপ হিসাবে ব্যবহার করি না। একটি ডেটা পয়েন্ট একটি নম্বর থাকে এবং এক একটি একক সংখ্যা চায় θ এটা অনুমান করার জন্য, একটি সুস্পষ্ট ধারণা সংখ্যা খুঁজে বের হল ছোট 'ভুল' যে সংখ্যা মনোনীত সংখ্যার মধ্যে ক্ষুদ্রতম পার্থক্য তৈরি করে এবং যে সংখ্যাগুলি ডেটা গঠন করে। গাণিতিক স্বরলিপিতে, প্রদত্ত ত্রুটি ফাংশন E এর জন্য, কেউ m i n θ R ( E ( θ ,,x1,xnθ । এক জন্য ই (X, Y) ও L2 আদর্শ বা দূরত্ব, যে নেয়( এক্স , Y ) = ( x এর - Y ) 2 তারপর সর্বাঙ্গে মিনিমাইজার θ আর গড় হয়। যদি কেউ এল 1 বা ম্যানহাটনের দূরত্ব নেয় তবে সর্বোপরি মিনিমাইজারminθR(E(θ,x1,xn)=minθR(i=1i=nE(θ,xi))E(x,y)=(xy)2θR মিডিয়ান। সুতরাং গড়টি হ'ল প্রাকৃতিক গাণিতিক পছন্দ - যদি কেউ এল 2 দূরত্ব ব্যবহার করে!θR


6
যেহেতু প্রত্যাশা বোঝাতে ব্যাপকভাবে ব্যবহৃত হয় , তাই আমি E এর পরিবর্তে , বলি, এরর প্রস্তাব দিই । EEErr
রিচার্ড হার্ডি

3
সম্ভবত এটা যে মূল্য এ differentiable হয় এক্স = 0 যখন | এক্স | এটি না. আমার মতে, এটি এমএসইর তুলনায় গণিতের পরিসংখ্যানের ক্ষেত্রে এমএসই বেশি ছড়িয়ে যাওয়ার একটি সূক্ষ্ম তবে মূল অন্তর্নিহিত কারণ। x2x=0|x|
Just_to_Answer

1
@ Just_to_Answer - আমি মনে করি এটি আরও একটি কারণ কারণ reason আমি বছরের পর বছর ধরে এটি সম্পর্কে অনেক চিন্তা করেছি। আমার জন্য, আমি এই সিদ্ধান্তে
পৌঁছেছি

19

প্রায়শই মাঝারিটির উপরে অর্থটি বেছে নেওয়া হয় কারণ এটি বেশি প্রতিনিধি, শক্তিশালী বা অর্থবহ নয় তবে লোকেরা অনুমানের সাথে অনুমানকে বিভ্রান্ত করে। অন্য উপায় রাখুন, কিছু পছন্দ করে জনসংখ্যা কারণ একটি স্বাভাবিক ডিস্ট্রিবিউশনের সাথে সুদের পরিমাণ যেমন গড় নমুনা গড় নমুনা মধ্যমা চেয়ে বেশি সুনির্দিষ্ট। পরিবর্তে তাদের আরও বেশি চিন্তা করা উচিত, যেমনটি আপনি করেছেন, আগ্রহের প্রকৃত পরিমাণ সম্পর্কে।

একটি পার্শ্বদন্ড: জনসংখ্যার মধ্যমাধ্যমের জন্য আমাদের একটি অপ্রতিরোধ্য আত্মবিশ্বাসের ব্যবধান রয়েছে তবে জনসংখ্যার জন্য আস্থার ব্যবধান পাওয়ার জন্য এখানে কোনও ননপ্যারমেট্রিক পদ্ধতি নেই (সম্ভবত সংখ্যার নিবিড় অভিজ্ঞতা সম্পন্ন সম্ভাবনা পদ্ধতি ছাড়া অন্য)। আপনি যদি বিতরণ-মুক্ত থাকতে চান তবে আপনি মিডিয়ায় মনোনিবেশ করতে পারেন।

নোট করুন যে কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যটি যতটা কম মনে হচ্ছে তার চেয়ে কম কার্যকর, যেমন এই সাইটে অন্য কোথাও আলোচনা করা হয়েছে। এটি কার্যকরভাবে ধরে নিয়েছে যে বৈকল্পিকটি পরিচিত বা বিতরণটি প্রতিসম এবং এটির একটি আকার রয়েছে যাতে নমুনা বৈকল্পিকতা ছড়িয়ে দেওয়ার প্রতিযোগিতামূলক অনুমানকারী।


2
আমি বিশ্বাস করি যে গড়ের জন্য একটি ননপ্যারমেট্রিক আত্মবিশ্বাসের অন্তর অন্তর্নির্মিত করা সম্ভব - একটি ক্রমশক্তি পরীক্ষার মাধ্যমে বলুন (এটি কোনও নির্দিষ্ট কার্যকরী ফর্ম ধরে না নিয়ে প্রতিসাম্য ধারণার অধীনে করা যেতে পারে, উদাহরণস্বরূপ)। এটি কিছুটা সীমাবদ্ধ পরিস্থিতি, যদিও এটি প্রতিসাম্য ব্যতীত অন্য কিছু অনুমানের অধীনেও সম্ভব। আপনি যদি বুটস্ট্র্যাপিংয়ের সাথে যে আনুমানিক কভারেজটি মোকাবেলা করতে প্রস্তুত হন তবে প্রতিসাম্যের মতো অনুমান ছাড়াই ননপ্যারমেট্রিক অন্তর পেতে পারেন।
গ্লেন_বি -রিনস্টেট মনিকা

2
যদি এটি প্রতিসাম্য ধরে নেয় তবে এটি প্যারামেট্রিক। এটি প্রতিসাম্যহীন ক্ষেত্রে প্রসারিত দেখেনি। বুটস্ট্র্যাপ (সম্ভবত স্টুডেন্টাইজড টি পদ্ধতি ব্যতীত সমস্ত রূপগুলি) মারাত্মক অসম্পূর্ণতার অধীনে অত্যন্ত ভুল c দেখুন stats.stackexchange.com/questions/186957
ফ্র্যাঙ্ক হ্যারেল

5
প্রতিসাম্যতা সীমাবদ্ধ নয় para উইলকক্সন স্বাক্ষরিত র‌্যাঙ্ক পরীক্ষাটি শূন্যের অধীনে প্রতিসাম্য (চিহ্নগুলির বর্ধনযোগ্যতার জন্য) ধরে নেয়। আপনি যে প্যারামেট্রিক কল করবেন?
গ্লেন_বি -রিনস্টেট মনিকা


2
প্রতিসাম্যতা সম্পর্কে @ গ্লেন_ বি প্রশ্নে - এটি একটি দুর্দান্ত প্রশ্ন। উইলকক্সন স্বাক্ষরিত-র‌্যাঙ্ক পরীক্ষাটি একটি আকর্ষণীয় ক্ষেত্রে, কারণ, উইলকক্সন 2-নমুনা পরীক্ষার বিপরীতে, ভারী প্রতিসাম্য ধারণা তৈরি করে। আমি অনুমান করি যে আপনি বলতে পারেন যে আপনি প্যারা-প্যারামেট্রিক হতে পারেন যখন এখনও এক ধরণের প্রতিসাম্যের মতো সাধারণ অনুমানের প্রয়োজন হয়। হতে পারে পরিভাষাটি "সীমাবদ্ধতার সাথে ননপ্রেমেট্রিক" হওয়া উচিত? অন্যদিকে ননপ্যারমেট্রিক 2-নমুনা পরীক্ষার ক্ষেত্রে টাইপ II ত্রুটিটি অনুকূল (তবে টাইপ আই ত্রুটি নয়) সম্পর্কিত ক্ষেত্রে বিধিনিষেধ রয়েছে।
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.