শক্তিশালী গড় অনুমান মধ্যে ক্রাশ কোর্স


15

আমার কাছে একগুচ্ছ (প্রায় 1000) অনুমান রয়েছে এবং সেগুলি দীর্ঘমেয়াদে স্থিতিস্থাপকতার অনুমান হিসাবে অনুমিত হয়। এর অর্ধেকেরও বেশি অনুমান করা হয় পদ্ধতি এ ব্যবহার করে এবং বাকিটি একটি পদ্ধতি বি ব্যবহার করে Some কোথাও আমি এমন কিছু পড়েছি "আমার মনে হয় পদ্ধতি বি পদ্ধতিটি এ এর ​​থেকে খুব আলাদা কিছু অনুমান করে , কারণ অনুমানগুলি অনেক বেশি (50-60%) বেশি "। দৃ statistics় পরিসংখ্যান সম্পর্কে আমার জ্ঞানের কিছুই নেই, সুতরাং আমি কেবলমাত্র নমুনার মাধ্যম এবং উভয় নমুনার মধ্যককে গণনা করেছি ... এবং আমি তাত্ক্ষণিকভাবে পার্থক্যটি দেখেছি। পদ্ধতি একটি খুব ঘনীভূত, মাঝারি এবং গড়ের মধ্যে পার্থক্য খুব কম, তবে পদ্ধতি বি নমুনা বুনোভাবে পরিবর্তিত হয়।

আমি উপসংহারে পৌঁছেছি যে outliers এবং পরিমাপ ত্রুটি পদ্ধতি বি নমুনা skew, তাই আমি প্রায় 50 টি মান (প্রায় 15%) ফেলেছিলাম যা তত্ত্বের সাথে খুব বেমানান ছিল ... এবং হঠাৎ উভয় নমুনার মাধ্যমগুলি (তাদের সিআই সহ) খুব মিল ছিল । ঘনত্ব প্লট এছাড়াও।

(আউটলিয়ারদের নির্মূলের সন্ধানে, আমি নমুনা A এর পরিসীমাটির দিকে লক্ষ্য করেছি এবং এর বিলে থাকা সমস্ত নমুনা পয়েন্টগুলি সরিয়ে দিয়েছি)) আমি আপনাকে বলতে চাই যে আমি শক্তিশালী অনুমানের কিছু বেসিক কোথায় খুঁজে পাব তার অর্থ কী? আমাকে আরও কঠোরভাবে এই পরিস্থিতি বিচার করার অনুমতি দিন। এবং কিছু রেফারেন্স আছে। আমার কাছে বিভিন্ন কৌশলগুলির খুব গভীর বোঝার দরকার নেই, বরং দৃust় অনুমানের পদ্ধতিটির একটি বিস্তৃত জরিপের মাধ্যমে পড়তে হবে।

আমি বহিরাগতদের অপসারণের পরে গড় পার্থক্যের তাৎপর্যের জন্য টি-টেস্ট করেছি এবং পি-মানটি 0.0559 (প্রায় 1.9 এর কাছাকাছি), সম্পূর্ণ নমুনাগুলির জন্য টি স্ট্যাটাসটি প্রায় ৪.৫ ছিল। তবে এটি আসলে বিন্দু নয়, উপায়গুলি কিছুটা আলাদা হতে পারে তবে উপরে বর্ণিত হিসাবে তাদের 50-60% দ্বারা পৃথক হওয়া উচিত নয়। এবং আমি মনে করি না তারা করে।


3
এই ডেটা ব্যবহার করে আপনার উদ্দেশ্য বিশ্লেষণ কি? আউটলিয়ারদের অপসারণের অনুশীলনটি সন্দেহজনক পরিসংখ্যানগত বিশ্বাসযোগ্যতার: এটি করে আপনি যে কোনও স্তরে তাত্পর্য বা তাত্পর্যপূর্ণতা দিতে "ডেটা তৈরি" করতে পারেন। জনসংখ্যাগুলি কি এ এবং বি, যা পদ্ধতিগুলি এ এবং বি ব্যবহার করে পরিমাপ পেয়েছিল সত্যই সমজাতীয় জনসংখ্যা বা এটি কী সম্ভব যে আপনার পদ্ধতিগুলি আপনাকে আলাদা জনসংখ্যা দিয়েছে?
অ্যাডমো

ডেটা নিয়ে আর কোনও গণনা বা বিশ্লেষণ করা হবে না। উল্লিখিত দুটি পদ্ধতিই সাম্প্রতিক গবেষণা অনুসারে সামঞ্জস্যপূর্ণ, সুতরাং জনসংখ্যা একজাতীয় হওয়া উচিত; তবে ডেটাটি খুব ভাল মানের নয় এবং এটি পরিষ্কার যে বি এর কিছু মান ভুলক্রমে রয়েছে (পদ্ধতিটি ত্রুটির প্রবণতা), তারা একেবারেই কোনও অর্থনৈতিক ধারণা দেয় না। আমি জানি যে অপসারণটি সন্দেহজনক, সে কারণেই আমি আরও কঠোর এবং বিশ্বাসযোগ্য কিছু সন্ধান করছি।
ওন্দ্রেজ

উত্তর:


18

আপনি কি তত্ত্বের সন্ধান করছেন, বা ব্যবহারিক কিছু?

আপনি যদি বইগুলি সন্ধান করেন তবে এখানে কয়েকটি আমি সহায়ক বলে মনে করেছি:

  • এফআর হ্যাম্পেল, ই এম রনচেটি, পিজে রুসসিউউ, ডাব্লুএ স্ট্যাহেল, দৃust় পরিসংখ্যান: ফ্লুয়েশন ফাংশন অব বুনিয়াদ , জন উইলে অ্যান্ড সন্স, 1986।

  • পিজে হুবার, দৃ Rob় পরিসংখ্যান , জন উইলি অ্যান্ড সন্স, 1981।

  • পি জে রুসিউউ, এএম লেরয়, রোবস্ট রিগ্রেশন অ্যান্ড আউটিলার ডিটেকশন , জন উইলে অ্যান্ড সন্স, 1987।

  • আরজি স্টাড্টে, এস জে শীদার, শক্তিশালী অনুমান এবং পরীক্ষা , জন উইলি অ্যান্ড সন্স, 1990।

আপনি যদি ব্যবহারিক পদ্ধতিগুলি সন্ধান করেন, এখানে গড় নির্ধারণের কয়েকটি শক্ত পদ্ধতি রয়েছে ("অবস্থানের অনুমানকারী" আমি আরও মূল নীতিটি অনুমান করি):

  • মিডিয়ান সহজ, সুপরিচিত, এবং বেশ শক্তিশালী। এটি বিদেশীদের কাছে দুর্দান্ত দৃust়তা রয়েছে। দৃust়তার "দাম" প্রায় 25%।

  • 5% -ক্রিমীকৃত গড় হ'ল আরেকটি সম্ভাব্য পদ্ধতি। এখানে আপনি 5% সর্বোচ্চ এবং 5% সর্বনিম্ন মানগুলি ফেলে দিন এবং তারপরে ফলাফলটির গড় (গড়) নিন। এটি অপরিহার্যদের কাছে কম শক্তিশালী: যতক্ষণ না আপনার ডেটা পয়েন্টের 5% এর বেশি ক্ষতিগ্রস্ত না হয়, এটি ভাল তবে 5% এর বেশি যদি দুর্নীতিগ্রস্থ হয়, তবে হঠাৎ এটি ভয়াবহ হয়ে ওঠে (এটি কৌতূহলজনকভাবে হ্রাস পায় না)। দৃust়তার "দাম" মাঝারি তুলনায় কম, যদিও আমি ঠিক জানি না এটি।

  • {(xi+xj)/2:1ijn}n(n+1)/2x1,,xn

  • আন্তঃদেশীয় গড়টি হ'ল আরেকটি অনুমানকারী যা কখনও কখনও ব্যবহৃত হয়। এটি প্রথম এবং তৃতীয় কোয়ার্টাইলের গড় গণনা করে, এবং এইভাবে গণনা করা সহজ। এটির খুব ভাল দৃust়তা রয়েছে: এটি ডেটা পয়েন্টের 25% অবধি দুর্নীতি সহ্য করতে পারে। যাইহোক, দৃ rob়তার "মূল্য" অপ্রয়োজনীয়: প্রায় 25%। ফলস্বরূপ, এটি মাঝারি থেকে নিকৃষ্ট বলে মনে হয়।

  • আরও অনেকগুলি পদক্ষেপ প্রস্তাব করা হয়েছে, তবে উপরেরগুলি যথাযথ বলে মনে হচ্ছে।

সংক্ষেপে, আমি মধ্যমা বা সম্ভবত হজস-লেহম্যান অনুমানকারীকে পরামর্শ দেব।

পিএস ওহ, দৃ rob়তার "মূল্য" দ্বারা আমি কী বোঝাতে চাইছি তা বোঝানো উচিত। আপনার কিছু ডেটা পয়েন্ট দূষিত হয়ে পড়েছে বা অন্যথায় বিদেশী হলেও এমনকী একটি শক্তিশালী অনুমানক এখনও খুব ভালভাবে কাজ করার জন্য ডিজাইন করা হয়েছে। তবে আপনি যদি কোনও ডেটা সেটে কোনও শক্তিশালী অনুমানক ব্যবহার করেন যার কোনও প্রকার বিদেশী নেই এবং কোনও দুর্নীতি নেই? আদর্শভাবে, আমরা চাই শক্তিশালী অনুমানকারী যতটা সম্ভব ডেটা ব্যবহারের ক্ষেত্রে দক্ষ হয়ে উঠুক। এখানে আমরা স্ট্যান্ডার্ড ত্রুটির মাধ্যমে দক্ষতাটি পরিমাপ করতে পারি (স্বজ্ঞাতভাবে, অনুমানকারী দ্বারা উত্পাদিত অনুমানের ত্রুটির সাধারণ পরিমাণ)। এটি জানা যায় যে যদি আপনার পর্যবেক্ষণগুলি কোনও গাউসীয় বিতরণ (আইড) থেকে আসে এবং যদি আপনি জানেন যে আপনার দৃ rob়তার প্রয়োজন হবে না, তবে এর অর্থটি সর্বোত্তম: এটিতে সম্ভাব্যতম অনুমানের ত্রুটি রয়েছে। দৃust়তার "দাম", উপরে, আমরা যদি এই পরিস্থিতিতে একটি নির্দিষ্ট শক্তিশালী অনুমানকারী প্রয়োগ করি তবে স্ট্যান্ডার্ড ত্রুটিটি কতটা বাড়বে। মধ্যমাটির জন্য 25% এর দৃust়তার একটি অর্থ হ'ল মধ্যমাটির সাথে আদর্শ অনুমানের ত্রুটির আকারটি গড়ের সাথে সাধারণত অনুমানের ত্রুটির আকারের চেয়ে প্রায় 25% বড় হবে। স্পষ্টতই, "দাম" যত কম হবে তত ভাল।


এন(এন+ +1)/2(এক্সআমি+ +এক্স)/21আমিএনwilcox.test(..., conf.int=TRUE)

+1, এটি সত্যিই দুর্দান্ত। আমার একটি নীটপিক আছে তবে: আমি আপনার শেষ অনুচ্ছেদে "ত্রুটি শব্দ" শব্দটি ব্যবহার করব না, কারণ এটি প্রায়শই অন্যরকম কিছু বোঝার জন্য ব্যবহৃত হয়; আমি এর পরিবর্তে 'নমুনা বিতরণের মানক ত্রুটি' বা কেবল 'স্ট্যান্ডার্ড ত্রুটি' ব্যবহার করব।
গুং - মনিকা পুনরায়

একটি খুব সুগঠিত এবং সংক্ষিপ্ত উত্তর, আপনাকে ধন্যবাদ! একটি সংক্ষিপ্ত বিবরণ আমার যা প্রয়োজন, আমি হেনরিকের প্রস্তাবিত কাগজের মাধ্যমে পড়ব এবং এটি আবরণ করা উচিত। দীর্ঘ গ্রীষ্মের রাতের বিনোদনের জন্য, আমি আপনাকে এবং জোবোম্যানের দ্বারা প্রস্তাবিত বইগুলি চেক করে নেওয়ার বিষয়টি নিশ্চিত করব।
ওন্দ্রেজ

@ কারাকাল, আপনি সঠিক বলেছেন। আমার এইচএল অনুমানের বৈশিষ্ট্যটি ভুল ছিল। সংশোধনীর জন্য ধন্যবাদ. আমি আমার উত্তর অনুসারে আপডেট করেছি।
DW

ধন্যবাদ, @ গুং! আপনার পরামর্শ অনুসারে আমি 'স্ট্যান্ডার্ড ত্রুটি' ব্যবহারের উত্তর সম্পাদনা করেছি।
DW

7

আপনি যদি হজম করতে সংক্ষিপ্ত এবং সহজ কিছু পছন্দ করেন তবে মনোবিজ্ঞানীয় সাহিত্যের নীচের কাগজটি দেখুন:

এর্সেগ-হর্ন, ডিএম, এবং মিরোসেভিচ, ভিএম (২০০৮)। আধুনিক শক্তিশালী পরিসংখ্যান পদ্ধতি: আপনার গবেষণার যথার্থতা এবং শক্তি সর্বাধিক করার একটি সহজ উপায়। আমেরিকান সাইকোলজিস্ট , 63 (7), 591–601। ডোই: 10,1037 / 0003-066X.63.7.591

এগুলি মূলত র্যান্ড আর উইলকক্সের বইগুলির উপর নির্ভর করে (যা স্বীকৃতভাবে খুব বেশি গাণিতিকও নয়):

উইলকক্স, আরআর (2001)। আধুনিক পরিসংখ্যানগত পদ্ধতির মৌলিক বিষয়গুলি: শক্তি এবং নির্ভুলতার যথেষ্ট পরিমাণে উন্নতি করে। নিউ ইয়র্ক; বার্লিন: স্প্রিংগার।
উইলকক্স, আরআর (2003)। সমসাময়িক পরিসংখ্যান কৌশল প্রয়োগ করা। আমস্টারডাম; বোস্টন: একাডেমিক প্রেস।
উইলকক্স, আরআর (2005)। শক্তিশালী অনুমান এবং হাইপোথিসিস পরীক্ষার পরিচিতি। একাডেমিক প্রেস।


5

একটি বই যা তত্ত্বকে অনুশীলনের সাথে সুন্দরভাবে সংযুক্ত করে, তা হ'ল জুরিভকোভেক ও পাইসেকের রবস্ট স্ট্যাটিসটিকাল মেথডস আর । আমি ম্যারোনা এট আল রব্ব স্ট্যাটিস্টিক্সও পছন্দ করি । তবে উভয়ই আপনার যত্ন নেওয়ার চেয়ে বেশি গণিত থাকতে পারে। আর-তে নিবদ্ধ আরও প্রয়োগযোগ্য টিউটোরিয়ালের জন্য, এই বেলভেনটিউটোরিয়াল পিডিএফ সহায়তা করতে পারে।


আহ, প্রো। জুরিভকোভ - আমাদের বিশ্ববিদ্যালয়ের একজন শিক্ষক, অসুবিধাগুলি কী। বই দুটিই পরীক্ষা করে দেখব। যদিও আমি আরও ... সংক্ষিপ্ত নথির সন্ধান করছিলাম (যেহেতু এই সমস্যাটি আমার পক্ষে অত্যন্ত প্রান্তিক) তবে এটি আরও গভীরতরভাবে আবিষ্কার করতে ক্ষতি হয় না। ধন্যবাদ!
ওন্দ্রেজ

1
এটি একটি ছোট দুনিয়া! ঠিক আছে, কমপক্ষে আমি আপনার মন্তব্য থেকে অনুলিপি করে বানানটি সংশোধন করেছি ...
জোবোম্যান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.