প্রশ্ন ট্যাগ «outliers»

আউটলেটর এমন একটি পর্যবেক্ষণ যা ডেটাসেটের একটি সাধারণ বৈশিষ্ট্যের তুলনায় অস্বাভাবিক বা ভালভাবে বর্ণিত নয় বলে মনে হয়। একটি অস্বস্তিকর সম্ভাবনা হ'ল এই ডেটাগুলি অধ্যয়ন করার উদ্দেশ্যে করা তথ্যের চেয়ে পৃথক জনসংখ্যার থেকে আসে।

5
ডেটা সাফাই পরিসংখ্যান বিশ্লেষণের ফলাফলকে আরও খারাপ করতে পারে?
ভাইরাস সংবহন (2002 সালে মার্কিন যুক্তরাষ্ট্রে ওয়েস্ট নীল ভাইরাস এর মত) বা লোকের প্রতিরোধের হ্রাস বা খাদ্য বা জলের দূষণ বা সংক্রমণের কারণে বা মৃত্যুর সংখ্যায় বৃদ্ধি এবং সংক্রমণের ঘটনা ঘটে মশা। এই মহামারীটি প্রতি 1 থেকে 5 বছর অন্তর হতে পারে এমন বিদেশী হিসাবে উপস্থিত হবে। এই আউটলিয়ারগুলি সরিয়ে …

1
শক্তিশালী পিসিএ বনাম শক্তিশালী মহালানোবিস দূরত্ব নির্ধারণকারী সনাক্তকরণের জন্য
শক্তসমর্থ পিসিএ (যেমন ক্যান্ডিস এট আল 2009 বা আরও উন্নততর নেত্রপল্লী এট আল 2014 দ্বারা বিকাশ করা হয়েছে ) মাল্টিভারিয়েট আউটলেট সনাক্তকরণের জন্য একটি জনপ্রিয় পদ্ধতি , তবে মহাওলোবিস দূরত্বও বহিরাগত সনাক্তকরণের জন্য ব্যবহার করা যেতে পারে কোভেরিয়েন্স ম্যাট্রিক্সের একটি দৃ rob় , নিয়মিত অনুমানের কারণে । আমি অন্য পদ্ধতিতে …

2
আর-তে বিদেশী সনাক্তকারী কীভাবে পূর্বাভাস করবেন? - সময় সিরিজ বিশ্লেষণ পদ্ধতি এবং পদ্ধতি
আমার কাছে মাসিক টাইম সিরিজের ডেটা রয়েছে এবং বিদেশীদের সনাক্তকরণের সাথে পূর্বাভাসটি করতে চাই। এটি আমার ডেটা সেটের নমুনা: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 …

3
আর্থিক সময় ব্যবস্থায় শক্তিশালী আউটলেট সনাক্তকরণ
আমি আর্থিক সময়-সিরিজ ডেটা (অর্থাত্ টিকডাটা) থেকে আউটলিয়ার এবং ত্রুটিগুলি (কারণ যাই হোক না কেন) অপসারণের জন্য কিছু শক্ত কৌশল খুঁজছি। টিক-টু-টিক আর্থিক সময়-সিরিজের ডেটা খুব অগোছালো। এক্সচেঞ্জটি বন্ধ হয়ে গেলে এতে বিশাল (সময়ের) ফাঁকগুলি থাকে এবং এক্সচেঞ্জ আবার খোলে যখন বিশাল লাফ দেয়। যখন এক্সচেঞ্জটি খোলা থাকে, সমস্ত ধরণের …

5
রিগ্রেশন মডেলটি উন্নত করতে মিউন অ্যাবসুলিউট ত্রুটির বক্সপ্লটের ভিত্তিতে আউটলিয়ারদের ফেলে দেওয়া কি প্রতারণা করছে?
আপনি নীচের বক্সপ্লট চিত্রটিতে দেখতে পারেন এমন চারটি পদ্ধতির সাথে আমার একটি পূর্বাভাস মডেল পরীক্ষা করা আছে। মডেলটি যে গুণাবলীটি পূর্বাভাস দেয় তা 0-8 এর মধ্যে থাকে। আপনি খেয়াল করতে পারেন যে একটি পদ্ধতি রয়েছে যার উপরের দিকের বাইরের একজন এবং তিনটি নিম্ন-আবদ্ধ আউটলিয়ার সমস্ত পদ্ধতি দ্বারা নির্দেশিত। আমি ভাবছি …

2
প্রভাবশালী পয়েন্ট, উচ্চ লিভারেজ পয়েন্ট এবং আউটলেটরের মধ্যে সঠিক অর্থ এবং তুলনা?
উইকিপিডিয়া থেকে প্রভাবশালী পর্যবেক্ষণ হ'ল সেই পর্যবেক্ষণগুলি যা রিগ্রেশন মডেলটির পূর্বাভাসগুলির তুলনামূলকভাবে বড় প্রভাব ফেলে। উইকিপিডিয়া থেকে লিভারেজ পয়েন্টগুলি হ'ল সেই পর্যবেক্ষণগুলি, যদি কোনও হয় তবে স্বতন্ত্র ভেরিয়েবলের চূড়ান্ত বা বহির্মুখী মূল্যবোধগুলিতে তৈরি করা হয় যেমন প্রতিবেশী পর্যবেক্ষণের অভাবের অর্থ হ'ল লাগানো রিগ্রেশন মডেল সেই নির্দিষ্ট পর্যবেক্ষণের কাছাকাছি চলে যাবে। …

2
একটি সাধারণ বিতরণের প্যারামিটারগুলি অনুমান করা: গড়ের পরিবর্তে মিডিয়ান?
একটি সাধারণ বিতরণের প্যারামিটারগুলি অনুমানের জন্য সাধারণ পদ্ধতির মধ্যে গড় এবং নমুনার মানক বিচ্যুতি / বৈকল্পিকতা ব্যবহার করা। যাইহোক, যদি কিছু আউটলিয়ার থাকে তবে মিডিয়ান থেকে মিডিয়ান এবং মিডিয়ান মধ্যস্থতার বিচ্যুতিটি আরও বেশি শক্তিশালী হওয়া উচিত, তাই না? আমি চেষ্টা করেছি এমন কিছু ডেটা সেটগুলিতে, দ্বারা অনুমান করা সাধারণ বিতরণ …

3
শক্তিশালী গড় অনুমান মধ্যে ক্রাশ কোর্স
আমার কাছে একগুচ্ছ (প্রায় 1000) অনুমান রয়েছে এবং সেগুলি দীর্ঘমেয়াদে স্থিতিস্থাপকতার অনুমান হিসাবে অনুমিত হয়। এর অর্ধেকেরও বেশি অনুমান করা হয় পদ্ধতি এ ব্যবহার করে এবং বাকিটি একটি পদ্ধতি বি ব্যবহার করে Some কোথাও আমি এমন কিছু পড়েছি "আমার মনে হয় পদ্ধতি বি পদ্ধতিটি এ এর ​​থেকে খুব আলাদা কিছু …

3
বহুবর্ষীয় রিগ্রেশন থেকে আত্মবিশ্বাস ব্যান্ড বোঝা
আমি নীচে আমার গ্রাফে যে ফলাফলটি দেখছি তা বোঝার চেষ্টা করছি। সাধারণত, আমি এক্সেল ব্যবহার করে একটি লিনিয়ার-রিগ্রেশন লাইন পাওয়ার প্রবণতা পাই তবে নীচের ক্ষেত্রে আমি আর ব্যবহার করি এবং কমান্ডটি দিয়ে আমি বহুবর্ষীয় রিগ্রেশন পাই: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() সুতরাং আমার প্রশ্নগুলি এই পর্যন্ত সিদ্ধ: নীল রিগ্রেশন …

5
বিদেশিদের সনাক্ত করার কোনও সহজ উপায় আছে?
আমি ভাবছি যে বিদেশীদের সনাক্ত করার কোনও সহজ উপায় আছে কিনা। আমার একটি প্রকল্পের জন্য, যা মূলত এক সপ্তাহে উত্তরদাতারা শারীরিক ক্রিয়ায় অংশ নেওয়ার সংখ্যার এবং এক সপ্তাহে ঘরের বাইরে (ফাস্টফুড) খাওয়ার সংখ্যার মধ্যে একটি সম্পর্ক ছিল, আমি একটি ছড়িয়ে ছিটিয়ে থাকা এবং আক্ষরিকভাবে অপসারণ করেছি চূড়ান্ত ছিল যে তথ্য …

1
"আরএমএসইয়ের 2.5" বারের উপর ভিত্তি করে আউটলিয়ারগুলি বাদ দেওয়া হচ্ছে
ইন Kahneman এবং Deaton (2010) , লেখক নিম্নলিখিত লিখুন:††^\dagger এই রিগ্রেশনটি 0.67852 এর মূল মূল স্কোয়ার ত্রুটি (আরএমএসই) সহ 37% বৈকল্পিকতা ব্যাখ্যা করে। আউটলিয়ার এবং অব্যর্থ আয়কর প্রতিবেদনগুলি অপসারণ করার জন্য, আমরা পর্যবেক্ষণগুলি বাদ দিয়েছিলাম যাতে লগ ইনকাম এবং তার পূর্বাভাসের মধ্যে পার্থক্যের নিখুঁত মান আরএমএসইয়ের 2.5 গুন অতিক্রম করে। …


2
তথ্য প্রতিপন্ন করার জন্য প্রতিবেশী তথ্য ব্যবহার করা বা ডেটা খুঁজে বের করা (আরে)
নিকটবর্তী প্রতিবেশী সেরা ভবিষ্যদ্বাণীকারী এই ধারণা নিয়ে আমার ডেটাসেট রয়েছে। দ্বি-মুখী গ্রেডিয়েন্টের কেবলমাত্র নিখুঁত উদাহরণ- মনে করুন আমাদের কাছে এমন কয়েকটি ঘটনা রয়েছে যেখানে কয়েকটি মূল্যবোধ অনুপস্থিত, আমরা প্রতিবেশী এবং প্রবণতার ভিত্তিতে সহজেই অনুমান করতে পারি। আর-তে সম্পর্কিত ডেটা ম্যাট্রিক্স (ওয়ার্কআউটের জন্য ডামি উদাহরণ): miss.mat <- matrix (c(5:11, 6:10, NA,12, …

1
LARS বনাম লাসোর জন্য স্থায়ী বংশোদ্ভূত
L1- নিয়মিত লিনিয়ার রিগ্রেশন ফিটিংয়ের জন্য স্থানাঙ্ক বংশোদ্ভূত ব্যবহারের তুলনায় LARS [1] ব্যবহারের পক্ষে কি কি? আমি মূলত পারফরম্যান্সের দিকগুলিতে আগ্রহী (আমার সমস্যাগুলি Nকয়েক হাজার এবং p<20 এর মধ্যে থাকে) তবে তবে অন্য কোনও অন্তর্দৃষ্টিও প্রশংসা হবে। সম্পাদনা: যেহেতু আমি প্রশ্ন পোস্ট করেছি, চিএল ফ্রেডম্যান এট আল দ্বারা একটি কাগজ …

4
নমুনা থেকে দুটি জনসংখ্যা পৃথক করা
আমি একক ডেটা সেট থেকে দুটি গ্রুপের মান আলাদা করার চেষ্টা করছি। আমি ধরে নিতে পারি যে জনসংখ্যার একটি সাধারণত বিতরণ করা হয় এবং এটি নমুনার কমপক্ষে অর্ধেক আকারের। প্রথমটির মানগুলির চেয়ে দ্বিতীয়টির মান উভয়ই কম বা উচ্চতর (বন্টনটি অজানা)। আমি যা করার চেষ্টা করছি তা হ'ল উপরের এবং নিম্ন …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.