পরিসংখ্যান এবং বড় তথ্য outliers

5

ডেটা সাফাই পরিসংখ্যান বিশ্লেষণের ফলাফলকে আরও খারাপ করতে পারে?

ভাইরাস সংবহন (2002 সালে মার্কিন যুক্তরাষ্ট্রে ওয়েস্ট নীল ভাইরাস এর মত) বা লোকের প্রতিরোধের হ্রাস বা খাদ্য বা জলের দূষণ বা সংক্রমণের কারণে বা মৃত্যুর সংখ্যায় বৃদ্ধি এবং সংক্রমণের ঘটনা ঘটে মশা। এই মহামারীটি প্রতি 1 থেকে 5 বছর অন্তর হতে পারে এমন বিদেশী হিসাবে উপস্থিত হবে। এই আউটলিয়ারগুলি সরিয়ে …

17 time-series forecasting epidemiology outliers

1

শক্তিশালী পিসিএ বনাম শক্তিশালী মহালানোবিস দূরত্ব নির্ধারণকারী সনাক্তকরণের জন্য

শক্তসমর্থ পিসিএ (যেমন ক্যান্ডিস এট আল 2009 বা আরও উন্নততর নেত্রপল্লী এট আল 2014 দ্বারা বিকাশ করা হয়েছে ) মাল্টিভারিয়েট আউটলেট সনাক্তকরণের জন্য একটি জনপ্রিয় পদ্ধতি , তবে মহাওলোবিস দূরত্বও বহিরাগত সনাক্তকরণের জন্য ব্যবহার করা যেতে পারে কোভেরিয়েন্স ম্যাট্রিক্সের একটি দৃ rob় , নিয়মিত অনুমানের কারণে । আমি অন্য পদ্ধতিতে …

17 pca outliers covariance-matrix robust anomaly-detection

2

আর-তে বিদেশী সনাক্তকারী কীভাবে পূর্বাভাস করবেন? - সময় সিরিজ বিশ্লেষণ পদ্ধতি এবং পদ্ধতি

আমার কাছে মাসিক টাইম সিরিজের ডেটা রয়েছে এবং বিদেশীদের সনাক্তকরণের সাথে পূর্বাভাসটি করতে চাই। এটি আমার ডেটা সেটের নমুনা: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 …

16 r time-series forecasting arima outliers

3

আর্থিক সময় ব্যবস্থায় শক্তিশালী আউটলেট সনাক্তকরণ

আমি আর্থিক সময়-সিরিজ ডেটা (অর্থাত্ টিকডাটা) থেকে আউটলিয়ার এবং ত্রুটিগুলি (কারণ যাই হোক না কেন) অপসারণের জন্য কিছু শক্ত কৌশল খুঁজছি। টিক-টু-টিক আর্থিক সময়-সিরিজের ডেটা খুব অগোছালো। এক্সচেঞ্জটি বন্ধ হয়ে গেলে এতে বিশাল (সময়ের) ফাঁকগুলি থাকে এবং এক্সচেঞ্জ আবার খোলে যখন বিশাল লাফ দেয়। যখন এক্সচেঞ্জটি খোলা থাকে, সমস্ত ধরণের …

16 time-series outliers

5

রিগ্রেশন মডেলটি উন্নত করতে মিউন অ্যাবসুলিউট ত্রুটির বক্সপ্লটের ভিত্তিতে আউটলিয়ারদের ফেলে দেওয়া কি প্রতারণা করছে?

আপনি নীচের বক্সপ্লট চিত্রটিতে দেখতে পারেন এমন চারটি পদ্ধতির সাথে আমার একটি পূর্বাভাস মডেল পরীক্ষা করা আছে। মডেলটি যে গুণাবলীটি পূর্বাভাস দেয় তা 0-8 এর মধ্যে থাকে। আপনি খেয়াল করতে পারেন যে একটি পদ্ধতি রয়েছে যার উপরের দিকের বাইরের একজন এবং তিনটি নিম্ন-আবদ্ধ আউটলিয়ার সমস্ত পদ্ধতি দ্বারা নির্দেশিত। আমি ভাবছি …

15 regression machine-learning multiple-regression predictive-models outliers

2

প্রভাবশালী পয়েন্ট, উচ্চ লিভারেজ পয়েন্ট এবং আউটলেটরের মধ্যে সঠিক অর্থ এবং তুলনা?

উইকিপিডিয়া থেকে প্রভাবশালী পর্যবেক্ষণ হ'ল সেই পর্যবেক্ষণগুলি যা রিগ্রেশন মডেলটির পূর্বাভাসগুলির তুলনামূলকভাবে বড় প্রভাব ফেলে। উইকিপিডিয়া থেকে লিভারেজ পয়েন্টগুলি হ'ল সেই পর্যবেক্ষণগুলি, যদি কোনও হয় তবে স্বতন্ত্র ভেরিয়েবলের চূড়ান্ত বা বহির্মুখী মূল্যবোধগুলিতে তৈরি করা হয় যেমন প্রতিবেশী পর্যবেক্ষণের অভাবের অর্থ হ'ল লাগানো রিগ্রেশন মডেল সেই নির্দিষ্ট পর্যবেক্ষণের কাছাকাছি চলে যাবে। …

15 regression outliers leverage

2

একটি সাধারণ বিতরণের প্যারামিটারগুলি অনুমান করা: গড়ের পরিবর্তে মিডিয়ান?

একটি সাধারণ বিতরণের প্যারামিটারগুলি অনুমানের জন্য সাধারণ পদ্ধতির মধ্যে গড় এবং নমুনার মানক বিচ্যুতি / বৈকল্পিকতা ব্যবহার করা। যাইহোক, যদি কিছু আউটলিয়ার থাকে তবে মিডিয়ান থেকে মিডিয়ান এবং মিডিয়ান মধ্যস্থতার বিচ্যুতিটি আরও বেশি শক্তিশালী হওয়া উচিত, তাই না? আমি চেষ্টা করেছি এমন কিছু ডেটা সেটগুলিতে, দ্বারা অনুমান করা সাধারণ বিতরণ …

15 normal-distribution estimation outliers robust unbiased-estimator

3

শক্তিশালী গড় অনুমান মধ্যে ক্রাশ কোর্স

আমার কাছে একগুচ্ছ (প্রায় 1000) অনুমান রয়েছে এবং সেগুলি দীর্ঘমেয়াদে স্থিতিস্থাপকতার অনুমান হিসাবে অনুমিত হয়। এর অর্ধেকেরও বেশি অনুমান করা হয় পদ্ধতি এ ব্যবহার করে এবং বাকিটি একটি পদ্ধতি বি ব্যবহার করে Some কোথাও আমি এমন কিছু পড়েছি "আমার মনে হয় পদ্ধতি বি পদ্ধতিটি এ এর থেকে খুব আলাদা কিছু …

15 mean outliers robust references

3

বহুবর্ষীয় রিগ্রেশন থেকে আত্মবিশ্বাস ব্যান্ড বোঝা

আমি নীচে আমার গ্রাফে যে ফলাফলটি দেখছি তা বোঝার চেষ্টা করছি। সাধারণত, আমি এক্সেল ব্যবহার করে একটি লিনিয়ার-রিগ্রেশন লাইন পাওয়ার প্রবণতা পাই তবে নীচের ক্ষেত্রে আমি আর ব্যবহার করি এবং কমান্ডটি দিয়ে আমি বহুবর্ষীয় রিগ্রেশন পাই: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() সুতরাং আমার প্রশ্নগুলি এই পর্যন্ত সিদ্ধ: নীল রিগ্রেশন …

14 r regression data-visualization outliers

5

বিদেশিদের সনাক্ত করার কোনও সহজ উপায় আছে?

আমি ভাবছি যে বিদেশীদের সনাক্ত করার কোনও সহজ উপায় আছে কিনা। আমার একটি প্রকল্পের জন্য, যা মূলত এক সপ্তাহে উত্তরদাতারা শারীরিক ক্রিয়ায় অংশ নেওয়ার সংখ্যার এবং এক সপ্তাহে ঘরের বাইরে (ফাস্টফুড) খাওয়ার সংখ্যার মধ্যে একটি সম্পর্ক ছিল, আমি একটি ছড়িয়ে ছিটিয়ে থাকা এবং আক্ষরিকভাবে অপসারণ করেছি চূড়ান্ত ছিল যে তথ্য …

14 correlation outliers

1

"আরএমএসইয়ের 2.5" বারের উপর ভিত্তি করে আউটলিয়ারগুলি বাদ দেওয়া হচ্ছে

ইন Kahneman এবং Deaton (2010) , লেখক নিম্নলিখিত লিখুন:††^\dagger এই রিগ্রেশনটি 0.67852 এর মূল মূল স্কোয়ার ত্রুটি (আরএমএসই) সহ 37% বৈকল্পিকতা ব্যাখ্যা করে। আউটলিয়ার এবং অব্যর্থ আয়কর প্রতিবেদনগুলি অপসারণ করার জন্য, আমরা পর্যবেক্ষণগুলি বাদ দিয়েছিলাম যাতে লগ ইনকাম এবং তার পূর্বাভাসের মধ্যে পার্থক্যের নিখুঁত মান আরএমএসইয়ের 2.5 গুন অতিক্রম করে। …

13 regression outliers

7

অ্যানোমালি এবং আউটিলারের মধ্যে পার্থক্য

মেশিন লার্নিংয়ের প্রসঙ্গে আউটিলার এবং অ্যানোমালির মধ্যে পার্থক্য কী। আমার বোঝা হচ্ছে যে উভয়ই একই জিনিসকে বোঝায় to

13 outliers terminology anomaly-detection

2

তথ্য প্রতিপন্ন করার জন্য প্রতিবেশী তথ্য ব্যবহার করা বা ডেটা খুঁজে বের করা (আরে)

নিকটবর্তী প্রতিবেশী সেরা ভবিষ্যদ্বাণীকারী এই ধারণা নিয়ে আমার ডেটাসেট রয়েছে। দ্বি-মুখী গ্রেডিয়েন্টের কেবলমাত্র নিখুঁত উদাহরণ- মনে করুন আমাদের কাছে এমন কয়েকটি ঘটনা রয়েছে যেখানে কয়েকটি মূল্যবোধ অনুপস্থিত, আমরা প্রতিবেশী এবং প্রবণতার ভিত্তিতে সহজেই অনুমান করতে পারি। আর-তে সম্পর্কিত ডেটা ম্যাট্রিক্স (ওয়ার্কআউটের জন্য ডামি উদাহরণ): miss.mat <- matrix (c(5:11, 6:10, NA,12, …

13 r prediction outliers data-imputation multiple-imputation

1

LARS বনাম লাসোর জন্য স্থায়ী বংশোদ্ভূত

L1- নিয়মিত লিনিয়ার রিগ্রেশন ফিটিংয়ের জন্য স্থানাঙ্ক বংশোদ্ভূত ব্যবহারের তুলনায় LARS [1] ব্যবহারের পক্ষে কি কি? আমি মূলত পারফরম্যান্সের দিকগুলিতে আগ্রহী (আমার সমস্যাগুলি Nকয়েক হাজার এবং p<20 এর মধ্যে থাকে) তবে তবে অন্য কোনও অন্তর্দৃষ্টিও প্রশংসা হবে। সম্পাদনা: যেহেতু আমি প্রশ্ন পোস্ট করেছি, চিএল ফ্রেডম্যান এট আল দ্বারা একটি কাগজ …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

নমুনা থেকে দুটি জনসংখ্যা পৃথক করা

আমি একক ডেটা সেট থেকে দুটি গ্রুপের মান আলাদা করার চেষ্টা করছি। আমি ধরে নিতে পারি যে জনসংখ্যার একটি সাধারণত বিতরণ করা হয় এবং এটি নমুনার কমপক্ষে অর্ধেক আকারের। প্রথমটির মানগুলির চেয়ে দ্বিতীয়টির মান উভয়ই কম বা উচ্চতর (বন্টনটি অজানা)। আমি যা করার চেষ্টা করছি তা হ'ল উপরের এবং নিম্ন …

13 dataset outliers expectation-maximization

প্রশ্ন ট্যাগ «outliers»