পরিসংখ্যান এবং বড় তথ্য missing-data

5

খুব বড় সংখ্যক ডেটা পয়েন্টে মানগুলির অনুগমন কীভাবে করা যায়?

আমার একটি খুব বড় ডেটাসেট রয়েছে এবং প্রায় 5% এলোমেলো মান অনুপস্থিত। এই ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত হয়। নীচের উদাহরণটি আর ডেটাসেটটি ডমি কোলেলেটেড ডেটা সহ একটি খেলনার উদাহরণ। set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

অসঙ্গতি সনাক্তকরণের জন্য হারিয়ে যাওয়া মানগুলির সাথে সময় সিরিজে এসটিএল

আমি কিছু অনুপস্থিত পর্যবেক্ষণের সাথে জলবায়ু ডেটা একটি সিরিজ সময় ব্যতীত মান সনাক্ত করার চেষ্টা করছি। ওয়েবে অনুসন্ধান করে আমি অনেকগুলি উপলব্ধ পন্থা পেয়েছি। এর মধ্যে, স্ট্রল পচনটি প্রবণতা এবং seasonতু উপাদানগুলি অপসারণ এবং বাকী অংশটি অধ্যয়ন করার অর্থে মনে হয়। এসটিএল পড়া : essতুর ভিত্তিতে একটি asonতু-ট্রেন্ড পচন প্রক্রিয়া …

12 r time-series outliers missing-data

2

একক ভেরিয়েবলের ৮০% হারানো ডেটা

আমার ডেটাতে একটি ভেরিয়েবলের রয়েছে 80% হারানো ডেটা। অস্তিত্বের কারণে ডেটাগুলি অনুপস্থিত (অর্থাত্ সংস্থাটি কত ব্যাংক bankণ গ্রহণ করে)। আমি একটি নিবন্ধ জুড়ে এসেছি যে ডামি ভেরিয়েবল সামঞ্জস্য পদ্ধতি এই সমস্যার সমাধান। এর অর্থ যে এই ক্রমাগত পরিবর্তনশীলটিকে শ্রেণিবদ্ধে রূপান্তর করা দরকার? এটাই কি একমাত্র সমাধান? আমি তাত্ত্বিকভাবে মনে করি …

12 missing-data

3

অসম্পূর্ণ / নিখোঁজ ডেটা পরিচালনা করার কৌশলগুলি iques

আমার প্রশ্নটি ক্লাসিফায়ার / মডেল প্রশিক্ষণ / ফিটিংয়ের সময় অসম্পূর্ণ ডেটা নিয়ে কাজ করার কৌশলগুলিতে পরিচালিত । উদাহরণস্বরূপ, একটি ডেটাসেটে ডাব্লু / কয়েক শ সারি, প্রতিটি সারিতে শেষ আইটেম হিসাবে পাঁচটি মাত্রা এবং একটি শ্রেণির লেবেল বলা উচিত, বেশিরভাগ ডেটা পয়েন্টগুলি এর মতো দেখাবে: [0.74, 0.39, 0.14, 0.33, 0.34, 0] …

12 missing-data

3

পারস্পরিক সম্পর্ক মেট্রিক্স গণনা করার সময় অনুপস্থিত মানগুলির সাথে পর্যবেক্ষণগুলি বাদ দেওয়ার ক্ষেত্রে কি গুরুতর সমস্যা আছে?

আমার কাছে 2500 ভেরিয়েবল এবং 142 টি পর্যবেক্ষণের মতো এই বিশাল ডেটা সেট রয়েছে। আমি ভেরিয়েবল এক্স এবং বাকি ভেরিয়েবলগুলির মধ্যে একটি সম্পর্ক স্থাপন করতে চাই। তবে অনেক কলামের জন্য, এন্ট্রিগুলি অনুপস্থিত রয়েছে। আমি "জোড়াওয়ালা-সম্পূর্ণ" আর্গুমেন্ট ( use=pairwise.complete.obs) ব্যবহার করে আর-তে এটি করার চেষ্টা করেছি এবং এটি সংশ্লেষণের একটি গোছা …

12 r correlation missing-data correlation-matrix

1

এক্সজিবিস্ট পূর্বাভাসের পর্যায়ে হারিয়ে যাওয়া ডেটা পরিচালনা করতে পারে

সম্প্রতি আমি এক্সজিবিস্ট আলগোরিদিম পর্যালোচনা করেছি এবং আমি লক্ষ্য করেছি যে এই অ্যালগরিদম প্রশিক্ষণের পর্যায়ে অনুপস্থিত ডেটা (অভিশংসনের প্রয়োজন ছাড়াই) পরিচালনা করতে পারে। আমি ভাবছিলাম যে এক্সজি বুস্ট যখন নতুন পর্যবেক্ষণের পূর্বাভাস দেওয়ার জন্য ব্যবহার করা হয় বা অনুপস্থিত ডেটা গণনার প্রয়োজন হয় তখন কি অনুপস্থিত ডেটা (অভিশংসনের প্রয়োজন ছাড়াই) …

12 machine-learning missing-data data-imputation xgboost

3

গ্ল্যামনেট ব্যবহার করে সঙ্কুচিত (লাসো) পদ্ধতিতে এনএ মানগুলি কীভাবে পরিচালনা করবেন

আমি জিডব্লিউএসে লাসো রিগ্রেশন এর জন্য "গ্ল্যামনেট" ব্যবহার করছি। কিছু বৈকল্পিক এবং ব্যক্তির মানগুলি অনুপস্থিত রয়েছে এবং মনে হয় যে গ্ল্যামনেট অনুপস্থিত মানগুলি পরিচালনা করতে পারে না। এটির জন্য কি কোন সমাধান আছে? বা এমন কি অন্যান্য প্যাকেজ রয়েছে যা লাসো রিগ্রেশন-এ হারিয়ে যাওয়া মানগুলি পরিচালনা করতে পারে? আমার স্ক্রিপ্ট …

12 missing-data lasso glmnet

3

আমি কীভাবে অস্তিত্বহীন বা অনুপস্থিত ডেটা পরিচালনা করব?

আমি পূর্বাভাসের পদ্ধতিটি চেষ্টা করেছি এবং আমার পদ্ধতিটি সঠিক কিনা তা পরীক্ষা করতে চাই। আমার অধ্যয়নটি বিভিন্ন ধরণের মিউচুয়াল ফান্ডের সাথে তুলনা করে। আমি তাদের একজনের জন্য জিসিসি সূচকটি একটি মানদণ্ড হিসাবে ব্যবহার করতে চাই তবে সমস্যাটি হ'ল জিসিসি সূচকটি ২০১১ সালের সেপ্টেম্বরে বন্ধ হয়ে গিয়েছিল এবং আমার গবেষণাটি জানুয়ারী …

12 time-series forecasting missing-data

2

অস্তিত্বহীন (অনুপস্থিত) ডেটা কীভাবে পরিচালনা করবেন?

যে কোনও শ্রেণিবদ্ধের ইনপুটগুলির জন্য কীভাবে 'অস্তিত্বহীন' ডেটা পরিচালনা করতে হয় সে সম্পর্কে সত্যই আমি কোনও ভাল পাঠ্য বা উদাহরণ পাইনি। আমি অনুপস্থিত ডেটাতে অনেক কিছু পড়েছি তবে মাল্টিভারিয়েট ইনপুটগুলির সাথে সম্পর্কিত বা না থাকতে পারে এমন ডেটা সম্পর্কে কী করা যায়। আমি বুঝতে পারি এটি একটি খুব জটিল প্রশ্ন …

11 missing-data

2

সম্ভাবনা যে কেউ চিত্র পছন্দ করবে will

আমি নিম্নলিখিত সমস্যা পেয়েছি: - আমরা এন ব্যক্তিদের সেট করেছি - আমরা কে ইমেজ সেট করেছি - প্রতিটি ব্যক্তি কিছু সংখ্যক চিত্রকে রেট করে। কোনও ব্যক্তি কোনও চিত্র পছন্দ করতে বা পছন্দ করতে পারে না (এগুলি কেবলমাত্র দুটি সম্ভাব্য)) - সমস্যাটি হ'ল সম্ভাবনাটি গণনা করা যায় যে কোনও ব্যক্তি কোনও …

11 missing-data rating

1

আর / এমজিসিভি: টি () এবং টিআই () সেন্সর পণ্যগুলি কেন বিভিন্ন উপরিভাগ তৈরি করে?

mgcvপ্যাকেজের Rঝুলানো টেন্সর পণ্যের পারস্পরিক ক্রিয়ার জন্য দুটি ফাংশন আছে: te()এবং ti()। আমি উভয়ের মধ্যে শ্রমের মৌলিক বিভাজন বুঝতে পারি (একটি অ-রৈখিক ইন্টারঅ্যাকশন বনাম বনাম। এই ইন্টারঅ্যাকশনটিকে প্রধান প্রভাব এবং একটি মিথস্ক্রিয়াতে ডেকপোজ করে)। আমি যা বুঝতে পারি না তা হ'ল কেন te(x1, x2)এবং ti(x1) + ti(x2) + ti(x1, x2)(কিছুটা) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

নির্ভুলতা-ভিত্তিক (অর্থাত্ বিপরীতমুখী) ওজন কী মেটা-বিশ্লেষণের জন্য অবিচ্ছেদ্য?

নির্ভুলতা-ভিত্তিক ওজন কী মেটা-বিশ্লেষণের কেন্দ্রস্থল? বোরেনস্টাইন এট আল। (২০০৯) লিখুন যে মেটা-বিশ্লেষণের জন্য এটি সম্ভব হ'ল প্রয়োজনীয়: অধ্যয়নগুলি একটি বিন্দু অনুমানের প্রতিবেদন করে যা একক সংখ্যা হিসাবে প্রকাশ করা যেতে পারে। পয়েন্ট আনুমানিক জন্য ভেরিয়েন্স গণনা করা যেতে পারে। (২) কেন কঠোরভাবে প্রয়োজনীয় তা আমার কাছে তাত্ক্ষণিকভাবে পরিষ্কার নয়। তবে, …

10 variance sample-size missing-data meta-analysis

3

রিগ্রেশনে একাধিক মডেল তৈরির চেয়ে অনুশাসনের সুবিধা কী?

আমি ভাবছি যে কেউ যদি অনুপস্থিত তথ্যের সাথে মামলার জন্য কেবল আলাদা মডেল তৈরি করার চেয়ে অনুপস্থিত ডেটার জন্য অনুদান কেন ভাল তবে যদি কিছুটা অন্তর্দৃষ্টি সরবরাহ করতে পারে। বিশেষত [জেনারালাইজড] লিনিয়ার মডেলগুলির ক্ষেত্রে (আমি সম্ভবত দেখতে পাই না লিনিয়ার ক্ষেত্রে জিনিসগুলি ভিন্ন) ধরুন আমাদের কাছে মৌলিক রৈখিক মডেল রয়েছে: …

10 regression missing-data data-imputation

1

কেন আনোভা () এবং ড্রপ 1 () জিএলএমএমগুলির জন্য আলাদা উত্তর সরবরাহ করে?

আমার ফর্মটির একটি জিএলএমএম রয়েছে: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) আমি যখন ব্যবহার করি drop1(model, test="Chi"), তখন আমি Anova(model, type="III")গাড়ি প্যাকেজটি ব্যবহার করি বা না থেকে তার চেয়ে আলাদা ফলাফল পাই summary(model)। এই দ্বিতীয় দুটি একই উত্তর দেয়। একগুচ্ছ মনগড়া তথ্য …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

জেজিএস-এ প্রতিক্রিয়ার ভেরিয়েবলের মানগুলি অনুপস্থিত

গেলম্যান অ্যান্ড হিল (2006) বলেছেন: বাগগুলিতে, কোনও রিগ্রেশনে অনুপস্থিত ফলাফলগুলি সহজেই ডেটা ভেক্টর, এনএ এবং সমস্তগুলি অন্তর্ভুক্ত করে সহজেই পরিচালনা করা যায়। ত্রুটিগুলি স্পষ্টভাবে ফলাফলের পরিবর্তনশীলকে মডেল করে এবং তাই প্রতিটি মডেলটিতে প্রতিটি মডেলটিতে অনুপস্থিত মূল্যবোধগুলিতে এই মডেলটি ব্যবহার করা তুচ্ছ। এটি পূর্বাভাস দেওয়ার জন্য জ্যাজিএস ব্যবহার করার সহজ উপায় …

10 missing-data bugs jags

প্রশ্ন ট্যাগ «missing-data»