পরিসংখ্যান এবং বড় তথ্য categorical-data

5

মেশিন লার্নিংয়ের শ্রেণিবদ্ধ / নেস্টেড ডেটা কীভাবে মোকাবেলা করবেন

আমি আমার সমস্যাটি একটি উদাহরণ দিয়ে ব্যাখ্যা করব। ধরুন আপনি কোনও ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চান এমন কয়েকটি বৈশিষ্ট্য দেওয়া হয়েছে: {বয়স, লিঙ্গ, দেশ, অঞ্চল, শহর} আপনার মতো প্রশিক্ষণ ডেটাসেট রয়েছে train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

স্বাধীনতার ডিগ্রি কি একটি অ-পূর্ণসংখ্যার সংখ্যা হতে পারে?

আমি যখন জিএএম ব্যবহার করি তখন এটি আমাকে অবশিষ্ট ডিএফ (কোডের শেষ লাইন)। ওটার মানে কি? জিএএম উদাহরণ ছাড়িয়ে যান, সাধারণভাবে, স্বাধীনতার ডিগ্রির সংখ্যাটি একটি অ-পূর্ণসংখ্যার সংখ্যা হতে পারে?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

ধারাবাহিক এবং শ্রেণিবদ্ধ উভয় বৈশিষ্ট্য নিয়ে ভবিষ্যদ্বাণী করা

কিছু ভবিষ্যদ্বাণীপূর্ণ মডেলিং কৌশলগুলি ধারাবাহিক ভবিষ্যদ্বাণীদের পরিচালনা করার জন্য আরও বেশি নকশাকৃত, অন্যরা শ্রেণিবদ্ধ বা বিচ্ছিন্ন ভেরিয়েবলগুলি পরিচালনা করার জন্য আরও ভাল। অবশ্যই এক প্রকারকে অন্য ধরণের রূপান্তর করার কৌশল রয়েছে (বিবেচনামূলককরণ, ডামি ভেরিয়েবলস ইত্যাদি)। তবে, এমন কোন ভবিষ্যদ্বাণীপূর্ণ মডেলিং কৌশল রয়েছে যা কেবলমাত্র বৈশিষ্ট্যগুলির ধরণের পরিবর্তন না করে একই …

26 classification predictive-models categorical-data continuous-data discrete-data

3

শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে লগিট রিগ্রেশনে ইন্টারঅ্যাকশন শর্তাদি ব্যাখ্যা করা

আমার কাছে একটি সমীক্ষা পরীক্ষা থেকে ডেটা রয়েছে যাতে উত্তরদাতাদের এলোমেলোভাবে চারটি দলের মধ্যে একটিতে নিয়োগ দেওয়া হয়েছিল: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 তিনটি চিকিত্সা গোষ্ঠী প্রয়োগ করা উদ্দীপকটিতে কিছুটা পৃথক হয়, তবে আমি যে প্রধান পার্থক্যটি বিবেচনা করি তা নিয়ন্ত্রণ এবং চিকিত্সা গ্রুপগুলির মধ্যে। …

25 r logistic categorical-data interaction interpretation

1

শুধুমাত্র শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে রিগ্রেশন

সমস্ত নির্ভরশীল এবং স্বতন্ত্র ভেরিয়েবলগুলি শ্রেণিবদ্ধ পরিবর্তনশীল হলে কি কোনও রিগ্রেশন পরিচালনা করা সম্ভব?

24 regression logistic categorical-data

1

কীভাবে একটি বিরাট স্পার্স কন্টিনজেন্সি টেবিলটি কল্পনা করা যায়?

আমার দুটি ভেরিয়েবল রয়েছে: ড্রাগ নেম (ডিএন) এবং সংশ্লিষ্ট অ্যাডওয়ার্স ইভেন্টস (এই), যা বহু-বহু-সম্পর্কের মধ্যে দাঁড়িয়ে। 33,556 ড্রাগ নাম এবং 9,516 বিরূপ ইভেন্ট রয়েছে। নমুনা আকার প্রায় 5.8 মিলিয়ন পর্যবেক্ষণ। আমি ডিএন এবং এই এর মধ্যে সমিতি / সম্পর্ক অধ্যয়ন করতে এবং বুঝতে চাই। আমি আর এই সেটটি ভিজ্যুয়ালাইজ করার …

24 r categorical-data data-visualization large-data association-measure

3

দিনের ঘন্টা কি একটি পৃথক পরিবর্তনশীল?

"দিনের ঘন্টা" যেখানে মান 0, 1, 2, ..., 23 একটি শ্রেণিবদ্ধ পরিবর্তনশীল হতে পারে? আমি না বলতে প্রলুব্ধ হব, যেহেতু 5, উদাহরণস্বরূপ, 3 বা 7 এর চেয়ে 4 বা 6 এর নিকটবর্তী। অন্যদিকে, 23 এবং 0 এর মধ্যে বিচ্ছিন্নতা রয়েছে। সুতরাং এটি সাধারণত শ্রেণীবদ্ধ হিসাবে বিবেচনা করা হয় বা না? …

24 categorical-data circular-statistics

3

নেতিবাচক দ্বিপদী বিতরণ বনাম দ্বিপদী বিতরণ

নেতিবাচক দ্বিপদী বিতরণ এবং দ্বিপদী বিতরণের মধ্যে পার্থক্য কী? আমি অনলাইনে পড়ার চেষ্টা করেছি, এবং আমি দেখতে পেয়েছি যে ডেটা পয়েন্টগুলি পৃথক হলে নেতিবাচক দ্বিপদী বিতরণ ব্যবহৃত হয়, তবে আমি মনে করি এমনকি দ্বিপদী বিতরণও পৃথক ডেটা পয়েন্টের জন্য ব্যবহার করা যেতে পারে।

22 categorical-data data-mining binomial negative-binomial

3

আমাদের ডামি কোড শ্রেণীবদ্ধ ভেরিয়েবলগুলি কেন দরকার

আমি নিশ্চিত নন কেন আমাদের ডামি কোড শ্রেণিবদ্ধ ভেরিয়েবলগুলি দরকার। উদাহরণস্বরূপ, যদি আমার চারটি সম্ভাব্য মান 0,1,2,3 সহ একটি স্পষ্টিক পরিবর্তনশীল থাকে তবে আমি এটিকে দুটি মাত্রা দ্বারা প্রতিস্থাপন করতে পারি। যদি ভেরিয়েবলটির মান 0 হয় তবে এর দুটি মাত্রায় 0,0 থাকবে, যদি এটি 3 থাকে, তবে এটি দুটি মাত্রায় …

22 categorical-data categorical-encoding

1

এক-হট এনকোডিং ব্যবহার করার সময় একটি কলামকে বাদ দেওয়া হচ্ছে

আমার বোধগম্যতা হল মেশিন লার্নিংয়ে এটি সমস্যা হতে পারে যদি আপনার ডেটাসেটের উচ্চতর সম্পর্কযুক্ত বৈশিষ্ট্য থাকে, কারণ তারা কার্যকরভাবে একই তথ্যকে এনকোড করে। সম্প্রতি কেউ চিহ্নিত করেছেন যে আপনি যখন একটি শ্রেণিবদ্ধ ভেরিয়েবলের উপর এক-হট এনকোডিং করেন তখন আপনি সংযুক্ত বৈশিষ্ট্যগুলি সমাপ্ত করেন, সুতরাং আপনার একটি "রেফারেন্স" হিসাবে ছেড়ে দেওয়া …

22 regression machine-learning categorical-data discrete-data categorical-encoding

8

আপনি 3 শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে সম্পর্ককে কীভাবে কল্পনা করতে পারেন?

আমার কাছে তিনটি শ্রেণীবদ্ধ ভেরিয়েবল সহ একটি ডেটাসেট রয়েছে এবং আমি তিনটির মধ্যে একটি গ্রাফের মধ্যে সম্পর্ক কল্পনা করতে চাই। কোন ধারনা? বর্তমানে আমি নিম্নলিখিত তিনটি গ্রাফ ব্যবহার করছি: প্রতিটি গ্রাফ বেসলাইন ডিপ্রেশন (হালকা, মাঝারি, গুরুতর) এর স্তরের জন্য। তারপরে প্রতিটি গ্রাফের মধ্যে আমি চিকিত্সা (0,1) এবং হতাশার উন্নতি (কোনওটিই, …

21 r data-visualization categorical-data

4

পিসিএ স্পেসে নতুন ভেক্টর কীভাবে প্রজেক্ট করবেন?

প্রধান উপাদান বিশ্লেষণ (পিসিএ) করার পরে, আমি পিসিএ স্পেসে একটি নতুন ভেক্টর প্রজেক্ট করতে চাই (অর্থাত পিসিএ স্থানাঙ্ক সিস্টেমে এর স্থানাঙ্কগুলি সন্ধান করুন)। আমি আর ভাষা ব্যবহার করে পিসিএ গণনা করেছি prcomp। এখন আমার পিসিএ রোটেশন ম্যাট্রিক্স দ্বারা আমার ভেক্টরকে গুণ করতে সক্ষম হওয়া উচিত। এই ম্যাট্রিক্সের মূল উপাদানগুলি কি …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

শ্রেণীবদ্ধ স্বতন্ত্র ভেরিয়েবল এবং একটি অবিচ্ছিন্ন নির্ভরশীল জন্য রিগ্রেশন

আমি ঠিক বুঝতে পেরেছি যে আমি সর্বদা রিগ্রেশন সমস্যা নিয়ে কাজ করেছি যেখানে স্বাধীন ভেরিয়েবলগুলি সর্বদা সংখ্যাসূচক ছিল। সমস্ত স্বতন্ত্র ভেরিয়েবলগুলি শ্রেণিবদ্ধের ক্ষেত্রে আমি লিনিয়ার রিগ্রেশন ব্যবহার করতে পারি?

20 regression categorical-data

4

প্রান্ত ক্ষেত্রে যথাযথতা এবং পুনরুদ্ধার জন্য সঠিক মান কি?

যথার্থতা হিসাবে সংজ্ঞায়িত করা হয়: p = true positives / (true positives + false positives) এটি সঠিক যে, 0 true positivesএবং false positivesকাছে যাওয়ার সাথে সাথে নির্ভুলতা 1 এ পৌঁছেছে? প্রত্যাহার জন্য একই প্রশ্ন: r = true positives / (true positives + false negatives) আমি বর্তমানে একটি পরিসংখ্যানগত পরীক্ষা বাস্তবায়ন …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

5

বিযুক্ত এবং অবিচ্ছিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক কল্পনা করার সর্বোত্তম উপায় কী?

এর মধ্যে সম্পর্ক দেখানোর সর্বোত্তম উপায় কী: অবিচ্ছিন্ন এবং পৃথক পরিবর্তনশীল, দুটি পৃথক ভেরিয়েবল? অবিচ্ছিন্ন ভেরিয়েবলের মধ্যে সম্পর্কটি দেখার জন্য আমি এখন পর্যন্ত স্ক্যাটার প্লট ব্যবহার করেছি। তবে পৃথক ভেরিয়েবলের ক্ষেত্রে ডেটা পয়েন্টগুলি নির্দিষ্ট বিরতিতে জমে থাকে। সুতরাং সেরা ফিট লাইন পক্ষপাতদুষ্ট হতে পারে।

19 data-visualization categorical-data random-variable

প্রশ্ন ট্যাগ «categorical-data»