পরিসংখ্যান এবং বড় তথ্য categorical-data

1

বিভাগীয় ডেটা সহ একটি নেতিবাচক দ্বিপদী GLM থেকে .L এবং .Q আউটপুটের ব্যাখ্যা

আমি কেবল একটি নেতিবাচক দ্বিপদী জিএলএম চালিয়েছি এবং এটি আউটপুট: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 …

14 r categorical-data generalized-linear-model interpretation negative-binomial

3

কেন্দ্রীকরণ এবং ডামি ভেরিয়েবল স্কেলিং

আমার কাছে একটি ডেটা সেট রয়েছে যা স্পষ্টত ভেরিয়েবল এবং অবিচ্ছিন্ন ভেরিয়েবল উভয়ই অন্তর্ভুক্ত করে। আমাকে প্রতিটি স্তরের (যেমন, A_level1: {0,1}, A_level2: {0,1}) শ্রেণীবদ্ধ ভেরিয়েবলগুলি বাইনারি ভেরিয়েবল হিসাবে রূপান্তর করার পরামর্শ দেওয়া হয়েছিল - আমি মনে করি কেউ কেউ এই "ডামি ভেরিয়েবল" বলেছেন। এই বলে যে, এটি কি তখন ভ্রান্ত …

13 categorical-data data-transformation centering

6

এলোমেলো বন: পরীক্ষা সেটে নতুন ফ্যাক্টর মাত্রা কীভাবে পরিচালনা করতে হয়?

আমি আর এলোমেলো বন মডেল ব্যবহার করে পূর্বাভাস দেওয়ার চেষ্টা করছি am তবে আমি ত্রুটিগুলি পেয়েছি যেহেতু কিছু উপাদানগুলির প্রশিক্ষণ সংস্থার চেয়ে পরীক্ষার সেটে বিভিন্ন মান রয়েছে। উদাহরণস্বরূপ, পরীক্ষার সেটে কোনও ফ্যাক্টরের Cat_2মান 34, 68, 76ইত্যাদি থাকে যা প্রশিক্ষণ সেটে উপস্থিত হয় না। দুর্ভাগ্যক্রমে, টেস্ট সেটে আমার নিয়ন্ত্রণ নেই ... …

13 r categorical-data random-forest

2

প্রশ্নাবলীর থেকে অর্ডিনাল ডেটা কীভাবে সঠিক বিরতি ডেটাতে রূপান্তর করা যায়?

অর্ডিনাল স্তরের ডেটাগুলিকে অন্তর্বর্তী স্তরে রূপান্তরিত করার কোনও সোজা পদ্ধতি আছে (যেমন এটি অন্যভাবে করার জন্য রয়েছে)? এবং এক্সেল বা এসপিএসএসে পারফর্মযোগ্য? ডেটা থাকা, বলুন: অরডিনাল স্তরে 10 টি প্রশ্ন (0-5 স্কেল বলুন, যেখানে 0 = "একেবারেই নয়", 5 = "সর্বকালে"), আমি তাদের ট্রান্সফর্ম করতে চাই যাতে তাদের যথাযথ হিসাবে …

13 categorical-data ordinal-data scales psychometrics

4

শ্রেণিবদ্ধ তথ্য সংক্ষেপে কিভাবে?

আশাকরি সহ আমি নিম্নলিখিত সমস্যার সাথে লড়াই করে যাচ্ছি পরিসংখ্যানবিদদের পক্ষে সহজ একটি বিষয় (আমি পরিসংখ্যানের কিছুটা এক্সপোজার সহ একটি প্রোগ্রামার)। আমার একটি সমীক্ষার প্রতিক্রিয়াগুলি সংক্ষিপ্ত করা দরকার (পরিচালনার জন্য)। সমীক্ষায় 100+ টি প্রশ্ন রয়েছে, বিভিন্ন এলাকায় দলবদ্ধ করা হয়েছে (প্রতি এলাকাতে প্রায় 5 থেকে 10 টি প্রশ্ন রয়েছে)। সমস্ত …

13 categorical-data data-transformation descriptive-statistics

2

প্রতিদিনের ডেটার জন্য একাধিক রিগ্রেশনে seasonতু ক্যাপচার করা

আমার কাছে এমন একটি পণ্যের দৈনিক বিক্রয় ডেটা রয়েছে যা অত্যন্ত মৌসুমী। আমি রিগ্রেশন মডেলটিতে seasonতুকে ক্যাপচার করতে চাই। আমি পড়েছি যে আপনার যদি ত্রৈমাসিক বা মাসিক ডেটা থাকে তবে সেই ক্ষেত্রে আপনি যথাক্রমে 3 এবং 11 টি ডামি ভেরিয়েবল তৈরি করতে পারেন - তবে আমি কি প্রতিদিনের ডেটা নিয়ে …

13 regression time-series multiple-regression categorical-data

2

জিএলএম-এ ডামি (ম্যানুয়াল বা স্বয়ংক্রিয়) পরিবর্তনশীল সৃষ্টি বোঝা

যদি কোনও ফ্যাক্টর ভেরিয়েবল (উদাহরণস্বরূপ এম এবং এফ এর সাথে লিঙ্গ) গ্ল্যাম ফর্মুলায় ব্যবহার করা হয় তবে ডামি ভেরিয়েবল (গুলি) তৈরি হয় এবং তাদের সম্পর্কিত সহগের সাথে উদাহরণস্বরূপ গ্ল্যাম মডেল সংক্ষেপে পাওয়া যায় (যেমন লিঙ্গম) যদি, ফ্যাক্টরটিকে এভাবে বিভক্ত করার জন্য আর এর উপর নির্ভর না করে ফ্যাক্টরটি সংখ্যা 0/1 …

13 r generalized-linear-model categorical-data categorical-encoding

2

সিদ্ধান্ত গাছগুলির জন্য শ্রেণিবদ্ধ বৈশিষ্ট্যগুলি কোডিংয়ের সেরা অনুশীলনগুলি?

লিনিয়ার রিগ্রেশন জন্য শ্রেণিবদ্ধ বৈশিষ্ট্যগুলি কোডিং করার সময়, একটি নিয়ম রয়েছে: ডামির সংখ্যা মোট স্তরের সংখ্যার চেয়ে কম হওয়া উচিত (কোলাইনারিটি এড়াতে)। সিদ্ধান্ত গাছের জন্য কি একই ধরণের নিয়ম রয়েছে (ব্যাগড, বুস্টেড)? আমি এটি জিজ্ঞাসা করছি কারণ পাইথনে একটি স্ট্যান্ডার্ড অনুশীলন মনে হয় nস্তরগুলি nডমিগুলিতে (স্কালার্নস ' OneHotEncoderবা পান্ডাস' pd.get_dummies) …

13 categorical-data random-forest cart boosting

1

পাইথনে সাধারণ লজিস্টিক রিগ্রেশন

আমি পাইথনে একটি সাধারণ লজিস্টিক রিগ্রেশন চালাতে চাই - তিনটি স্তরের এবং কয়েকটি ব্যাখ্যামূলক কারণের সাথে একটি প্রতিক্রিয়ার ভেরিয়েবলের জন্য। statsmodelsপ্যাকেজ বাইনারি logit এবং MULTINOMIAL logit (MNLogit) মডেল, কিন্তু আদেশ logit সমর্থন করে। অন্তর্নিহিত গণিত যেহেতু পৃথক নয়, তাই আমি ভাবছি যে এগুলি ব্যবহার করে এটি সহজেই প্রয়োগ করা যেতে …

12 categorical-data python logit ordered-logit statsmodels

3

কেবলমাত্র প্রান্তিক গণনা দেওয়া যৌথ বিতরণের সর্বাধিক সম্ভাবনা অনুমানকারী

যাক পিx , ypx,yp_{x,y} দুই শ্রেণীগত ভেরিয়েবল একটি যৌথ বন্টন হতে এক্স, YX,YX,Y , সঙ্গে x , y∈ { 1 , ... , কে}x,y∈{1,…,K}x,y\in\{1,\ldots,K\} । বলুন নমুনা এই ডিস্ট্রিবিউশন থেকে টানা হয়েছে, কিন্তু আমরা শুধু যথা জন্য প্রান্তিক গন্য দেওয়া হয়, :জ = 1 , … , কেএনnnj = 1 …

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

5

খুব বড় সংখ্যক ডেটা পয়েন্টে মানগুলির অনুগমন কীভাবে করা যায়?

আমার একটি খুব বড় ডেটাসেট রয়েছে এবং প্রায় 5% এলোমেলো মান অনুপস্থিত। এই ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত হয়। নীচের উদাহরণটি আর ডেটাসেটটি ডমি কোলেলেটেড ডেটা সহ একটি খেলনার উদাহরণ। set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

বেরি উল্টানো

আমার কাছে মার্কিন যুক্তরাষ্ট্রে ওয়াইন বিক্রির জন্য বড় আকারের একটি মার্কেট ডেটা রয়েছে এবং আমি নির্দিষ্ট উচ্চমানের ওয়াইনগুলির চাহিদা অনুমান করতে চাই। এই বাজারের শেয়ারগুলি মূলত আকারের এলোমেলো ইউটিলিটি মডেল থেকে প্রাপ্ত হয়েছিল যেখানে পর্যবেক্ষণ করা পণ্যের বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে , পণ্যের দামকে নির্দেশ করে, এমন অনাবদ্ধ পণ্য বৈশিষ্ট্য যা …

12 logistic estimation multiple-regression categorical-data

3

মুন্ডলাক স্থির প্রতিক্রিয়া পদ্ধতি ডামিগুলির সাথে লজিস্টিক রিগ্রেশনের জন্য প্রযোজ্য?

আমার কাছে 8000 ক্লাস্টার এবং 4 মিলিয়ন পর্যবেক্ষণ সহ একটি ডেটাসেট রয়েছে। দুর্ভাগ্যক্রমে আমার পরিসংখ্যান সংক্রান্ত সফটওয়্যার, স্টাটা লজিস্টিক রিগ্রেশনের জন্য এর প্যানেল ডেটা ফাংশনটি ব্যবহার করার পরিবর্তে ধীরে ধীরে চালিত হয়: xtlogitএমনকি 10% সাবমেল সহ। তবে ননপ্যানেল ব্যবহার করার সময় logitফলাফলগুলি খুব শীঘ্রই উপস্থিত হয়। সুতরাং আমি logitসংশোধিত ডেটা …

12 logistic categorical-data stata fixed-effects-model

1

আরআর-তে স্বাধীনতা ডিগ্রিআরসিআরসি মিশ্রিত এবং lme / lmer এর মধ্যে পার্থক্য

দ্রষ্টব্য: এই প্রশ্নটি পুনরায় পোস্ট করা হয়েছে, কারণ আমার আগের প্রশ্নটি আইনি কারণে মুছে ফেলা হয়েছিল। আর- lmeএর nlmeপ্যাকেজ থেকে ফাংশনটির সাথে এসএএস থেকে প্রসকে মিক্সেড তুলনা করার সময় , আমি কিছু বরং বিভ্রান্তিকর পার্থক্যের উপর হোঁচট খেয়েছি। আরও সুনির্দিষ্টভাবে বলা যায় যে বিভিন্ন পরীক্ষায় স্বাধীনতার ডিগ্রিগুলির মধ্যে পার্থক্য রয়েছে …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

3-স্তরের आकस्मिक টেবিলটি মোকাবেলা করার উপযুক্ত উপায়

আমার কাছে একটি তিন স্তরের কন্টিনজেন্সি টেবিল রয়েছে, বেশ কয়েকটি প্রজাতির গণনা তথ্য, যে হোস্ট প্ল্যান্ট থেকে তারা সংগ্রহ করা হয়েছিল এবং সেই সংগ্রহটি কোনও বৃষ্টির দিনে ঘটেছিল কিনা (এটি আসলে গুরুত্বপূর্ণ!)। আর, জাল তথ্য ব্যবহার করা কিছু হতে পারে: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host …

12 r categorical-data log-linear

প্রশ্ন ট্যাগ «categorical-data»