পরিসংখ্যান এবং বড় তথ্য data-mining

1

ইউটিউবে ভিডিও দেখে আমার মনে হয়েছে যে ভেরিয়েশনাল ইনফারেন্স কী তা আমি আসলেই সংজ্ঞায়িত করতে পারি না। আমি ভিডিওটি সম্পর্কে এটি সম্পর্কে বক্তৃতাগুলি দেখার সময় অনুসরণ করতে পারি। আসলে কি তা নির্ধারণ করা শক্ত। এটি সম্পর্কে শুনতে আশা করি।

11 machine-learning mathematical-statistics data-mining

1

গিনি অপবিত্রতা কখন ব্যবহার করবেন এবং কখন তথ্য লাভ করবেন?

সিদ্ধান্তের গাছগুলির জন্য গিনি অপরিষ্কার এবং তথ্য লাভ কখন ব্যবহার করবেন দয়া করে কেউ আমাকে ব্যাখ্যা করতে পারেন? আপনি কখন আমাকে পরিস্থিতি / উদাহরণ দিতে পারেন কখন কোনটি ব্যবহার করা ভাল?

11 machine-learning classification data-mining cart

2

এই মডেলং পদ্ধতির মধ্যে কী অত্যধিক উপকার রয়েছে?

আমাকে সম্প্রতি বলা হয়েছিল যে আমি যে প্রক্রিয়াটি অনুসরণ করেছি (একটি এমএস থিসিসের উপাদান) ওভার-ফিটিং হিসাবে দেখা যেতে পারে। আমি এটির আরও ভাল ধারণা পেতে চাইছি এবং অন্যরা রাজি হচ্ছে কিনা তা দেখুন। কাগজের এই অংশটির উদ্দেশ্য হ'ল ডেটা সেটে র‌্যান্ডম অরণ্যের বিরুদ্ধে গ্রেডিয়েন্ট বুস্টেড রিগ্রেশন ট্রিগুলির পারফরম্যান্স তুলনা করুন। …

11 machine-learning data-mining predictive-models

3

ব্যবহারিক পিসিএ ডেটা সহ টিউটোরিয়াল

পিসিএ টিউটোরিয়ালটির জন্য ইন্টারনেট অনুসন্ধান করা হাজারো ফলাফল দেয় (এমনকি ভিডিওগুলি)। টিউটোরিয়াল অনেকগুলি খুব ভাল। তবে আমি এমন কোনও ব্যবহারিক উদাহরণ খুঁজে পাচ্ছি না যেখানে পিসিএকে এমন কিছু ডেটা-সেট ব্যবহার করে ব্যাখ্যা করা হয়েছে যা আমি প্রদর্শনের জন্য ব্যবহার করতে পারি। আমার একটি টিউটোরিয়াল দরকার যা কিছু ছোট ডেটা সেট …

11 data-visualization dataset pca data-mining

1

কমান্ড ব্যবহার করে নতুন ডেটার জন্য উপযুক্ত নিয়ম সন্ধান করা

আমি সমিতির বিধিগুলির জন্য মাইনিং লেনদেনের জন্য আর (এবং আরিউলস প্যাকেজ) ব্যবহার করছি। আমি যা করতে চাই তা হল নিয়মগুলি তৈরি করা এবং তারপরে সেগুলি নতুন ডেটাতে প্রয়োগ করা। উদাহরণস্বরূপ, বলুন আমার অনেক বিধি রয়েছে যার মধ্যে একটি হ'ল প্রথাগত {Beer=YES} -> {Diapers=YES}। তারপরে আমার কাছে নতুন ট্রানজেকশনাল ডেটা রয়েছে …

11 r data-mining association-rules

14

একটি নাম থেকে আপনি কত তথ্য খনি করতে পারেন?

একটি নাম: প্রথমটি, সম্ভবত একটি মাঝামাঝি এবং উপাধি। আমি প্রকাশ্যে উপলভ্য ডেটাসেট ব্যবহার করে কোনও নাম আপনি কীভাবে বের করতে পারেন তা সম্পর্কে আমি আগ্রহী। আমি জানি যে আপনি মার্কিন আদমশুমারির তথ্য ব্যবহার করে নিম্ন-উচ্চ সম্ভাবনার (ইনপুটটির উপর নির্ভর করে) যে কোনও জায়গার সাথে নিম্নলিখিতটি পেতে পারেন: 1) লিঙ্গ। 2) …

11 dataset data-mining census

1

আর / এমজিসিভি: টি () এবং টিআই () সেন্সর পণ্যগুলি কেন বিভিন্ন উপরিভাগ তৈরি করে?

mgcvপ্যাকেজের Rঝুলানো টেন্সর পণ্যের পারস্পরিক ক্রিয়ার জন্য দুটি ফাংশন আছে: te()এবং ti()। আমি উভয়ের মধ্যে শ্রমের মৌলিক বিভাজন বুঝতে পারি (একটি অ-রৈখিক ইন্টারঅ্যাকশন বনাম বনাম। এই ইন্টারঅ্যাকশনটিকে প্রধান প্রভাব এবং একটি মিথস্ক্রিয়াতে ডেকপোজ করে)। আমি যা বুঝতে পারি না তা হ'ল কেন te(x1, x2)এবং ti(x1) + ti(x2) + ti(x1, x2)(কিছুটা) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

5

লজিস্টিক রিগ্রেশন জন্য ডেটা বিভক্ত করার একটি উপায় হিসাবে ক্লাস্টারিং

আমি একটি লজিস্টিক রিগ্রেশন মডেল সহ কিছু বৈশিষ্ট্যের ভিত্তিতে শিক্ষার্থীদের সাফল্য বা ব্যর্থতার পূর্বাভাস দেওয়ার চেষ্টা করছি। মডেলটির কর্মক্ষমতা উন্নত করতে, আমি ইতিমধ্যে স্পষ্ট পার্থক্যের ভিত্তিতে শিক্ষার্থীদের বিভিন্ন গ্রুপে বিভক্ত করার এবং প্রতিটি গ্রুপের জন্য পৃথক মডেল তৈরি করার বিষয়ে চিন্তা করেছি। তবে আমি মনে করি পরীক্ষার মাধ্যমে এই গোষ্ঠীগুলি …

11 clustering data-mining logistic

3

ডেটা প্রিপ্রোসেসিং এবং আউটলেট সনাক্তকরণ কৌশলগুলি কভার করে ভাল বই

শিরোনামটি যেমন চলে যায়, কেউ কি কোনও ভাল, আপ টু ডেট বই সম্পর্কে জানেন যা সাধারণ এবং বিশেষত আউটিলার সনাক্তকরণ কৌশলগুলিতে ডেটা প্রিপ্রোসেসিংয়ের তথ্য কভার করে? বইটিতে একচেটিয়াভাবে ফোকাস করার দরকার নেই, তবে এটি পূর্বোক্ত বিষয়গুলিকে নিখুঁতভাবে মোকাবেলা করতে হবে - আমি এমন কোনও বিষয় নিয়ে খুশি হতে পারব না …

11 dataset data-mining references outliers

2

চ-পরিমাপটি কি নির্ভুলতার সমার্থক?

আমি বুঝতে পেরেছি যে চ-পরিমাপ (নির্ভুলতা এবং পুনরুদ্ধারের উপর ভিত্তি করে) কোনও শ্রেণিবদ্ধকারী কতটা সঠিক তার অনুমান। এছাড়াও, যখন আমাদের ভারসাম্যহীন ডেটাসেট থাকে তখন নির্ভুলতার চেয়ে এফ-পরিমাপ অনুকূল হয় । আমার একটি সাধারণ প্রশ্ন রয়েছে (যা প্রযুক্তি সম্পর্কে সঠিক পরিভাষা ব্যবহার সম্পর্কে বেশি)। আমার একটি ভারসাম্যহীন ডেটাসেট রয়েছে এবং আমি …

11 machine-learning classification data-mining unbalanced-classes accuracy

2

উপাদানগুলির সংখ্যা বাছাই করার জন্য, পিসিএ ফিটের মান নির্ধারণ করার জন্য ভাল মেট্রিকগুলি কী কী?

প্রধান উপাদান বিশ্লেষণের (পিসিএ) গুণমান নির্ধারণের জন্য একটি ভাল মেট্রিক কী? আমি একটি ডেটাসেটে এই অ্যালগরিদম সম্পাদন করেছি। আমার উদ্দেশ্যটি ছিল বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করা (তথ্যটি খুব অপ্রয়োজনীয় ছিল)। আমি জানি যে শতাংশের বৈকল্পিকতা আমরা কতটা তথ্য রাখি তার একটি ভাল সূচক, আমি অপ্রয়োজনীয় তথ্য সরিয়েছি এবং এই জাতীয় তথ্য …

10 machine-learning pca data-mining information-theory

1

ওবামার প্রচারে ডেটা মাইনিং কৌশল

ওবামার পুনর্নির্বাচন প্রচারে ডেটা মাইনিং দল সম্পর্কে এই নিবন্ধটি জুড়ে এসেছি । দুর্ভাগ্যক্রমে, নিবন্ধটি পরিসংখ্যান সংক্রান্ত অ্যালগরিদমের আসল যন্ত্রপাতি সম্পর্কে খুব ঝাপসা। তবে, এটি এমন শোনা গেল যে সাধারণ কৌশলগুলি সামাজিক ও রাজনৈতিক বিজ্ঞানে পরিচিত। যেহেতু এটি আমার দক্ষতার ক্ষেত্র নয়, তাই কেউ এই ধরণের কৌশল সম্পর্কে আমাকে (ওভারভিউ) সাহিত্যে …

10 data-mining social-network social-science

1

কেন আনোভা () এবং ড্রপ 1 () জিএলএমএমগুলির জন্য আলাদা উত্তর সরবরাহ করে?

আমার ফর্মটির একটি জিএলএমএম রয়েছে: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) আমি যখন ব্যবহার করি drop1(model, test="Chi"), তখন আমি Anova(model, type="III")গাড়ি প্যাকেজটি ব্যবহার করি বা না থেকে তার চেয়ে আলাদা ফলাফল পাই summary(model)। এই দ্বিতীয় দুটি একই উত্তর দেয়। একগুচ্ছ মনগড়া তথ্য …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

"মডেল শিখুন" শব্দটি কোথা থেকে এসেছে?

প্রায়শই আমি শুনেছি এখানে ডেটা মাইনাররা এই শব্দটি ব্যবহার করে। একজন পরিসংখ্যানবিদ হিসাবে যিনি শ্রেণিবদ্ধকরণের সমস্যায় কাজ করেছেন আমি "ট্রেনিং ক্লাসিফায়ার" শব্দটির সাথে পরিচিত এবং আমি ধরে নিয়েছি "একটি মডেল শিখুন" অর্থ একই জিনিস means "একটি শ্রেণিবদ্ধ প্রশিক্ষণ" শব্দটি আমি আপত্তি করি না। এটি মডেল ফিট করার ধারণাকে চিত্রিত করে …

10 classification data-mining terminology model

3

পাঠ্য নথির জন্য বৈশিষ্ট্য ভেক্টর তৈরি করতে বিগ্রাম (এন-গ্রাম) মডেল ব্যবহার সম্পর্কে

পাঠ্য খনির জন্য বৈশিষ্ট্য নির্মাণের একটি traditionalতিহ্যগত পদ্ধতির ব্যাগ-অফ-শব্দের পন্থা, এবং প্রদত্ত পাঠ্য নথির বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য ভেক্টর স্থাপনের জন্য টিএফ-আইডিএফ ব্যবহার করে বাড়ানো যেতে পারে। বর্তমানে, বৈশিষ্ট্য ভেক্টর তৈরির জন্য আমি দ্বি-গ্রাম ভাষার মডেল বা (এন-গ্রাম) ব্যবহার করার চেষ্টা করছি, তবে কীভাবে এটি করা যায় তা যথেষ্ট জানেন না? আমরা …

10 machine-learning data-mining text-mining natural-language language-models

প্রশ্ন ট্যাগ «data-mining»