পরিসংখ্যান এবং বড় তথ্য clustering

2

"অনুরূপ" উত্স কোডগুলির ক্লাস্টারগুলি সনাক্ত করা

ধরুন আমার 400 জন শিক্ষার্থী রয়েছে (এটি একটি বড় বিশ্ববিদ্যালয়ে) কম্পিউটার বিজ্ঞান প্রকল্প করতে হবে এবং তাদের একা কাজ করতে হবে (ছাত্রদের কোনও দল নেই)। প্রকল্পের একটি উদাহরণ হতে পারে "ফরটারনে একটি দ্রুত ফুরিয়ার রূপান্তর অ্যালগরিদম বাস্তবায়ন করা" (আমি জানি, এটি সেক্সি লাগছে না তবে এটি আমার প্রশ্নকে সহজ করে …

10 hypothesis-testing clustering

3

ক্লাস্টারিং বিতরণ

আমার বেশ কয়েকটি বিতরণ রয়েছে (নীচের চিত্রে 10 টি বিতরণ)। প্রকৃতপক্ষে এগুলি হিস্টোগ্রামগুলি: এক্স-অক্ষের উপর 70 টি মান রয়েছে যা একটি দ্রবণে কিছু কণার আকার এবং x এর প্রতিটি মানের জন্য y এর সাথে সম্পর্কিত মান হ'ল কণার অনুপাত যা এর আকার x এর মানের কাছাকাছি is আমি এই বিতরণগুলি …

10 clustering

3

অনুদৈর্ঘ্য ভেরিয়েবলগুলি কীভাবে ক্লাস্টার করবেন?

আমার কাছে ভেরিয়েবলগুলির একটি গুচ্ছ রয়েছে যার মধ্যে 0 থেকে দিন 7 পর্যন্ত অনুদায়ী তথ্য রয়েছে I আমি একটি উপযুক্ত ক্লাস্টারিং পদ্ধতির সন্ধান করছি যা এই অনুদৈর্ঘ্য ভেরিয়েবলগুলি (কেস নয়) বিভিন্ন গ্রুপে ক্লাস্টার করতে পারে। আমি এই ডেটা সেট করে আলাদাভাবে বিশ্লেষণ করার চেষ্টা করেছি সময় মতো, তবে ফলাফলটি যথাযথভাবে …

10 clustering

2

পয়েন্ট ক্লাউড ডেটাতে বিজ্ঞপ্তি নিদর্শনগুলি সনাক্ত করুন

কিছু ভলিউম পুনর্নির্মাণ অ্যালগরিদমের জন্য আমি কাজ করছি, আমাকে 3 ডি পয়েন্ট ডেটার (একটি LIDAR ডিভাইস থেকে আগত) একটি বৃত্তাকার ধরণগুলির একটি স্বেচ্ছাসেবী সংখ্যা সনাক্ত করতে হবে। নিদর্শনগুলি নির্বিচারে স্থানের দিকে লক্ষ্য করা যায় এবং পাতলা 2 ডি প্লেনে মিথ্যা (যদিও নিখুঁত নয়) ধরে নেওয়া যায়। এখানে একই বিমানের দুটি …

10 clustering image-processing

1

Kmeans ক্লাস্টারিংয়ের জন্য আর-তে স্ট্যাটাস প্যাকেজ ব্যবহার করা

গুচ্ছ প্যাকেজের এক বা দুটি দিক বুঝতে আমার অসুবিধা হচ্ছে। আমি কুইক-আর এর কাছ থেকে উদাহরণ অনুসরণ করছি , কিন্তু বিশ্লেষণের এক বা দুটি দিক বুঝতে পারছি না। আমি এই বিশেষ উদাহরণটির জন্য কোডটি ব্যবহার করছি included ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, …

10 r clustering

1

ক্লাস্টার বিশ্লেষণের পরে বৈষম্যমূলক বিশ্লেষণ

কে-মানেগুলির মতো ক্লাস্টারিং অ্যালগরিদমের ফলাফলগুলিতে বৈষম্য বিশ্লেষণ (ডিএ) ব্যবহার করার যুক্তি কী, আমি যেমন সময়ে সময়ে সাহিত্যে দেখি (মূলত মানসিক ব্যাধিগুলির ক্লিনিকাল সাবটাইপিংয়ের উপর)? ক্লাস্টার নির্মাণের সময় যে ভেরিয়েবলগুলি ব্যবহৃত হয়েছিল তার উপর গ্রুপ পার্থক্যের জন্য সাধারণত এটি পরীক্ষা করার পরামর্শ দেওয়া হয় না যেহেতু তারা শ্রেণি (শ্রেনী। শ্রেণীর মধ্যে) …

10 clustering discriminant-analysis

1

কে-অর্থ: ব্যবহারিক পরিস্থিতিতে কতটি পুনরাবৃত্তি?

ডেটা মাইনিং বা বড় ডেটাতে আমার শিল্পের অভিজ্ঞতা নেই তাই আপনাকে কিছু অভিজ্ঞতা ভাগ করে নিতে শুনে ভালো লাগবে। লোকেরা কি আসলেই বড়-বড় ডেটাসেটে কে-মানে, প্যাম, ক্লারা ইত্যাদি চালায়? অথবা তারা এলোমেলোভাবে এটি থেকে একটি নমুনা বাছাই করে? যদি তারা কেবল ডেটাসেটের একটি নমুনা নেন, তবে ডাটাসেটটি সাধারণত বিতরণ না …

10 clustering data-mining k-means convergence large-data

2

অ্যাডজাস্টেড র্যান্ড ইনডেক্স বনাম অ্যাডজাস্টেড মিউচুয়াল ইনফরমেশন

আমি ক্লাস্টারিং কর্মক্ষমতা মূল্যায়ন করার চেষ্টা করছি। আমি মেট্রিকগুলিতে স্কিসিট-লার ডকুমেন্টেশন পড়ছিলাম । আমি এআরআই এবং এএমআইয়ের মধ্যে পার্থক্য বুঝতে পারি না। আমার কাছে মনে হয় তারা একই কাজ দুটি ভিন্ন উপায়ে করে। ডকুমেন্টেশন থেকে উদ্ধৃত: গ্রাউন্ড ট্রুথ ক্লাস অ্যাসাইনমেন্ট লেবেল_ট্রু এবং একই নমুনার লেবেল_প্রেডের আমাদের ক্লাস্টারিং অ্যালগরিদম অ্যাসাইনমেন্টের জ্ঞান …

10 clustering python scikit-learn

2

বুলিয়ান বৈশিষ্ট্যগুলির একটি ছোট নমুনা সেটের জন্য পিসিএ এবং বর্ণালী ক্লাস্টারিংয়ের মধ্যে পার্থক্য

আমার কাছে 50 টি নমুনার ডেটাসেট রয়েছে। প্রতিটি নমুনা 11 (সম্ভবত সম্পর্কিত) বুলিয়ান বৈশিষ্ট্য নিয়ে গঠিত। আমি কিছু 2D প্লটের উপর এই নমুনাগুলি কীভাবে দৃশ্যমান করব এবং 50 টি নমুনার মধ্যে ক্লাস্টার / গ্রুপিং রয়েছে কিনা তা পরীক্ষা করতে চাই some আমি নিম্নলিখিত দুটি পদ্ধতির চেষ্টা করেছি: (ক) 50x11 ম্যাট্রিক্সে …

10 clustering data-visualization pca k-means spectral-analysis

1

আর লিনিয়ার রিগ্রেশন শ্রেণিবদ্ধ পরিবর্তনশীল "লুকানো" মান

এটি কেবলমাত্র একটি উদাহরণ যা আমি বেশ কয়েকবার এসেছি, সুতরাং আমার কোনও নমুনা ডেটা নেই। আরে লিনিয়ার রিগ্রেশন মডেল চালাচ্ছেন: a.lm = lm(Y ~ x1 + x2) x1একটি অবিচ্ছিন্ন পরিবর্তনশীল। x2শ্রেণীবদ্ধ এবং এর তিনটি মান রয়েছে যেমন "নিম্ন", "মাঝারি" এবং "উচ্চ"। তবে আর দ্বারা প্রদত্ত আউটপুটটি এরকম কিছু হবে: summary(a.lm) …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

কোন গভীর শিক্ষণ মডেল এমন বিভাগগুলিকে শ্রেণিবদ্ধ করতে পারে যা পারস্পরিক একচেটিয়া নয়

উদাহরণ: আমার কাজের বাক্যে একটি বাক্য রয়েছে: "যুক্তরাজ্যের জাভা সিনিয়র ইঞ্জিনিয়ার"। আমি এটি 2 বিভাগ: English এবং হিসাবে পূর্বাভাস দেওয়ার জন্য একটি গভীর শিক্ষার মডেল ব্যবহার করতে চাই IT jobs। যদি আমি traditionalতিহ্যগত শ্রেণিবদ্ধকরণ মডেল ব্যবহার করি তবে এটি কেবল softmaxসর্বশেষ স্তরে ফাংশন সহ 1 টি লেবেল পূর্বাভাস দিতে পারে …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

গাউসের বায়েশিয়ান মিশ্রণে স্টোকাস্টিক ভেরিয়েশনাল ইনফেরেন্স প্রয়োগ করা

আমি এই কাগজটি অনুসরণ করে স্টোকাস্টিক ভেরিয়েশনাল ইনফারেন্স সহ গসিয়ান মিশ্রণ মডেলটি বাস্তবায়নের চেষ্টা করছি । এটি গাউসিয়ান মিশ্রণের পিজিএম। কাগজ অনুসারে, স্টোকাস্টিক ভেরিয়েশনাল ইনফেরেন্সের সম্পূর্ণ অ্যালগরিদম হ'ল: এবং GMM তে এটি স্কেল করার পদ্ধতিটি সম্পর্কে আমি এখনও খুব বিভ্রান্ত। প্রথমত, আমি ভেবেছিলাম স্থানীয় প্যারামিটারটি কেবল এবং অন্যরা সমস্ত গ্লোবাল …

9 machine-learning bayesian clustering gaussian-mixture variational-bayes

2

ক্লাস্টারিং সমস্যাগুলির জন্য বৈশিষ্ট্য নির্বাচন

আমি অকার্যকর অ্যালগরিদম (ক্লাস্টারিং) ব্যবহার করে বিভিন্ন ডেটাसेट একসাথে তৈরি করার চেষ্টা করছি। সমস্যাটি হ'ল আমার কাছে অনেকগুলি বৈশিষ্ট্য (500 ডলার) এবং অল্প পরিমাণে কেস (200-300) রয়েছে। এখনও পর্যন্ত আমি কেবল শ্রেণিবদ্ধের সমস্যাগুলিই করতাম যার জন্য আমি সবসময় প্রশিক্ষণের সেট হিসাবে ডেটা লেবেল করে রেখেছিলাম। সেখানে আমি বৈশিষ্ট্যগুলির পূর্বনির্ধারণের জন্য …

9 r clustering feature-selection unsupervised-learning

2

কোনও অসামান্যতা পরিমাপের জন্য ওজন কীভাবে সন্ধান করতে হয়

আমি ক্লাস্টারিংয়ের জন্য যে আমার ভিন্নতা মাপতে ব্যবহার করতে পারি তার জন্য বিশদ ওজন শিখতে (অনুদান) শিখতে চাই। আমার কাছে কয়েকটি উদাহরণ যা "একই" (একই ক্লাস্টারের মধ্যে হওয়া উচিত) এবং একই সাথে কয়েকটি জিনিস যা "অনুরূপ নয়" হওয়া উচিত নয়) একই ক্লাস্টারে থাকা)। প্রতিটি বস্তুর বিভিন্ন বৈশিষ্ট্য রয়েছে: আপনি যদি …

9 clustering similarities supervised-learning semi-supervised

2

কীভাবে এই "মার্কিন যুক্তরাষ্ট্রের রেডডিট" গ্রাফ তৈরি করা হয়?

নীচে পি থেকে একটি গ্রাফ দেওয়া আছে। 202 খ্রিস্টান রডারের ডেটাাক্লাইজম , যদিও এটি জেমস ডাউডেল তৈরি করেছিলেন। এটি বিভিন্ন শীর্ষ 200 সাব-ডিডিটগুলিতে সম্পর্কগুলিকে তুলে ধরেছে যা reddit.com- এ আগ্রহের ক্ষেত্র যেখানে ব্যবহারকারীরা লিঙ্ক, মন্তব্য এবং ভোট জমা দিতে পারবেন। এগুলি এই সাইটে ট্যাগগুলির মতো। সাব্রেডিট অঞ্চলগুলির আকারগুলি তাদের জনপ্রিয়তার …

9 clustering data-visualization

প্রশ্ন ট্যাগ «clustering»