পরিসংখ্যান এবং বড় তথ্য clustering

1

আর প্যাকেজটি mclustবিআইসিকে ক্লাস্টার মডেল নির্বাচনের মানদণ্ড হিসাবে ব্যবহার করে। আমার বোধগম্যতা থেকে, সর্বনিম্ন বিআইসি সহ একটি মডেল অন্যান্য মডেলের চেয়ে বেশি নির্বাচন করা উচিত (যদি আপনি কেবলমাত্র বিআইসির প্রতি যত্নশীল হন)। যাইহোক, যখন বিআইসির মানগুলি সমস্ত নেতিবাচক হয়, তখন Mclustফাংশনটি সর্বাধিক বিআইসি মান সহ মডেলটির ডিফল্ট হয়। বিভিন্ন পরীক্ষার …

11 r clustering gaussian-mixture bic model-based-clustering

3

নিউম্যানের নেটওয়ার্ক মডিউলারিটি কি স্বাক্ষরিত, ভারিত গ্রাফগুলির জন্য কাজ করে?

কোনও গ্রাফের পরিমিতিটি তার উইকিপিডিয়া পৃষ্ঠায় সংজ্ঞায়িত করা হয়েছে । একটি ভিন্ন পোস্টে , কেউ ব্যাখ্যা করেছেন যে ভারী নেটওয়ার্কগুলির জন্য মডুলারালিটি সহজেই গণনা করা যায় (এবং সর্বোচ্চ করা যায়) কারণ সংলগ্ন ম্যাট্রিক্স as পাশাপাশি মূল্যবান সম্পর্কগুলিও ধারণ করতে পারে। তবে, আমি জানতে চাই যে এটি স্বাক্ষরযুক্ত, মূল্যবান প্রান্তগুলি সহ, …

11 clustering data-visualization networks partitioning modularity

1

প্রত্যাশা সর্বাধিক ব্যাখ্যা

আমি EM অ্যালগরিদম সম্পর্কিত খুব সহায়ক টিউটোরিয়াল পেয়েছি । টিউটোরিয়ালটির উদাহরণ এবং চিত্রটি কেবল উজ্জ্বল। সম্ভাবনার গণনা সম্পর্কিত সম্পর্কিত প্রশ্ন কীভাবে প্রত্যাশা সর্বাধিকীকরণ কাজ করে? উদাহরণের সাথে টিউটোরিয়ালে বর্ণিত তত্ত্বটি কীভাবে সংযুক্ত করবেন সে সম্পর্কে আমার আরও একটি প্রশ্ন রয়েছে। ই-পদক্ষেপের সময়, EM নীচে সীমা জন্য একটি ফাংশন বেছে নেয় …

11 machine-learning clustering algorithms natural-language

1

গুচ্ছ বৈধতার জন্য তথ্য (ষষ্ঠ) মেট্রিকের প্রকরণের পিছনে অন্তর্দৃষ্টি কী?

আমার মতো অ-পরিসংখ্যানবিদদের জন্য, VIমেরিনা মেলিয়া " তুলনা ক্লাস্টারিংস - একটি তথ্য ভিত্তিক দূরত্ব " (মাল্টিভারিয়েট অ্যানালাইসিস, 2007 এর জার্নাল) দ্বারা প্রাসঙ্গিক কাগজ পড়ার পরেও মেট্রিকের (তথ্যের প্রকরণ) ধারণাটি ধারণ করা খুব কঠিন । আসলে, আমি সেখানে ক্লাস্টারিংয়ের অনেক শর্তের সাথে পরিচিত নই। নীচে একটি এমডব্লিউই রয়েছে এবং আমি জানতে …

11 r clustering validation intuition

2

কোভেরিয়েন্স ম্যাট্রিক্স তৈরি করে চলকগুলির মধ্যে দূরত্বগুলি কী কী?

আমার একটি কোভারিয়েন্স ম্যাট্রিক্স রয়েছে এবং শ্রেণিবদ্ধ ক্লাস্টারিং ব্যবহার করে ক্লাস্টারে বিভাজনগুলি ভাগ করতে চাই (উদাহরণস্বরূপ, কোভরিয়েন্স ম্যাট্রিক্সকে বাছাই করতে)।n × nএন×এনn \times nটটk ভেরিয়েবলগুলির মধ্যে (যেমন বর্গাকার কোভারিয়েন্স ম্যাট্রিক্সের কলাম / সারিগুলির মধ্যে) এর মধ্যে একটি সাধারণ দূরত্বের কার্য রয়েছে? বা যদি আরও কিছু থাকে তবে বিষয়টিতে কোনও ভাল …

11 clustering covariance distance-functions distance

2

দ্রাঘিমাংশীয় তথ্যের মধ্যে গোষ্ঠীগুলি (ট্রাজেক্টোরিজগুলি) কীভাবে সন্ধান করবেন?

প্রসঙ্গ প্রশ্নটিতে কিছুটা প্রসারণের আগে আমি দৃশ্যটি সেট করতে চাই। আমার দ্রাঘিমাংশীয় তথ্য রয়েছে, প্রতি 3 মাস অন্তর্ভুক্ত বিষয়গুলির উপর পরিমাপ করা হয়, প্রাথমিক ফলাফল 5 থেকে 14 পরিসরে সংখ্যাযুক্ত (1dp অবিরত হিসাবে) বাল্ক (সমস্ত ডেটার পয়েন্টগুলির) 7 থেকে 10 এর মধ্যে থাকে যদি আমি এটি করি তবে স্প্যাগেটি প্লট …

11 clustering panel-data

4

কে-মাধ্যমগুলিতে কোনও অনুকূল কে নেই এমন কোনও মামলা রয়েছে?

এটি আমার মনের ভিতরে অন্তত কয়েক ঘন্টা ছিল। আমি কে-মানে অ্যালগরিদম (একটি কোসাইন সাদৃশ্য মেট্রিক সহ ) থেকে আউটপুটটির জন্য একটি অনুকূল কে অনুসন্ধান করার চেষ্টা করছিলাম তাই ক্লাস্টারের সংখ্যার ফাংশন হিসাবে বিকৃতিটি প্লট করে শেষ করেছি। আমার ডেটাসেটটি 600-মাত্রিক জায়গায় 800 টি নথির সংগ্রহ। আমি যা বুঝি সেগুলি থেকে, …

11 machine-learning clustering k-means

5

নামমাত্র / বৃত্তাকার ভেরিয়েবলের জন্য এসওএম ক্লাস্টারিং

কেবল ভাবছেন যে নামমাত্র উপকরণগুলির মধ্যে কেউ ক্লাস্টারিংয়ের সাথে পরিচিত কিনা। আমি সমাধান হিসাবে SOM এ খুঁজছি কিন্তু দৃশ্যত এটি শুধুমাত্র সংখ্যাগত বৈশিষ্ট্যগুলির সাথে কাজ করে। শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য কোনও এক্সটেনশন রয়েছে? বিশেষত আমি সম্ভাব্য বৈশিষ্ট্য হিসাবে 'সপ্তাহের দিনগুলি' নিয়ে ভাবছিলাম। অবশ্যই এটি একটি সংখ্যাসূচক বৈশিষ্ট্যে রূপান্তর করা সম্ভব (অর্থাত …

11 clustering unsupervised-learning self-organizing-maps

2

2 ডি তে বহু-মাত্রিক ডেটা (এলএসআই) ভিজ্যুয়ালাইজ করা

আমি নথিগুলির মধ্যে সাদৃশ্য খুঁজে পেতে সুপ্ত সিমেটিক ইনডেক্সিং ব্যবহার করছি ( ধন্যবাদ, জেএমএস! ) মাত্রা হ্রাসের পরে, আমি কে-মানে ক্লাস্টার করে ডকুমেন্টগুলিকে ক্লাস্টারে গ্রুপ করার জন্য চেষ্টা করেছি, যা খুব ভাল কাজ করে। তবে আমি আরও কিছুটা এগিয়ে যেতে চাই এবং নোডগুলির সেট হিসাবে নথিগুলি ভিজ্যুয়ালাইজ করতে চাই, যেখানে …

11 data-visualization clustering python multidimensional-scaling

3

কে-ই শুরু করার পদ্ধতিগুলি মানে ক্লাস্টারিং

আমি কে-মাধ্যমের জন্য প্রাথমিক বীজ (ক্লাস্টার সেন্টার) বাছাই করার জন্য শিল্পের বর্তমান অবস্থানে আগ্রহী। গুগলিং দুটি জনপ্রিয় পছন্দ বাড়ে: প্রাথমিক বীজের এলোমেলো নির্বাচন, এবং, কেমিয়ানস ++ নির্বাচন কৌশলটি ব্যবহার করে: আর্থার এবং ভ্যাসিলভিটস্কি 2006 কে-মানে ++: যত্নশীল বপনের সুবিধা এখানে এমন যে কোনও প্রতিশ্রুতিবদ্ধ পদ্ধতি রয়েছে যা এখানকার যে কেউ …

11 clustering k-means

1

আর / এমজিসিভি: টি () এবং টিআই () সেন্সর পণ্যগুলি কেন বিভিন্ন উপরিভাগ তৈরি করে?

mgcvপ্যাকেজের Rঝুলানো টেন্সর পণ্যের পারস্পরিক ক্রিয়ার জন্য দুটি ফাংশন আছে: te()এবং ti()। আমি উভয়ের মধ্যে শ্রমের মৌলিক বিভাজন বুঝতে পারি (একটি অ-রৈখিক ইন্টারঅ্যাকশন বনাম বনাম। এই ইন্টারঅ্যাকশনটিকে প্রধান প্রভাব এবং একটি মিথস্ক্রিয়াতে ডেকপোজ করে)। আমি যা বুঝতে পারি না তা হ'ল কেন te(x1, x2)এবং ti(x1) + ti(x2) + ti(x1, x2)(কিছুটা) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

একটি বিশাল বাইনারি ডেটাসেটকে কয়েকটি বিভাগে গুচ্ছ করার জন্য আমার কোন অ্যালগরিদম ব্যবহার করা উচিত?

আমার কাছে বাইনারি ডেটার একটি বৃহত (650 কে সারি * 62 কলাম) ম্যাট্রিক্স (কেবলমাত্র 0-1 টি এন্ট্রি) রয়েছে। ম্যাট্রিক্স বেশিরভাগ ক্ষেত্রে বিরল: প্রায় 8% ভরা হয়। আমি এটি 5 টি গ্রুপে ক্লাস্টার করতে চাই - 1 থেকে 5 পর্যন্ত নাম বলুন I আমি শ্রেণিবদ্ধ ক্লাস্টারিং চেষ্টা করেছি এবং এটি আকারটি …

11 clustering dataset k-means binary-data

3

গুচ্ছ সমাধানগুলি মূল্যায়নের জন্য দুটি গাউসিয়ান মিশ্রণের মধ্যে দূরত্ব

আমি বিভিন্ন ক্লাস্টারিং পদ্ধতির তুলনা করার জন্য একটি দ্রুত সিমুলেশন চালাচ্ছি এবং বর্তমানে ক্লাস্টার সমাধানগুলি মূল্যায়নের চেষ্টা করে একটি ছিটকেছি hit আমি বিভিন্ন বৈধতা মেট্রিকগুলি জানি (অনেকগুলি ক্লাস্টার.স্ট্যাটসে ( আর-তে পাওয়া যায় ) ) তবে আমি অনুমান করি যে ক্লাস্টারের আনুমানিক সংখ্যা প্রকৃত সংখ্যার ক্লাস্টারের সংখ্যার সমান হলে সেগুলি সবচেয়ে …

11 clustering kullback-leibler gaussian-mixture

2

সাজানো তথ্যের সংগ্রহ কীভাবে 'বুদ্ধি করে' বিন করবেন?

আমি বুদ্ধি করে একটি সাজানো সংগ্রহ বিনে চেষ্টা করছি। আমার কাছে টুকরোগুলির সংকলন রয়েছে । কিন্তু আমি জানি যে মধ্যে এই তথ্য তড়কা মি অসম মাপের বিন। ডেটা সঠিকভাবে ফিট করার জন্য কীভাবে বুদ্ধিমানভাবে শেষের পয়েন্টগুলি চয়ন করবেন তা আমি জানি না। উদাহরণ স্বরূপ:nnnmmm বলুন যে আমার সংগ্রহে আমার কাছে …

11 clustering histogram binning

5

লজিস্টিক রিগ্রেশন জন্য ডেটা বিভক্ত করার একটি উপায় হিসাবে ক্লাস্টারিং

আমি একটি লজিস্টিক রিগ্রেশন মডেল সহ কিছু বৈশিষ্ট্যের ভিত্তিতে শিক্ষার্থীদের সাফল্য বা ব্যর্থতার পূর্বাভাস দেওয়ার চেষ্টা করছি। মডেলটির কর্মক্ষমতা উন্নত করতে, আমি ইতিমধ্যে স্পষ্ট পার্থক্যের ভিত্তিতে শিক্ষার্থীদের বিভিন্ন গ্রুপে বিভক্ত করার এবং প্রতিটি গ্রুপের জন্য পৃথক মডেল তৈরি করার বিষয়ে চিন্তা করেছি। তবে আমি মনে করি পরীক্ষার মাধ্যমে এই গোষ্ঠীগুলি …

11 clustering data-mining logistic

প্রশ্ন ট্যাগ «clustering»