পরিসংখ্যান এবং বড় তথ্য data-mining

2

একটি গ্রুপে বৃহত্তম অবদানকারী নির্ধারণ করা

আমি পরিসংখ্যান সম্পর্কে খুব বেশি জানি না তাই আমাকে সহ্য করুন। ধরা যাক আমার কাছে এক হাজার কর্মী রয়েছে। আমি সবচেয়ে কঠোর কর্মী কে তা নির্ধারণ করতে চাই তবে আমি কেবল এক ঘন্টার কাজের সময় 1-100 এর দলে কাজ করার পরিমাণটি পরিমাপ করতে পারি। প্রতিটি শ্রমিক সর্বদা একই পরিমাণে কাজ …

9 r regression data-mining

2

সমর্থন ভেক্টর মেশিনগুলির সাথে গামা পরামিতি ব্যবহার

ব্যবহার করার সময় libsvm, প্যারামিটারγγ\gammaকার্নেল ফাংশনের জন্য প্যারামিটার। এর ডিফল্ট মান হিসাবে সেটআপ করা হয়γ=1বৈশিষ্ট্য সংখ্যা।γ=1বৈশিষ্ট্য সংখ্যা।\gamma = \frac{1}{\text{number of features.}} বিদ্যমান পন্থাগুলি যেমন গ্রিড অনুসন্ধানের পাশাপাশি এই প্যারামিটারটি স্থাপনের জন্য কি কোনও তাত্ত্বিক দিকনির্দেশনা রয়েছে?

9 machine-learning svm data-mining libsvm kernel-trick

2

সংবেদন বিশ্লেষণ বুঝতে এবং প্রয়োগ করা

আমাকে কিছু নথি সংগ্রহের জন্য অনুভূতি বিশ্লেষণ পরিচালনার একটি প্রকল্প অর্পণ করা হয়েছিল। গুগলিংয়ের মাধ্যমে, সংবেদন-সম্পর্কিত অনেক গবেষণা পপ আপ হয়েছে। আমার প্রশ্নগুলি হ'ল: মেশিন লার্নিং এবং স্ট্যাটিস্টিকাল অ্যানালাইসিসের ক্ষেত্রে সেন্টিমেন্ট বিশ্লেষণের প্রধান পদ্ধতি / অ্যালগরিদম কী কী? কোনও সুপ্রতিষ্ঠিত ফলাফল আছে কি? অনুভূতি বিশ্লেষণ সম্পাদন করতে পারে এমন কোন …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

শ্রেণিবদ্ধকরণের জন্য প্রশিক্ষণ সেট থেকে সদৃশ সরিয়ে ফেলুন

আমাদের বলি যে একটি শ্রেণিবিন্যাস সমস্যার জন্য আমার কাছে একগুচ্ছ সারি রয়েছে: এক্স1, । । ।এক্সএন, Yএক্স1,।।।এক্সএন,ওয়াইX_1, ... X_N, Y কোথায় এক্স1, । । । ,এক্সএনএক্স1,।।।,এক্সএনX_1, ..., X_N বৈশিষ্ট্য / ভবিষ্যদ্বাণীকারী এবং ওয়াইওয়াইY সারিটির বৈশিষ্ট্য সংমিশ্রণটি শ্রেণীর সাথে সম্পর্কিত। অনেক বৈশিষ্ট্য সমন্বয় এবং তাদের ক্লাসগুলি ডেটাসেটে পুনরাবৃত্তি হয়, যা আমি …

9 machine-learning classification data-mining logistic stratification

5

পিয়ারসন পারস্পরিক সম্পর্কের বাইরে আমি কী করতে পারি?

দুটি ভেরিয়েবল পারস্পরিক সম্পর্কযুক্ত কিনা তা যাচাই করার সময়, আমি পর্যবেক্ষণ করেছি যে পিয়ারসন পারস্পরিক সম্পর্ক প্রয়োগের ফলে 0.1 এর চেয়ে কম সংখ্যক ফল পাওয়া গেছে যার সাথে কোনও সম্পর্ক নেই। এই দাবিটি জোরদার করতে আমি কি কিছু করতে পারি? ডেটাসেট (পোস্ট সীমাবদ্ধতার কারণে সাবসেট) আমি যা দেখছি তা হ'ল: …

9 correlation data-mining pearson-r

3

খুব বড় ডেটাসেট থেকে কীভাবে দ্রুত গুরুত্বপূর্ণ ভেরিয়েবলগুলি নির্বাচন করবেন?

আমার প্রায় 2000 বাইনারি ভেরিয়েবল / 200,000 সারি সহ একটি ডেটাসেট রয়েছে এবং আমি একক বাইনারি নির্ভরশীল ভেরিয়েবলের পূর্বাভাস দেওয়ার চেষ্টা করছি। আমার এই পর্যায়ে প্রধান লক্ষ্য পূর্বাভাসের সঠিকতা পাচ্ছে না, বরং এর মধ্যে কোনটি পরিবর্তনশীল গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী তা সনাক্ত করার জন্য identify আমি আমার চূড়ান্ত মডেলটিতে ভেরিয়েবলের সংখ্যা প্রায় …

9 machine-learning data-mining large-data

3

সরল ইংরেজিতে এপ্রোরি অ্যালগরিদম?

আমি এপ্রিওরি সম্পর্কে উইকি নিবন্ধটি পড়ি। ছাঁটাই এবং যোগদানের পদক্ষেপটি বুঝতে আমার সমস্যা হয়। কেউ কি আমাকে ব্যাখ্যা করতে পারেন যে কীভাবে এপরিওরি অ্যালগরিদম সহজ ভাষায় কাজ করে (যেমন আমার মতো নোভিস সহজেই বুঝতে পারে)? এটির সাথে যুক্ত কেউ যদি ধাপে ধাপে প্রক্রিয়াটি ব্যাখ্যা করে তবে ভাল হবে।

9 data-mining algorithms frequentist

2

বাইক্লাস্টারিং দিয়ে শুরু করা

আমি বাইক্লাস্টারগুলিতে কিছু নৈমিত্তিক ইন্টারনেট গবেষণা করে চলেছি। (আমি বেশ কয়েকবার উইকি নিবন্ধটি পড়েছি।) এখনও অবধি মনে হচ্ছে কয়েকটি সংজ্ঞা বা মান পরিভাষা রয়েছে। আমি ভাবছিলাম যে কোনও মানক কাগজপত্র বা বই আছে যা বাইক্লাস্টার সন্ধানের জন্য অ্যালগরিদমে আগ্রহী যে কেউ পড়তে হবে। ক্ষেত্রের শিল্পের অবস্থা কী বলা যায়? জেনেটিক …

9 clustering data-mining

2

ডেটার জন্য আরওসি বক্ররেখার গণনা করুন

সুতরাং, আমার 16 টি ট্রায়াল রয়েছে যার মধ্যে আমি হামিং দূরত্ব ব্যবহার করে কোনও ব্যক্তিকে বায়োমেট্রিক বৈশিষ্ট্য থেকে প্রমাণীকরণের চেষ্টা করছি। আমার প্রান্তিকতা 3.5 এ সেট করা হয়েছে। আমার ডেটা নীচে রয়েছে এবং কেবল 1 টি পরীক্ষা সত্য পজিটিভ: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

প্রশ্ন ট্যাগ «data-mining»