তথ্য বিজ্ঞান bigdata

12

প্রচুর লোকেরা বিগ ডেটা শব্দটি বরং বাণিজ্যিক উপায়ে ব্যবহার করে, এটি বোঝানোর উপায় হিসাবে যে বড় ডেটাসেটগুলি গণিতে জড়িত, এবং সুতরাং সম্ভাব্য সমাধানগুলির অবশ্যই ভাল পারফরম্যান্স থাকতে হবে। অবশ্যই, বড় ডেটা সর্বদা স্কেলাবিলিটি এবং দক্ষতার সাথে সম্পর্কিত পদগুলি বহন করে, তবে কোন সমস্যাটিকে একটি বড় ডেটা সমস্যা হিসাবে ঠিক সংজ্ঞায়িত …

86 bigdata scalability efficiency performance

9

বি ভাষা জন্য উপযুক্ত ভাষা

আর এর অনেকগুলি লাইব্রেরি রয়েছে যা ডেটা অ্যানালাইসিসকে লক্ষ্য করে (যেমন জেএজিএস, বুগস, আর্টস ইত্যাদি ..), এবং জনপ্রিয় পাঠ্যপুস্তকগুলিতে যেমন উল্লেখ করা হয়েছে: জে.ক্রাশে, ব্যয়েসিয়ান ডেটা বিশ্লেষণ করা; বি। ল্যান্টজ, "মেশিন লার্নিং উইথ আর"। বিগ ডেটা হিসাবে বিবেচনা করার জন্য একটি ডেটাসেটের জন্য আমি 5 টিবির গাইডলাইন দেখেছি। আমার প্রশ্নটি …

48 bigdata r

9

বিপুল পরিমাণে (বাইনারি) ডেটা সংস্করণ নিয়ন্ত্রণের জন্য কীভাবে ডিল করবেন

আমি জিওফিজিক্সের পিএইচডি শিক্ষার্থী এবং বিপুল পরিমাণে চিত্রের ডেটা (শত শত জিবি, কয়েক হাজার ফাইল) নিয়ে কাজ করি। আমি জানি svnএবং gitমোটামুটি ভাল এবং সহজেই একসাথে কাজ করার এবং ডিস্ক দুর্নীতির বিরুদ্ধে সুরক্ষার সক্ষমতা সহ এক প্রকল্পের ইতিহাসের মূল্য দিতে এসেছি। gitধারাবাহিক ব্যাকআপ রাখার জন্য আমি অত্যন্ত সহায়ক বলে মনে …

46 bigdata databases binary version-control

11

সি (বা সি ++) তে ডেটা সায়েন্স

আমি একটি Rভাষা প্রোগ্রামার। আমি এমন লোকদের দলে রয়েছি যারা ডেটা সায়েন্টিস্ট হিসাবে বিবেচিত তবে যারা সিএস ব্যতীত একাডেমিক শাখা থেকে আসে। এটি ডেটা সায়েন্টিস্ট হিসাবে আমার ভূমিকায় ভালভাবে কাজ করে, তবে আমার ক্যারিয়ার শুরু করে Rএবং কেবলমাত্র অন্যান্য স্ক্রিপ্টিং / ওয়েব ভাষার প্রাথমিক জ্ঞান অর্জন করে আমি 2 টি …

40 machine-learning bigdata statistics programming c

9

ডেটা সায়েন্টিস্ট হওয়ার জন্য আমার কি হ্যাডোপ শিখতে হবে?

এখানে একটি উচ্চাকাঙ্ক্ষী তথ্য বিজ্ঞানী। আমি হ্যাডোপ সম্পর্কে কিছুই জানি না, তবে আমি যেমন ডেটা সায়েন্স এবং বিগ ডেটা সম্পর্কে পড়ছি, হ্যাডোপ সম্পর্কে আমি অনেকগুলি আলোচনা দেখতে পাচ্ছি। ডেটা সায়েন্টিস্ট হওয়ার জন্য হাদোপকে শেখা কি একেবারেই প্রয়োজনীয়?

38 bigdata apache-hadoop

5

পান্ডার সাহায্যে বিশ্লেষণের জন্য একটি 20 জিবি ফাইল খোলা হচ্ছে

আমি বর্তমানে মেশিন লার্নিংয়ের জন্য পান্ডাস এবং অজগর সহ একটি ফাইল খোলার চেষ্টা করছি এটি আমার কাছে সমস্ত ডেটা ফ্রেমে রাখাই আদর্শ হবে। এখন ফাইলটি 18 গিগাবাইট বড় এবং আমার র‍্যাম 32 গিগাবাইট তবে আমি মেমরির ত্রুটি পেতে থাকি। আপনার অভিজ্ঞতা থেকে এটা সম্ভব? যদি না হয় আপনি এই কাছাকাছি …

33 python bigdata pandas anaconda

1

এক্সজিবিস্ট স্কলারন গ্রেডিয়েন্টবুস্টিং ক্লাসিফায়ারের চেয়ে এত দ্রুত কেন?

আমি 100 সংখ্যার বৈশিষ্ট্য সহ 50 কে উদাহরণের মাধ্যমে গ্রেডিয়েন্ট বুস্টিং মডেলটি প্রশিক্ষণের চেষ্টা করছি। XGBClassifierআমার মেশিনে 43 সেকেন্ডের মধ্যে 500 গাছ হ্যান্ডল করে, যখন GradientBoostingClassifier1 মিনিট 2 সেকেন্ডের মধ্যে কেবল 10 টি গাছ (!) পরিচালনা করে :( আমি কয়েক ঘন্টা লাগবে বলে 500 গাছ বাড়ানোর চেষ্টা করতে বিরক্ত করিনি। …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

কীভাবে বড় ডেটা সহ এসভিডি এবং পিসিএ করবেন?

আমার কাছে প্রচুর ডেটা রয়েছে (প্রায় 8 জিবি)। আমি এটি বিশ্লেষণ করতে মেশিন লার্নিং ব্যবহার করতে চাই। সুতরাং, আমি মনে করি দক্ষতার জন্য ডেটা মাত্রিকতা হ্রাস করার জন্য আমার এসভিডি তখন পিসিএ ব্যবহার করা উচিত। তবে ম্যাটল্যাব এবং অকটাভ এত বড় ডেটাসেট লোড করতে পারে না। এত বড় ডেটা দিয়ে …

29 bigdata data-mining dimensionality-reduction

3

তথ্য বিজ্ঞান প্রকল্পের ধারণা [বন্ধ]

বন্ধ । এই প্রশ্নটি মতামত ভিত্তিক । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে পোস্টটি সম্পাদনা করে সত্য এবং উদ্ধৃতি দিয়ে উত্তর দেওয়া যায় । 5 বছর আগে বন্ধ । এই প্রশ্নটি জিজ্ঞাসা করার উপযুক্ত জায়গা কিনা তা আমি জানি না, তবে …

23 machine-learning bigdata dataset

4

বিশাল ডেটার জন্য পাইথনে টি-স্নে বাস্তবায়নের গতি উন্নত করুন

আমি 200 টি মাত্রা ( doc2vec) সহ প্রায় 1 মিলিয়ন ভেক্টরগুলিতে মাত্রিকতা হ্রাস করতে চাই । আমি এর জন্য মডিউল TSNEথেকে বাস্তবায়নটি ব্যবহার করছি sklearn.manifoldএবং প্রধান সমস্যাটি সময় জটিলতা is এমনকি method = barnes_hut, গণনার গতি এখনও কম। কিছু সময় এমনকি এটি মেমরির বাইরে চলে যায়। আমি এটিকে 130 জি …

18 python bigdata nlp scikit-learn dimensionality-reduction

2

অর্থ বিশ্লেষণের জন্য বড় ডেটাতে লাইবলাইনার ব্যবহার করুন

আমি ডেটা প্রশিক্ষণের জন্য লিবিএসভিএম ব্যবহার করি এবং শব্দার্থ বিশ্লেষণ সমস্যার উপর শ্রেণিবিন্যাসের পূর্বাভাস করি । তবে এটি বৃহত আকারের ডেটাতে পারফরম্যান্সের সমস্যা রয়েছে কারণ শব্দার্থবিজ্ঞানের বিশ্লেষণে এন-ডাইমেনশন সমস্যা উদ্বেগ । গত বছর, লিবলাইনার মুক্তি পেয়েছিল এবং এটি পারফরম্যান্সের বাধা সমাধান করতে পারে। তবে এটির জন্য খুব বেশি স্মৃতি ব্যয় …

17 machine-learning bigdata libsvm

5

সামুদ্রিক হটম্যাপটি আরও বড় করুন

আমি corr()একটি আসল df এর বাইরে একটি df তৈরি করি । corr()Df প্রয়োগ আউট 70 এক্স 70 এসে তা হিটম্যাপ ঠাহর করা অসম্ভব ... sns.heatmap(df)। যদি আমি এটি প্রদর্শনের চেষ্টা করি corr = df.corr(), টেবিলটি স্ক্রিনের সাথে খাপ খায় না এবং আমি সমস্ত সম্পর্কিততা দেখতে পাচ্ছি। dfএটির আকার নির্বিশেষে পুরো …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

ডেটা সায়েন্সে নোএসকিউএল ডাটাবেসের ব্যবহার

ডেঙ্গু বিশ্লেষণের জন্য মঙ্গোডিবি-র মতো নোএসকিউএল ডাটাবেসগুলি কীভাবে ব্যবহার করা যেতে পারে? এগুলির মধ্যে কী কী বৈশিষ্ট্য যা ডেটা বিশ্লেষণকে দ্রুত এবং শক্তিশালী করতে পারে?

16 bigdata nosql mongodb

4

উদাহরণস্বরূপ অবকাঠামো স্ট্যাক / ওয়ার্কফ্লো / পাইপলাইনগুলির সন্ধান করছেন

আমি বুঝতে চেষ্টা করছি যে সমস্ত "বিগ ডেটা" উপাদানগুলি বাস্তব বিশ্বের ব্যবহারের ক্ষেত্রে কীভাবে একসাথে খেলছে, যেমন হ্যাডোপ, মনোগডবি / নোসকিএল, ঝড়, কাফকা, ... আমি জানি যে এটি বেশ বিস্তৃত সরঞ্জামগুলির জন্য ব্যবহৃত হয় বিভিন্ন ধরণের, তবে আমি অ্যাপ্লিকেশনগুলিতে তাদের মিথস্ক্রিয়া সম্পর্কে আরও জানতে চাই, যেমন কোনও অ্যাপ্লিকেশন, ওয়েবঅ্যাপ, অনলাইন …

14 machine-learning bigdata efficiency scalability distributed

3

পি-ভ্যালু কখন প্রতারক হয়?

আমাদের কীভাবে ডেটা শর্তগুলির জন্য নজর রাখা উচিত, যেখানে পি-মানগুলি পরিসংখ্যানিক তাত্পর্যটি নির্ধারণের সেরা উপায় নাও হতে পারে? এই বিভাগে আসা কোনও নির্দিষ্ট ধরণের সমস্যা রয়েছে?

14 bigdata statistics

প্রশ্ন ট্যাগ «bigdata»