তথ্য বিজ্ঞান

ডেটা সায়েন্স পেশাদার, মেশিন লার্নিং বিশেষজ্ঞ এবং ক্ষেত্র সম্পর্কে আরও শিখতে আগ্রহী ব্যক্তিদের জন্য প্রশ্নোত্তর

5
নথির মধ্যে দূরত্ব গণনার কয়েকটি মানক উপায় কী?
আমি যখন "ডকুমেন্ট" বলি তখন আমার উইকিপিডিয়া নিবন্ধ এবং নিউজ স্টোরিগুলির মতো ওয়েব পৃষ্ঠাগুলি মনে থাকে। আমি উত্তরগুলি পছন্দ করি ভ্যানিলা লেজিকাল দূরত্বের মেট্রিকগুলি বা অত্যাধুনিক সিমেটিক দূরত্বের মেট্রিকগুলি উত্তরগুলির জন্য আরও দৃference় পছন্দ সহ giving

7
ডেটা পরিষ্কার করার জন্য সংগঠিত প্রক্রিয়াগুলি
আর ব্যবহার করে ডেটা বিজ্ঞানের সাথে আমার সীমাবদ্ধ ছোঁড়াছুড়ি থেকে বুঝতে পেরেছিলাম যে খারাপ ডেটা পরিষ্কার করা বিশ্লেষণের জন্য ডেটা প্রস্তুতের একটি খুব গুরুত্বপূর্ণ অঙ্গ। ডেটা প্রক্রিয়াকরণের আগে কোনও পরিষ্কার পদ্ধতি বা প্রক্রিয়া আছে? যদি তা হয় তবে এমন কোনও স্বয়ংক্রিয় বা অর্ধ-স্বয়ংক্রিয় সরঞ্জাম রয়েছে যা এই কয়েকটি সেরা অভ্যাস …
34 r  data-cleaning 

3
কেরাসে মাল্টি জিপিইউ
কীভাবে আপনি একাধিক জিপিইউতে পার্টিশন প্রশিক্ষণের জন্য কেরাস লাইব্রেরিতে (বা টেনসরফ্লো) প্রোগ্রাম করতে পারেন? ধরা যাক যে আপনি একটি অ্যামাজন ই সি 2 উদাহরণে রয়েছেন যার 8 টি জিপিইউ রয়েছে এবং আপনি দ্রুত প্রশিক্ষণের জন্য সেগুলি ব্যবহার করতে চান তবে আপনার কোডটি কেবল একটি সিপিইউ বা জিপিইউর জন্য।

5
পান্ডার সাহায্যে বিশ্লেষণের জন্য একটি 20 জিবি ফাইল খোলা হচ্ছে
আমি বর্তমানে মেশিন লার্নিংয়ের জন্য পান্ডাস এবং অজগর সহ একটি ফাইল খোলার চেষ্টা করছি এটি আমার কাছে সমস্ত ডেটা ফ্রেমে রাখাই আদর্শ হবে। এখন ফাইলটি 18 গিগাবাইট বড় এবং আমার র‍্যাম 32 গিগাবাইট তবে আমি মেমরির ত্রুটি পেতে থাকি। আপনার অভিজ্ঞতা থেকে এটা সম্ভব? যদি না হয় আপনি এই কাছাকাছি …

4
নয়েজ কনট্রাস্টিভ এস্টিমেশন (এনসিই) ক্ষতির স্বজ্ঞাত ব্যাখ্যা?
আমি এই দুটি উত্স থেকে এনসিই (প্রার্থী নমুনার একটি ফর্ম) সম্পর্কে পড়েছি: টেনসরফ্লো রাইটিংআপ মূল কাগজ নিম্নলিখিত কেউ আমাকে কেউ সাহায্য করতে পারে: এনসিই কীভাবে কাজ করে তার একটি সহজ ব্যাখ্যা (আমি উপরেরটিকে পার্স করা এবং একটি বোঝার পক্ষে জটিল ধারণা পেয়েছি, সুতরাং এমন কোনও স্বজ্ঞাত যা এখানে উপস্থাপনিত গণিতের …

5
অ্যাপাচি স্পার্ক বনাম হাদুপের ব্যবহারের ক্ষেত্রে কী কী?
হ্যাডোপ ২.০ এবং ইয়ার্নের সাথে হ্যাডোপ আর মানচিত্র-হ্রাস সমাধানের সাথে আর বাঁধা থাকে না। এই অগ্রগতির সাথে, এইচডিএফএসের শীর্ষে বসে উভয় বিবেচনা করে অ্যাপাচি স্পার্ক বনাম হাদুপের ব্যবহারের ক্ষেত্রে কী কী? আমি স্পার্কের জন্য পরিচয়পত্রের ডকুমেন্টেশনটি পড়েছি, তবে আমি আগ্রহী যদি কেউ হ্যাডোপের তুলনায় স্পার্কের সাথে সমাধান করা আরও দক্ষ …

1
কাগজ: লেয়ার নরমালাইজেশন, পুনরাবৃত্ত ব্যাচ নরমালাইজেশন (2016) এবং ব্যাচ নরমালাইজড আরএনএন (2015) এর মধ্যে পার্থক্য কী?
সুতরাং, সম্প্রতি একটি স্তর সাধারণকরণের কাগজ রয়েছে। এর রয়েছে তা একটি বাস্তবায়ন Keras উপর। তবে আমার মনে আছে পুনরাবৃত্ত ব্যাচ নরমালাইজেশন (কুইজম্যানস, ২০১)) এবং ব্যাচ নর্মালাইজড রিচারেন্ট নিউরাল নেটওয়ার্কস (লরেন্ট, ২০১৫) শিরোনামে কাগজপত্র রয়েছে । এই তিনজনের মধ্যে পার্থক্য কী? এই সম্পর্কিত কাজের বিভাগটি আমি বুঝতে পারি না: ব্যাচের সাধারণকরণ …

1
বহু শ্রেণীর শ্রেণিবিন্যাসের জন্য সেরা কেরাস মডেল কী?
আমি গবেষণা, কাজ করছি যেখানে তিনটি ঘটনা বিজয়ী শ্রেণীভুক্ত এক করার প্রয়োজনীয়তা = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 আমার বর্তমান মডেলটি হ'ল: def build_model(input_dim, …

5
ডিপ লার্নিং বনাম গ্রেডিয়েন্ট বুস্টিং: কখন কী ব্যবহার করবেন?
বড় ডেটাসেট নিয়ে আমার বড় ডেটা সমস্যা রয়েছে (উদাহরণস্বরূপ 50 মিলিয়ন সারি এবং 200 কলাম) take ডেটাসেটটিতে প্রায় 100 সংখ্যার কলাম এবং 100 শ্রেণীবদ্ধ কলাম এবং একটি প্রতিক্রিয়া কলাম থাকে যা বাইনারি শ্রেণীর সমস্যা উপস্থাপন করে। প্রতিটি শ্রেণীবদ্ধ কলামের কার্ডিনালিটি 50 এরও কম। আমি গভীর শিক্ষা গ্রহণ পদ্ধতি বা বৃক্ষভিত্তিক …

3
সফটম্যাক্স শ্রেণিবদ্ধে, কেন সাধারণীকরণের জন্য এক্সপ্যাক্ট ফাংশন ব্যবহার করবেন?
স্ট্যান্ডার্ড নরমালাইজের বিপরীতে সফটম্যাক্স কেন ব্যবহার করবেন? এই প্রশ্নের শীর্ষ উত্তরের মন্তব্যে, @ কিলিয়ান ব্যাটজনার ২ টি প্রশ্ন উত্থাপন করেছেন যা আমাকেও বিভ্রান্ত করে। দেখে মনে হচ্ছে সংখ্যার সুবিধাগুলি ব্যতীত অন্য কেউ ব্যাখ্যা দেয় না। আমি ক্রস-এন্ট্রপি ক্ষতি ব্যবহারের কারণগুলি পেয়েছি, তবে কীভাবে এটি সফটম্যাক্সের সাথে সম্পর্কিত? আপনি বলেছিলেন "সফটম্যাক্স …

5
কিউ ফাংশনটি কী এবং সংযুক্তি শিক্ষার ক্ষেত্রে ভি ফাংশন কী?
আমার কাছে মনে হয় VVV ফাংশনটি সহজেই QQQ ফাংশন দ্বারা প্রকাশ করা যেতে পারে এবং এইভাবে VVV ফাংশনটি আমার কাছে অতিরিক্ত প্রয়োজন বলে মনে হয়। তবে, আমি পুনর্বহাল শেখার ক্ষেত্রে নতুন তাই আমার ধারণা যে আমি কিছু ভুল করেছি got সংজ্ঞা প্রশ্ন- এবং ভি-লার্নিং মার্কোভ সিদ্ধান্ত প্রক্রিয়াগুলির প্রসঙ্গে রয়েছে । …

7
মেশিন লার্নিংয়ের কাজে ডেটা পরিবর্তন করা উচিত কেন
মেশিন লার্নিংয়ের কার্যগুলিতে ডেটা বদলানো এবং এটি স্বাভাবিক করা সাধারণ। সাধারণকরণের উদ্দেশ্যটি পরিষ্কার (বৈশিষ্ট্যের মানগুলির একই পরিসীমা থাকার জন্য)। তবে, অনেক লড়াই করার পরেও আমি ডেটা বদল করার কোনও মূল্যবান কারণ খুঁজে পাইনি। আমাদের যখন ডেটা বদলানো দরকার তখন আমি এখানে এই পোস্টটি পড়ে আলোচনা করেছি, তবে কেন ডেটা বদলানো …

2
গ্রাউন্ড ট্রুথ কি
মেশিন লার্নিংয়ের প্রসঙ্গে আমি গ্রাউন্ড ট্রুথ শব্দটি অনেক ব্যবহার করে দেখেছি । আমি অনেক অনুসন্ধান করেছি এবং উইকিপিডিয়ায় নিম্নলিখিত সংজ্ঞাটি পেয়েছি : মেশিন লার্নিংয়ে, "গ্রাউন্ড ট্রুথ" শব্দটি তত্ত্বাবধানে শেখার কৌশলগুলির জন্য প্রশিক্ষণের সেটটির শ্রেণিবিন্যাসের যথার্থতা বোঝায়। এটি গবেষণা অনুমানকে প্রমাণ বা প্রমাণ করতে স্ট্যাটিস্টিকাল মডেলগুলিতে ব্যবহৃত হয়। "গ্রাউন্ড ট্রুথিং" শব্দটি …

5
তালিকাগুলির একটি তালিকাকে পান্ডাস ডেটাফ্রেমে রূপান্তর করুন
আমি নীচের মত দেখতে তালিকার একটি তালিকাকে পান্ডাস ডেটাফ্রেমে রূপান্তরিত করার চেষ্টা করছি [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' …
30 pandas 

1
এক্সজিবিস্ট স্কলারন গ্রেডিয়েন্টবুস্টিং ক্লাসিফায়ারের চেয়ে এত দ্রুত কেন?
আমি 100 সংখ্যার বৈশিষ্ট্য সহ 50 কে উদাহরণের মাধ্যমে গ্রেডিয়েন্ট বুস্টিং মডেলটি প্রশিক্ষণের চেষ্টা করছি। XGBClassifierআমার মেশিনে 43 সেকেন্ডের মধ্যে 500 গাছ হ্যান্ডল করে, যখন GradientBoostingClassifier1 মিনিট 2 সেকেন্ডের মধ্যে কেবল 10 টি গাছ (!) পরিচালনা করে :( আমি কয়েক ঘন্টা লাগবে বলে 500 গাছ বাড়ানোর চেষ্টা করতে বিরক্ত করিনি। …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.