তথ্য বিজ্ঞান

ডেটা সায়েন্স পেশাদার, মেশিন লার্নিং বিশেষজ্ঞ এবং ক্ষেত্র সম্পর্কে আরও শিখতে আগ্রহী ব্যক্তিদের জন্য প্রশ্নোত্তর

5
আমার কি 'ভারসাম্যপূর্ণ' ডেটাসেট বা 'প্রতিনিধি' ডেটাসেটের জন্য যাওয়া উচিত?
আমার 'মেশিন লার্নিং' কাজটি হ'ল সৌখিন ইন্টারনেট ট্র্যাফিককে দূষিত ট্র্যাফিক থেকে আলাদা করা। বাস্তব বিশ্বের পরিস্থিতিতে, ইন্টারনেট ট্র্যাফিক সর্বাধিক (90% বা তার বেশি বলুন) সৌম্য। সুতরাং আমি অনুভব করেছি যে আমার মডেলগুলিকে প্রশিক্ষণের জন্যও আমার অনুরূপ ডেটা সেটআপ চয়ন করা উচিত। তবে আমি একটি গবেষণামূলক কাগজ পেরিয়ে এসেছি বা দুটি …

9
বিপুল পরিমাণে (বাইনারি) ডেটা সংস্করণ নিয়ন্ত্রণের জন্য কীভাবে ডিল করবেন
আমি জিওফিজিক্সের পিএইচডি শিক্ষার্থী এবং বিপুল পরিমাণে চিত্রের ডেটা (শত শত জিবি, কয়েক হাজার ফাইল) নিয়ে কাজ করি। আমি জানি svnএবং gitমোটামুটি ভাল এবং সহজেই একসাথে কাজ করার এবং ডিস্ক দুর্নীতির বিরুদ্ধে সুরক্ষার সক্ষমতা সহ এক প্রকল্পের ইতিহাসের মূল্য দিতে এসেছি। gitধারাবাহিক ব্যাকআপ রাখার জন্য আমি অত্যন্ত সহায়ক বলে মনে …

9
আর প্রোগ্রামিংয়ের জন্য আইডিই বিকল্পগুলি (আরস্টুডিও, ইন্টেলিজ আইডিইএ, এক্স্লিপস, ভিজ্যুয়াল স্টুডিও)
আমি আর প্রোগ্রামিংয়ের জন্য আর স্টুডিও ব্যবহার করি। আমি ভিজুয়াল স্টুডিও বা এক্লিপসের মতো অন্যান্য প্রযুক্তি স্ট্যাকের কঠিন আইডিই-গুলি সম্পর্কে মনে করি। আমার দুটি প্রশ্ন আছে: আরস্টুডিওর চেয়ে অন্য আইডিই-গুলি কী ব্যবহার করা হয় (দয়া করে তাদের সম্পর্কে কিছু সংক্ষিপ্ত বিবরণ প্রদান বিবেচনা করুন)। আরস্টুডিওর চেয়ে তাদের কি কোনও সুবিধাজনক …
46 r  tools  rstudio  programming 

10
মেশিন লার্নিং - তারিখ / সময় ডেটা থেকে ইঞ্জিনিয়ারিং বৈশিষ্ট্যযুক্ত
মেশিন লার্নিং অ্যাপ্লিকেশনের সময় ডেটা পরিচালনা করার জন্য সাধারণ / সেরা অনুশীলনগুলি কী কী? উদাহরণস্বরূপ, যদি ডেটা সেটে ইভেন্টের টাইমস্ট্যাম্প সহ একটি কলাম থাকে, যেমন "2014-05-05", আপনি কীভাবে এই কলামটি থেকে দরকারী বৈশিষ্ট্যগুলি বের করতে পারেন? আগাম ধন্যবাদ!

9
ডেটা র‌্যাংলিংয়ে ডেটা বিজ্ঞানীর কাজ কত?
আমি বর্তমানে একটি খুচরা সংস্থায় ডেটা বিজ্ঞানী হিসাবে কাজ করছি (ডিএস হিসাবে আমার প্রথম কাজ, সুতরাং এই প্রশ্নটি আমার অভিজ্ঞতার অভাবে হতে পারে)। তাদের কাছে সত্যিকারের গুরুত্বপূর্ণ ডেটা বিজ্ঞান প্রকল্পগুলির একটি বিশাল ব্যাকলগ রয়েছে যা প্রয়োগ করা হলে দুর্দান্ত ইতিবাচক প্রভাব ফেলবে। কিন্তু। ডেটা পাইপলাইনগুলি সংস্থার মধ্যে অস্তিত্বহীন, স্ট্যান্ডার্ড পদ্ধতিটি …

3
একটি এলএসটিএম মডেলের পরামিতিগুলির সংখ্যা
একটি একক স্ট্যাকড এলএসটিএম এর কতটি পরামিতি রয়েছে? প্যারামিটারের সংখ্যা প্রয়োজনীয় প্রশিক্ষণের উদাহরণগুলির সংখ্যার উপর কম চাপ দেয় এবং প্রশিক্ষণের সময়কেও প্রভাবিত করে। সুতরাং প্যারামিটারের সংখ্যা জানার জন্য এলএসটিএম ব্যবহার করে প্রশিক্ষণের মডেলগুলি কার্যকর।

6
আমি কীভাবে গোপনীয় উপাত্তগুলিতে নামগুলি বেনামে রাখার জন্য নামগুলি রূপান্তর করতে পারি, তবে নামের কিছু বৈশিষ্ট্য সংরক্ষণ করতে পারি?
প্রেরণা আমি এমন ডেটাসেটের সাথে কাজ করি যা ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (পিআইআই) ধারণ করে এবং কখনও কখনও তৃতীয় পক্ষের সাথে কোনও ডেটাসেটের অংশ ভাগ করে নেওয়া দরকার, যাতে পিআইআই প্রকাশিত হয় না এবং আমার নিয়োগকর্তাকে দায়বদ্ধ করে subject এখানে আমাদের স্বাভাবিক পদ্ধতিটি সম্পূর্ণরূপে ডেটা আটকাতে বা কিছু ক্ষেত্রে এর রেজোলিউশন …

1
LeakyReLU এবং PReLU মধ্যে পার্থক্য কি?
চ( এক্স ) = সর্বোচ্চ ( এক্স , α এক্স ) সঙ্গে α ∈ ( 0 , 1 )চ(এক্স)=সর্বোচ্চ(এক্স,αএক্স) সঙ্গে α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras অবশ্য উভয় ফাংশন আছে ডক্স । ফুটো রিলু LeakyReLU এর উত্স : return K.relu(inputs, alpha=self.alpha) সুতরাং …

4
টাইম সিরিজ মডেল এলএসটিএম-এ বৈশিষ্ট্য যুক্ত করা হচ্ছে
সময় সিরিজের জন্য এলএসটিএম এর ব্যবহার এবং তাদের ব্যবহার সম্পর্কে কিছুটা পড়ছি এবং এটি একই সময়ে আকর্ষণীয় তবে কঠিন ছিল। আমার বুঝতে সমস্যা হয়েছে এমন একটি বিষয় হ'ল ইতিমধ্যে টাইম সিরিজের বৈশিষ্ট্যগুলির তালিকায় থাকা অতিরিক্ত বৈশিষ্ট্যগুলি যুক্ত করার পদ্ধতি। ধরে নিচ্ছি আপনার নিজের ডেটাসেটটি এভাবে রয়েছে: টি-3, টি-2, টি-1, আউটপুট …

2
নিউরাল নেটওয়ার্কের জন্য চিত্রগুলি কীভাবে প্রস্তুত / বাড়ানো যায়?
আমি চিত্রের শ্রেণিবিন্যাসের জন্য একটি নিউরাল নেটওয়ার্ক ব্যবহার করতে চাই। আমি প্রাক প্রশিক্ষিত ক্যাফনেট দিয়ে শুরু করব এবং এটি আমার অ্যাপ্লিকেশনটির জন্য প্রশিক্ষণ দেব। আমি কীভাবে ইনপুট চিত্রগুলি প্রস্তুত করব? এই ক্ষেত্রে, সমস্ত চিত্র একই বস্তুর কিন্তু ভিন্নতার সাথে (মনে করুন: মান নিয়ন্ত্রণ)। এগুলি কিছুটা আলাদা স্কেল / রেজোলিউশন / …

6
দূরত্বের মেট্রিক হিসাবে ডস পণ্য বনাম কোসিন মিল
দেখে মনে হচ্ছে দুটি বৈশিষ্ট্যের কোসাইন মিল হ'ল কেবলমাত্র তাদের বিন্দুর পণ্য দ্বারা আকারযুক্ত তাদের বিন্দু পণ্য। কোসিনের মিলটি কখন বিন্দুর চেয়ে ভাল দূরত্বের মেট্রিক তৈরি করে? অর্থাৎ ডট পণ্য এবং কোসাইন মিলের বিভিন্ন পরিস্থিতিতে বিভিন্ন শক্তি বা দুর্বলতা থাকে?

7
মান মূল্য: ইনপুটটিতে NaN, অসীম বা dtype ('float32') এর জন্য খুব বড় মান রয়েছে
একটি র‌্যান্ডমফোরেস্ট মডেল ব্যবহার করে পরীক্ষার ডেটা পূর্বাভাস দেওয়ার সময় আমি ভ্যালুয়েরর পেয়েছি। আমার কোড: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) ভূল: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). টেস্ট ডেটাসেটে আমি কীভাবে খারাপ মানগুলি খুঁজে …

10
কেন মেশিন লার্নিং মডেলগুলিকে ব্ল্যাক বক্স বলা হয়?
আমি এই ব্লগ পোস্টটি শিরোনামটি পড়ছিলাম: ফিনান্সিয়াল ওয়ার্ল্ড ওয়ান্ট টু টু এআই এর ব্ল্যাক বক্সগুলি , যেখানে লেখক বারবার এমএল মডেলগুলিকে "ব্ল্যাক বাক্স" হিসাবে উল্লেখ করেছেন। এমএল মডেলগুলি উল্লেখ করার সময় বেশ কয়েকটি জায়গায় একই রকম পরিভাষা ব্যবহার করা হয়েছে। এটা এমন কেন? এমএল ইঞ্জিনিয়াররা জানেন না যে নিউরাল জালের …

4
সমস্ত প্রশিক্ষণের ডেটা সহ মিনি ব্যাচের আকার কেন একক "ব্যাচ" এর চেয়ে ভাল?
আমি প্রায়শই পড়েছি যে ডিপ লার্নিং মডেলগুলির ক্ষেত্রে নিয়মিত অনুশীলনটি হ'ল বিভিন্ন প্রশিক্ষণ পর্বগুলির উপরে মিনি ব্যাচগুলি (সাধারণত একটি ছোট, 32/64) প্রয়োগ করা। আমি এর পিছনে কারণটি সত্যই বুঝতে পারি না। আমি ভুল না হলে ব্যাচের আকারটি প্রশিক্ষণের পুনরাবৃত্তি চলাকালীন মডেলটির দ্বারা দেখা ট্রেনিংয়ের সংখ্যা; এবং প্রশিক্ষণের প্রতিটি উদাহরণ যখন …

11
সি (বা সি ++) তে ডেটা সায়েন্স
আমি একটি Rভাষা প্রোগ্রামার। আমি এমন লোকদের দলে রয়েছি যারা ডেটা সায়েন্টিস্ট হিসাবে বিবেচিত তবে যারা সিএস ব্যতীত একাডেমিক শাখা থেকে আসে। এটি ডেটা সায়েন্টিস্ট হিসাবে আমার ভূমিকায় ভালভাবে কাজ করে, তবে আমার ক্যারিয়ার শুরু করে Rএবং কেবলমাত্র অন্যান্য স্ক্রিপ্টিং / ওয়েব ভাষার প্রাথমিক জ্ঞান অর্জন করে আমি 2 টি …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.