পরিসংখ্যান এবং বড় তথ্য

2

"বিগ ডেটা" থেকে কীভাবে বৈধ সিদ্ধান্ত নেওয়া যায়?

"বিগ ডেটা" মিডিয়াতে সর্বত্র রয়েছে। সকলেই বলেছেন যে "বিগ ডেটা" হ'ল ২০১২ সালের সবচেয়ে বড় বিষয়, উদাহরণস্বরূপ, কেডিনিগেটস পোষাকগুলি ২০১২ সালের জনপ্রিয় বিষয়গুলিতে । তবে এখানে আমার গভীর উদ্বেগ রয়েছে। বড় ডেটা সহ, প্রত্যেকে কিছু খুশি খুশি বলে মনে হচ্ছে । কিন্তু আমরা কি হাইপোথিসিস টেস্টিং এবং প্রতিনিধি নমুনার মতো …

40 data-mining dataset large-data validation

5

মধ্যমা জন্য আস্থা অন্তর

আমাকে মাঝারি এবং অন্যান্য শতকরা একটি 95% সিআই খুঁজে পেতে হবে। আমি কিভাবে এই কাছে যেতে জানি না। আমি সাধারণত প্রোগ্রামিংয়ের সরঞ্জাম হিসাবে আর ব্যবহার করি।

40 r confidence-interval median

2

এলোমেলো বনাঞ্চলে পরিবর্তনশীল গুরুত্বের পরিমাপ

আমি প্রতিরোধের জন্য এলোমেলো বন নিয়ে ঘুরে বেড়াচ্ছি এবং দুটি পদক্ষেপের গুরুত্বের অর্থ কী এবং কীভাবে তাদের ব্যাখ্যা করা উচিত তা নিয়ে কাজ করতে আমার সমস্যা হচ্ছে। importance()ফাংশন প্রতিটি পরিবর্তনশীল জন্য দুটি মান দেয়: %IncMSEএবং IncNodePurity। এই 2 টি মানের জন্য কি সাধারণ ব্যাখ্যা আছে? জন্য IncNodePurityবিশেষ করে, এই কেবল …

40 r machine-learning random-forest importance

3

আনোভাতে কীভাবে F- এবং পি-মানটি ব্যাখ্যা করবেন?

আমি পরিসংখ্যানগুলিতে নতুন এবং আমি বর্তমানে আনোভা নিয়ে কাজ করি। আমি আর ব্যবহার করে একটি আনোভা পরীক্ষা করি aov(dependendVar ~ IndependendVar) আমি পাই - অন্যদের মধ্যে - একটি এফ-মান এবং একটি পি-মান। আমার নাল হাইপোথিসিস ( ) হ'ল সমস্ত গ্রুপের অর্থ সমান।এইচ0H0H_0 কীভাবে এফ গণনা করা হয় সে সম্পর্কে প্রচুর …

40 r anova interpretation

4

আর (ওডস অনুপাত) মধ্যে লজিস্টিক রিগ্রেশন

আমি একটি লজিস্টিক রিগ্রেশন বিশ্লেষণ করার চেষ্টা করছি R। আমি স্টাটা ব্যবহার করে এই উপাদানটি আবরণী কোর্সে অংশ নিয়েছি। এর মধ্যে কার্যকারিতাটির প্রতিলিপি তৈরি করা আমার পক্ষে খুব কঠিন R। এটি কি এই অঞ্চলে পরিণত? এখানে খুব সামান্য ডকুমেন্টেশন বা গাইডেন্স পাওয়া যায় বলে মনে হচ্ছে। বিজোড় অনুপাত আউটপুট উত্পাদনের …

40 r logistic odds-ratio

3

গড়, মধ্যম এবং মোডের মধ্যে অভিজ্ঞতামূলক সম্পর্ক

একটি অবিচ্ছিন্ন বিতরণের জন্য যা মাঝারিভাবে স্কিউড, আমাদের মধ্যবর্তী, মধ্যক এবং মোডের মধ্যে নিম্নলিখিত অনুশীলনমূলক সম্পর্ক রয়েছে: relationship এই সম্পর্কটি কেমন ছিল উদ্ভূত?(গড় - মোড) ∼ 3(মধ্যস্থতা বোঝানো)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} কার্ল পিয়ারসন কি এই সিদ্ধান্তে পৌঁছানোর আগে এই হাজার হাজার সম্পর্কের পরিকল্পনা …

40 distributions mathematical-statistics descriptive-statistics history

5

ডায়নামিক টাইম ওয়ার্পিং ক্লাস্টারিং

টাইম সিরিজের ক্লাস্টারিংয়ের জন্য ডায়নামিক টাইম ওয়ার্পিং (ডিটিডাব্লু) ব্যবহার করার পদ্ধতির কী হবে? দুটি সময় সিরিজের মধ্যে সাদৃশ্য খুঁজে পাওয়ার উপায় হিসাবে আমি ডিটিডব্লিউ সম্পর্কে পড়েছি, যখন সেগুলি সময়মতো স্থানান্তরিত হতে পারে। আমি কি এই পদ্ধতির কে-মাধ্যমের মতো ক্লাস্টারিং অ্যালগরিদমের জন্য একটি মিল হিসাবে বিবেচনা করতে পারি?

40 time-series clustering

6

সফটম্যাক্স / ক্রস এন্ট্রপি সহ ব্যাকপ্রসারণ

আমি বুঝতে চেষ্টা করছি যে কোনও সফটম্যাক্স / ক্রস-এন্ট্রপি আউটপুট স্তরটির জন্য ব্যাকপ্রসারণ কীভাবে কাজ করে। ক্রস এনট্রপি ত্রুটি ফাংশন E(t,o)=−∑jtjlogojই(টি,ণ)=-Σঞটিঞলগ⁡ণঞE(t,o)=-\sum_j t_j \log o_j যথাক্রমে নিউরন জে লক্ষ্য এবং আউটপুট হিসাবে tটিt এবং সহ । যোগফল আউটপুট স্তরের প্রতিটি নিউরনের উপরে। ও জে নিজেই সফটম্যাক্স ফাংশনের ফলাফল:oণojঞjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} আবার, …

40 backpropagation derivative softmax cross-entropy

6

বুটস্ট্র্যাপ নমুনার সংখ্যার জন্য থাম্বের বিধি

আমি অবাক হয়েছি যে কেউ ডেটার বৈশিষ্ট্যগুলির ভিত্তিতে (পর্যবেক্ষণের সংখ্যা ইত্যাদি) এবং / অথবা ভেরিয়েবলগুলি অন্তর্ভুক্ত করে বুটস্ট্র্যাপ নমুনাগুলির সংখ্যা ব্যবহারের ক্ষেত্রে কোনও সাধারণ নিয়মাবলী জানেন কিনা?

40 bootstrap inference monte-carlo

7

নিউরাল নেটওয়ার্কগুলিতে ডেটা সাধারণকরণ এবং মানককরণ

আমি নিউরাল নেটওয়ার্কগুলি (এএনএন) ব্যবহার করে একটি জটিল সিস্টেমের ফলাফলের পূর্বাভাস দেওয়ার চেষ্টা করছি। ফলাফল (নির্ভরশীল) মানগুলি 0 এবং 10,000 এর মধ্যে থাকে। বিভিন্ন ইনপুট ভেরিয়েবলের বিভিন্ন ব্যাপ্তি রয়েছে। সমস্ত ভেরিয়েবলের মোটামুটি স্বাভাবিক বিতরণ রয়েছে। প্রশিক্ষণের আগে ডেটা স্কেল করার জন্য আমি বিভিন্ন বিকল্প বিবেচনা করি। একটি বিকল্প হ'ল স্বাধীনভাবে …

40 machine-learning neural-networks multidimensional-scaling

3

এমন কোনও মামলা রয়েছে যেখানে পিসিএ টি-এসএনইয়ের চেয়ে বেশি উপযুক্ত?

আমি দেখতে চাই যে পাঠ্য সংশোধন আচরণের 7 টি পদক্ষেপ (পাঠ্য সংশোধন করতে ব্যয় করা সময়, কীস্ট্রোকের সংখ্যা ইত্যাদি) কীভাবে একে অপরের সাথে সম্পর্কিত। ব্যবস্থাগুলি পারস্পরিক সম্পর্কযুক্ত। আমি পিসিএ এবং পিসি 2 এবং পিসি 2, যা ব্যবস্থাগুলির মধ্যে পৃথক দ্বি-দ্বি পারস্পরিক সম্পর্ক পরীক্ষা চালানোর ওভারল্যাপটিকে এড়াতে পেরেছি তা দেখার জন্য …

39 pca tsne

7

ডেটা সংগ্রহ বা ব্যাখ্যার সময় মানুষ সবচেয়ে সাধারণ বায়াসগুলি কী করে?

আমি একক / স্ট্যাটাস মেজর। আমি সচেতন যে অর্থনীতিবিদরা মানুষের আচরণ এবং যৌক্তিকতা সম্পর্কে তাদের অনুমানগুলি সংশোধন করার চেষ্টা করেছেন পরিস্থিতি চিহ্নিত করে যেখানে লোকেরা যুক্তিযুক্ত আচরণ করে না। উদাহরণস্বরূপ, আমি তোমাকে একটা 100% সুযোগ অফার অনুমান করা $ বা 1000 হ্রাস একটি একটি 50% সম্ভাবনা $ 2500 ক্ষতি, মানুষ …

39 bias

2

পিপি-প্লট বনাম কিউকিউ-প্লট

ডেটাতে লাগানো বিতরণ বিশ্লেষণ করার চেষ্টা করার সময় সম্ভাব্যতা প্লট, পিপি-প্লট এবং কিউকিউ-প্লটের মধ্যে পার্থক্য কী?

39 probability data-visualization goodness-of-fit qq-plot

7

কোনও বায়েশিয়ান স্বীকার করবে যে একটি নির্দিষ্ট প্যারামিটার মান আছে?

বায়েশিয়ান ডেটা বিশ্লেষণে, পরামিতিগুলি এলোমেলো ভেরিয়েবল হিসাবে বিবেচনা করা হয়। এটি সম্ভাবনার বায়েশীয় বিষয়গত ধারণাগতকরণ থেকে উদ্ভূত। তবে বেইসিয়ানরা কি তাত্ত্বিকভাবে স্বীকার করেছেন যে 'রিয়েল ওয়ার্ল্ডে সত্যিকারের নির্দিষ্ট প্যারামিটারের মূল্য আছে?' দেখে মনে হচ্ছে সুস্পষ্ট উত্তরটি হ্যাঁ, কারণ প্যারামিটারটি অনুমান করার চেষ্টা করা প্রায় অযৌক্তিক হবে। এই উত্তরের জন্য একটি …

39 probability bayesian parameterization

4

কোনও মডেল তৈরি করার সময় যে পরিসংখ্যানগত দিক থেকে তাত্পর্যপূর্ণ নয় সেগুলি কী 'রাখা উচিত'?

মডেলটির জন্য আমার গণনায় বেশ কয়েকটি কোভারিয়েট রয়েছে এবং সেগুলি সমস্তই পরিসংখ্যানগত দিক থেকে গুরুত্বপূর্ণ নয়। আমি কি তাদের অপসারণ করব? এই প্রশ্নটি ঘটনাটি নিয়ে আলোচনা করে, তবে আমার প্রশ্নের উত্তর দেয় না: কীভাবে আনকোভাতে কোনও কোভারিয়েটের অ-উল্লেখযোগ্য প্রভাব ব্যাখ্যা করা যায়? এই প্রশ্নের উত্তরে এমন কিছু নেই যা প্রস্তাব …

39 regression statistical-significance ancova model predictor