প্রতিটি পরিসংখ্যানবিদদের কী তত্ত্বগুলি জানা উচিত?


30

আমি এটি একটি খুব বেসিক, ন্যূনতম প্রয়োজনীয়তার দৃষ্টিকোণ থেকে ভাবছি। একটি শিল্প (একাডেমিক নয়) স্ট্যাটিস্টিস্টিয়ানদের নিয়মিত ভিত্তিতে জানতে, বুঝতে এবং ব্যবহার করা উচিত এমন মূল তত্ত্বগুলি কী কী?

মনে মনে আসে একটি বড় একটি হ'ল বিপুল সংখ্যার আইন । ডেটা বিশ্লেষণে স্ট্যাটিস্টিকাল তত্ত্ব প্রয়োগের জন্য সবচেয়ে প্রয়োজনীয় কী কী?

উত্তর:


41

সত্যি বলতে কি, আমি মনে করি না যে সংখ্যায় আইনটির শিল্পে একটি বিশাল ভূমিকা আছে। সাধারণ পদ্ধতির asympotic ন্যায়সঙ্গততাগুলি বোঝার জন্য এটি সহায়ক, যেমন সর্বাধিক সম্ভাবনা অনুমান এবং পরীক্ষাগুলি (সর্বশক্তিমান GLMs এবং লজিস্টিক রিগ্রেশন সহ, বিশেষত), বুটস্ট্র্যাপ, তবে এগুলি খারাপ নমুনার সমস্যাগুলি আঘাতের সম্ভাবনার চেয়ে বিতরণমূলক সমস্যা ।

ইতিমধ্যে উল্লিখিত বিষয়গুলির বাইরে (জিএলএম, ইনফারেন্স, বুটস্ট্র্যাপ), সর্বাধিক সাধারণ পরিসংখ্যানের মডেল হ'ল লিনিয়ার রিগ্রেশন, সুতরাং লিনিয়ার মডেল সম্পর্কে একটি সম্পূর্ণ বোঝা আবশ্যক। আপনার শিল্প জীবনে আপনি কখনই অ্যানোভা চালাতে পারবেন না, তবে আপনি যদি তা বুঝতে না পারেন তবে আপনাকে একটি পরিসংখ্যানবিদ বলা উচিত নয়।

বিভিন্ন ধরণের শিল্প রয়েছে। ফার্মাসে, আপনি এলোমেলোভাবে পরীক্ষা এবং লজিস্টিক রিগ্রেশন ব্যতীত জীবিকা নির্বাহ করতে পারবেন না। জরিপের পরিসংখ্যানগুলিতে, আপনি হরভিটজ-থম্পসন অনুমানকারী এবং প্রতিক্রিয়াবিহীন সামঞ্জস্য ছাড়া জীবিকা নির্বাহ করতে পারবেন না। কম্পিউটার বিজ্ঞানের সাথে সম্পর্কিত পরিসংখ্যানগুলিতে, আপনি পরিসংখ্যান শেখা এবং ডেটা মাইনিং ছাড়া জীবিকা নির্বাহ করতে পারবেন না। জননীতিতে থিংক ট্যাঙ্কগুলি (এবং, ক্রমবর্ধমান, শিক্ষার পরিসংখ্যান), আপনি কার্যকারিতা এবং চিকিত্সার প্রভাব অনুমানকারী (যা ক্রমবর্ধমানভাবে এলোমেলোভাবে পরীক্ষায় জড়িত) ব্যতীত জীবিকা নির্বাহ করতে পারবেন না। বিপণন গবেষণায় আপনার সাইকোমেট্রিক পরিমাপ তত্ত্বের সাথে অর্থনীতির পটভূমির মিশ্রণ থাকা দরকার (এবং আপনি সেগুলির দুটিও একটি সাধারণ পরিসংখ্যান বিভাগের অফারগুলিতে শিখতে পারেন)। শিল্প পরিসংখ্যানগুলি তার নিজস্ব অদ্ভুত ছয় সিগমা দৃষ্টান্ত দিয়ে কাজ করে যা মূলধারার পরিসংখ্যানগুলির সাথে দূরবর্তীভাবে সংযুক্ত; একটি শক্তিশালী বন্ধন পরীক্ষামূলক উপাদানের নকশায় পাওয়া যেতে পারে। ওয়াল স্ট্রিট উপাদান আর্থিক একনোমেট্রিক্স হবে, স্টোকাস্টিক ক্যালকুলাস পর্যন্ত সমস্ত উপায়। এগুলি অত্যন্ত স্বতন্ত্র দক্ষতা এবং "শিল্প" শব্দটি "একাডেমিয়ার" চেয়ে আরও খারাপভাবে সংজ্ঞায়িত। আমি মনে করি না যে কেউ একই সাথে উপরোক্ত দুটি বা তিনটির বেশি জানতে দাবি করতে পারে।

তবে শীর্ষস্থানীয় দক্ষতাগুলি হ'ল "ইন্ডাস্ট্রিতে" সর্বজনীনভাবে প্রয়োজনীয় হবে (এটি আপনার জন্য যা কিছু অর্থ হতে পারে) হবে সময় পরিচালন, প্রকল্প পরিচালনা এবং স্বল্প পরিসংখ্যান-জ্ঞান ক্লায়েন্টদের সাথে যোগাযোগ। সুতরাং যদি আপনি নিজেকে শিল্প বসানোর জন্য প্রস্তুত করতে চান তবে এই বিষয়গুলিতে ব্যবসায়িক বিদ্যালয়ে ক্লাস করুন।

আপডেট: মূল পোস্টটি ফেব্রুয়ারী 2012 সালে লেখা হয়েছিল; এই দিনগুলিতে (মার্চ ২০১৪), আপনার সম্ভবত শিল্পে গরম কাজ পাওয়ার জন্য "একটি পরিসংখ্যানবিদ" না দিয়ে নিজেকে "ডেটা বিজ্ঞানী" বলা উচিত ... এবং সেই আত্ম-ঘোষণার অনুসরণ করতে কিছু হাডুপ আরও ভালভাবে শিখতে হবে।


1
দুর্দান্ত উত্তর। শিল্পের মধ্যে পরিসংখ্যানবিদদের মধ্যে কিছু বড় পার্থক্য হাইলাইট করার জন্য আপনাকে ধন্যবাদ। এটি আমার প্রশ্নকে উদ্বুদ্ধ করতে সহায়তা করে কারণ আমি বিশ্বাস করি যে পরিসংখ্যানবিদ কী / কী করে তা নিয়ে অনেকেরই আলাদা ধারণা রয়েছে। আমি অনুমান করি যে আমি এইগুলি কোথায় একটি প্রাথমিক বোঝার থেকে ছেদ করে তা অনুসন্ধান করার চেষ্টা করছিলাম। এছাড়াও, আমি ব্যবসায়ের বিষয়গুলি এবং সেগুলি কতটা প্রয়োজনীয় তা সম্পর্কে আপনার শেষ অনুচ্ছেদটিকে সত্যই প্রশংসা করি। দুর্দান্ত পয়েন্ট তবে আমি এখনও দেখতে চাই যে গ্রহণ করার আগে কেউ কথোপকথনে যোগ করতে পারে কিনা।
bnjmn

আমি এই "অদ্ভুত ছয় সিগমা দৃষ্টান্ত" দ্বারা বিস্মিত হয়েছি, "মুখ্যধারার পরিসংখ্যানের সাথে দূরবর্তীভাবে সংযুক্ত" যার সাহায্যে আপনি বলে থাকেন যে শিল্প পরিসংখ্যান কাজ করে। এটি আমার কাছে পুরোপুরি গোঁড়া বলে মনে হচ্ছে, এই সমস্ত উপ-ক্ষেত্রের মধ্যে পাওয়া পরিভাষার পার্থক্যকে একপাশে রেখে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

4
109

যথেষ্ট উপযুক্ত: আমি বলেছিলাম পরিমাপ সিস্টেম বিশ্লেষণ (আন্ত-রাটার চুক্তি, গেজ প্রজননযোগ্যতা এবং পুনরাবৃত্তিযোগ্যতা অধ্যয়ন), পরিসংখ্যান প্রক্রিয়া নিয়ন্ত্রণ, নির্ভরযোগ্যতা বিশ্লেষণ (ওরফে বেঁচে থাকার বিশ্লেষণ), এবং পরীক্ষামূলক ডিজাইন ((ভগ্নাংশ) ফ্যাটোরিয়াল ডিজাইন, প্রতিক্রিয়া-পৃষ্ঠ পদ্ধতি) ) শিল্প পরিসংখ্যানের বৈশিষ্ট্য ছিল।
Scortchi - পুনর্বহাল মনিকা

12

আমি মনে করি পক্ষপাত-বৈকল্পিক ট্রেড অফ সম্পর্কিত বিষয়গুলির একটি ভাল বোঝাপড়া । বেশিরভাগ পরিসংখ্যানবিদরা শেষ করতে পারেন, কোনও সময়, কোনও ডেটাসেট বিশ্লেষণ করে এমন একটি ডেটাসেট বিশ্লেষণ করে যা যথেষ্ট পরিমাণে মডেলটির প্যারামিটারের পক্ষে যথেষ্ট পরিমাণে উচ্চতর হয় যে পক্ষপাতটি একটি গৌণ বিবেচনা।


11

অতি সুস্পষ্টভাবে নির্দেশ করতে:

কেন্দ্রীয় সীমা উপপাদ্য

pp

বুটস্ট্র্যাপিং


8

আমি এটি বলব না যে এটি প্রচুর সংখ্যার আইন বা কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্যের মতো একটির সাথে একই রকম, তবে কারণ কার্যকারিতা সম্পর্কে ধারণা তৈরি করা প্রায়শই কেন্দ্রীয় হয়, মডেল কার্যকারণে কাঠামোগত গ্রাফগুলি ব্যবহার করার জন্য জুডিয়া পার্লের কাজ বোঝা এমন কিছু বিষয় যা লোকদের জানা উচিত সঙ্গে. এটি কেন পরীক্ষামূলক এবং পর্যবেক্ষণমূলক স্টাডিগুলি তাদের সাশ্রয়ী কার্যকারণ সম্পর্কিত বিবেচনার সাথে পৃথক হয় এবং পর্যবেক্ষণের ডেটাগুলি মোকাবেলার উপায় সরবরাহ করে তা বোঝার একটি উপায় সরবরাহ করে। ভাল পর্যালোচনার জন্য, তাঁর বইটি এখানে


2
রুবিনের প্রতিরূপ কাঠামোও রয়েছে; স্ট্রাকচারাল সমীকরণ মডেলিং এবং ইকোনোমেট্রিক ইন্সট্রুমেন্টাল ভেরিয়েবল কৌশলগুলিও রয়েছে ... এর মধ্যে কয়েকটি হ'ল হার্মলেস একনোমেট্রিক্সে বর্ণিত যা কোন অ-পরিসংখ্যানবিদদের দ্বারা লেখা সেরা পরিসংখ্যান বইগুলির মধ্যে।
স্টাস্ক

7

যে নির্দিষ্ট সংখ্যক সমস্যার সমাধান করা উচিত তার একটি দৃ understanding় বোঝা যেমন কোনও নির্দিষ্ট পরিসংখ্যানিক পদ্ধতির মতো গুরুত্বপূর্ণ। শিল্পের একজন ভাল বিজ্ঞানী সম্ভবত তাদের সমস্যার যুক্তিসঙ্গত সমাধানে এ জাতীয় জ্ঞান ছাড়াই কোনও পরিসংখ্যানবিদদের চেয়ে বেশি সম্ভাবনা রাখেন। স্থিতিশীল জ্ঞান সহ একটি পরিসংখ্যানবিদ সাহায্য করতে পারে।


6

ডেল্টা-পদ্ধতি, কীভাবে উদ্ভট পরিসংখ্যানের বৈচিত্রটি গণনা করতে হয় এবং তাদের অ্যাসিপোটোটিক আপেক্ষিক দক্ষতাটি খুঁজে পেতে, পরিবর্তনশীল পরিবর্তনের সুপারিশ করার জন্য এবং "সঠিক জিনিসটি অনুমান করে" দক্ষতা বৃদ্ধির ব্যাখ্যা দেয়। এর সাথে একত্রে, জেএলএমগুলি বোঝার জন্য জেনসেনের অসমত্ব এবং উপরের মতো রূপান্তরগুলিতে উদ্ভূত বিচিত্র ধরণের পক্ষপাতিত্ব। এবং, এখন যে পক্ষপাত এবং বৈকল্পিকতা উল্লেখ করা হয়েছে, পক্ষপাতিত্বমূলক নির্ভুলতার একটি উদ্দেশ্য পরিমাপ হিসাবে পক্ষপাত-বৈকল্পিক বাণিজ্য বন্ধ এবং এমএসইর ধারণা।


6

আমার দৃষ্টিতে, একজন চিকিত্সকের পক্ষে পরিসংখ্যানগত অনুমান সবচেয়ে গুরুত্বপূর্ণ। অনুমানের দুটি অংশ রয়েছে: 1) অনুমান এবং 2) হাইপোথেসিস পরীক্ষা। হাইপোথিসিস পরীক্ষা গুরুত্বপূর্ণ এক। যেহেতু অনুমান হিসাবে বেশিরভাগই একটি অনন্য পদ্ধতি, সর্বাধিক সম্ভাবনার প্রাক্কলন অনুসরণ করা হয় এবং এটি বেশিরভাগ পরিসংখ্যান প্যাকেজ উপলব্ধ (যাতে কোনও বিভ্রান্তি নেই)।

প্রায়শই অনুশীলনকারীদের প্রশ্নগুলি পার্থক্য বা কার্যকারণ বিশ্লেষণের উল্লেখযোগ্য পরীক্ষার চারপাশে। গুরুত্বপূর্ণ অনুমান পরীক্ষা এই লিঙ্কে খুঁজে পেতে পারেন ।

কার্যকারণ ব্যাখ্যার জন্য লিনিয়ার মডেল, জিএলএম বা সাধারণ পরিসংখ্যানের মডেলিং সম্পর্কে জানার প্রয়োজন। আমি ধারণা করি ডেটা বিশ্লেষণের ভবিষ্যতে বায়েশিয়ান অনুমান অন্তর্ভুক্ত রয়েছে।


0

নৈমিত্তিক অনুমান অবশ্যই। এবং কীভাবে এটির মৌলিক সমস্যাটি সমাধান করা যায়, আপনি সময়মতো ফিরে যেতে পারবেন না এবং কাউকে চিকিত্সা দিতে পারবেন না। রুবিন সম্পর্কে নিবন্ধগুলি পড়ুন, আধুনিক পরিসংখ্যান শিক্ষার্থীর প্রতিষ্ঠাতা ফিশার)) .... এই সমস্যাটি কীভাবে সমাধান করা যায়, যথাযথ র্যান্ডমাইজেশন এবং কীভাবে বিপুল সংখ্যক আইন বলে যে জিনিসগুলি যথাযথভাবে এলোমেলোভাবে করা হয়েছে, হাইপোথিসিস টেস্টিং, সম্ভাব্য ফলাফল (হেট্রোসকাস্টিস্টি অনুমানের বিরুদ্ধে রয়েছে) এবং নিখোঁজের সাথে দুর্দান্ত), ম্যাচিং (নিখোঁজের জন্য দুর্দান্ত তবে সম্ভাব্য ফলাফলগুলি আরও ভাল কারণ এটি আরও সাধারণীকরণ, আমি বোঝাতে চাইছি কেন আপনি যখন কেবল একটি জটিল জিনিস শিখতে পারেন তখন কেন অনেক বেশি জটিল জিনিস শিখবেন), বুটস্ট্র্যাপ, বেইসিয়ান পরিসংখ্যান অবশ্যই (বায়েশিয়ান রিগ্রেশন) , নিষ্পাপ বায়েশিয়ান রিগ্রেশন, বায়েশিয়ান ফ্যাক্টর) এবং প্যাপমেট্রিকবিহীন বিকল্প।

সাধারণত অনুশীলনে কেবল এই সাধারণ পদক্ষেপগুলি অনুসরণ করুন,

পূর্ববর্তী মন্তব্য সম্পর্কে আপনার প্রথমে প্রথমে একটি আনোভা দিয়ে শুরু করা উচিত (এলোমেলো প্রভাব বা স্থির প্রতিক্রিয়া, এবং ধারাবাহিক প্রকারগুলি বিনে রূপান্তর করা) তারপরে একটি রিগ্রেশন ব্যবহার করুন (যা আপনি যদি কখনও রূপান্তর করেন এবং পরিবর্তন করেন তবে এএনওওএর মতো ভাল হতে পারে তবে কখনও এটি পরাজিত করতে পারেন না) কোন নির্দিষ্ট চিকিত্সাগুলি তাৎপর্যপূর্ণ তা দেখতে (একাধিক টি পরীক্ষা করার জন্য এবং কিছু সংশোধন যেমন হোলম মেথিড ব্যবহার করার জন্য প্রস্তাবিত) একটি রিগ্রেশন ব্যবহার করুন।

যেসব ক্ষেত্রে আপনাকে পূর্বাভাস দিতে হয় এমন ক্ষেত্রে বায়াসিয়ান রিগ্রেশন ব্যবহার করা হয়।

5% এরও বেশি হারানো সম্ভাব্য ফলাফলগুলি ব্যবহার করে

ডেটা বিশ্লেষণের আরেকটি শাখা তদারকি করা মেশিন লার্নিং যা অবশ্যই উল্লেখ করতে হবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.