কেন শক্তিশালী (এবং প্রতিরোধী) পরিসংখ্যানগুলি শাস্ত্রীয় কৌশলগুলি প্রতিস্থাপন করেনি?


82

ডেটা ব্যবহার করে ব্যবসায়ের সমস্যাগুলি সমাধান করার সময়, এটি সাধারণ যে অন্তত পিনের ধ্রুপদী পরিসংখ্যানটি অবৈধ key বেশিরভাগ সময়, কেউই এই অনুমানগুলি যাচাই করতে বিরক্ত করে না যাতে আপনি আসলে জানেন না।

উদাহরণস্বরূপ, এখন পর্যন্ত প্রচলিত ওয়েব মেট্রিকগুলি "লম্বা লেজযুক্ত" (সাধারণ বিতরণের সাথে তুলনামূলক) তাই এখন পর্যন্ত এত ভাল নথিভুক্ত হয়েছে যে আমরা এটিকে মঞ্জুর করি। অন্য একটি উদাহরণ, অনলাইন সম্প্রদায়গুলি - এমনকি হাজার হাজার সদস্যের সম্প্রদায়গুলিতেও এটি নথিবদ্ধভাবে প্রমাণিত হয়েছে যে এই সম্প্রদায়ের বেশিরভাগ অংশে অংশ নেওয়া / অংশগ্রহনের সবচেয়ে বড় অংশটি 'সুপার-অবদানকারীদের' একটি ক্ষুদ্র গোষ্ঠীর জন্য দায়ী। (উদাহরণস্বরূপ, কয়েক মাস আগে, বিটাতে এসও এপিআই উপলব্ধ করার ঠিক পরে, স্ট্যাকওভারফ্লো সদস্য তার এপিআইয়ের মাধ্যমে সংগৃহীত ডেটা থেকে একটি সংক্ষিপ্ত বিশ্লেষণ প্রকাশ করেছিলেন; তার উপসংহার - এসও সদস্যদের এক শতাংশেরও কম অংশই বেশিরভাগের জন্য অ্যাকাউন্টে থাকে) SO উপর ক্রিয়াকলাপ (সম্ভবত প্রশ্ন জিজ্ঞাসা করা, এবং তাদের উত্তর), অন্য 1-2% বাকীগুলির জন্য দায়ী, এবং সংখ্যাগরিষ্ঠ সদস্যরা কিছুই করেন না।

এই ধরণের বিতরণ - আবার প্রায়শই ব্যতিক্রমের চেয়ে বেশি নিয়ম - প্রায়শই একটি পাওয়ার আইন ঘনত্ব ফাংশন দিয়ে সবচেয়ে বেশি মডেল করা হয় । এই ধরণের বিতরণগুলির জন্য, এমনকি কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি প্রয়োগ করতে সমস্যাযুক্ত।

সুতরাং বিশ্লেষকদের কাছে আগ্রহের মতো জনসংখ্যার প্রাচুর্য দেওয়া, এবং দেওয়া হয়েছে যে শাস্ত্রীয় মডেলগুলি এই ডেটাগুলিতে প্রদর্শনযোগ্যভাবে খারাপভাবে সম্পাদন করে এবং জোরালো এবং প্রতিরোধী পদ্ধতিগুলি কিছু সময়ের জন্য রয়েছে (কমপক্ষে 20 বছর, আমি বিশ্বাস করি) - কেন তারা আরও প্রায়শই ব্যবহার করা হয় না? (আমি আরও ভাবছি যে আমি কেন এগুলি প্রায়শই ব্যবহার করি না, তবে ক্রসভিলেটেডের পক্ষে এটি আসলে কোনও প্রশ্ন নয় ))

হ্যাঁ আমি জানি যে পাঠ্যপুস্তক অধ্যায়গুলি সম্পূর্ণরূপে শক্তিশালী পরিসংখ্যানগুলিতে উত্সর্গীকৃত এবং আমি জানি (কয়েকটি) আর প্যাকেজগুলি রয়েছে ( রবস্টবেসই আমি যার সাথে পরিচিত এবং ব্যবহার করি) ইত্যাদি etc.

এবং তবুও এই কৌশলগুলির সুস্পষ্ট সুবিধাগুলি দেওয়া, তারা প্রায়শই স্পষ্টভাবে কাজের জন্য আরও ভাল সরঞ্জাম - কেন এগুলি বেশি বেশি ব্যবহৃত হয় না ? শাস্ত্রীয় অ্যানালগগুলির সাথে তুলনা করা আমাদের আরও দৃ often় (এবং প্রতিরোধী) পরিসংখ্যানগুলি প্রায়শই ব্যবহার করা (সম্ভবত অনুমানযোগ্যভাবে) দেখার আশা করা উচিত নয়?

আমি শুনেছি কেবলমাত্র প্রকৃত ব্যাখ্যা (যেমন, প্রযুক্তিগত) হ'ল শক্তিশালী কৌশলগুলির (একইভাবে প্রতিরোধী পদ্ধতির জন্য) শাস্ত্রীয় কৌশলগুলির শক্তি / সংবেদনশীলতার অভাব রয়েছে। কিছু ক্ষেত্রে সত্যই এটি সত্য কিনা তা আমি জানি না, তবে আমি জানি এটি অনেক ক্ষেত্রে সত্য নয়।

প্রিম্পিশনের একটি চূড়ান্ত শব্দ: হ্যাঁ আমি জানি এই প্রশ্নের কোনও একক প্রমাণের সঠিক উত্তর নেই; এই সাইটে খুব কম প্রশ্ন করা। তদুপরি, এই প্রশ্নটি একটি আসল তদন্ত; দৃষ্টিভঙ্গির অগ্রগতি করার বাহান নয় - এখানে আমার দৃষ্টিভঙ্গি নেই, কেবল একটি প্রশ্ন যার জন্য আমি কিছু অন্তর্দৃষ্টিপূর্ণ উত্তর আশা করছি।


12
নাসিম নিকোলাস তালেব দ্বারা লেখা ব্ল্যাক সোয়ান ব্যাখ্যা করেছে যে আর্থিক জগতে কেন সাধারণ মডেল ব্যবহার করা হয়েছে এবং এর ফলে যে বিপদ হয়েছে। একটি নির্দিষ্ট ফল্ট হ'ল শূন্যের সাথে খুব কম সম্ভাবনার সাথে সমান হওয়া এবং ঝুঁকির ব্যবস্থাপনায় অন্ধভাবে স্বাভাবিক বিতরণ প্রয়োগ করা!
জেমস

9
অনেকগুলি অনুমানের উপর নির্ভরশীল টেস্টগুলি আরও শক্তিশালী হয় যখন সেই অনুমানগুলি সন্তুষ্ট হয়। আমরা বিচ্যুততার তাৎপর্য ধরে ধরে পরীক্ষা করে দেখতে পারি যে পর্যবেক্ষণগুলি আইআইডি গাউসিয়ান, যা পরিসংখ্যান হিসাবে অর্থ দেয়। অনুমানের একটি কম সীমাবদ্ধ সেট আমাদের মাঝারি ব্যবহার করতে বলে। আমরা আরও এগিয়ে যেতে এবং ধরে নিতে পারি যে পর্যবেক্ষণগুলি আরও বেশি দৃust়তা পেতে পারস্পরিক সম্পর্কযুক্ত। তবে প্রতিটি পদক্ষেপ আমাদের পরীক্ষার শক্তি হ্রাস করে এবং আমরা যদি কোনও অনুমান না করি তবে আমাদের পরীক্ষাটি অকেজো। দৃust় পরীক্ষাগুলি স্পষ্টভাবে ডেটা সম্পর্কে অনুমানগুলি তৈরি করে এবং শাস্ত্রীয় তুলনায় কেবল তখনই অনুমানগুলি বাস্তবের সাথে আরও ভাল মেলে
ইয়ারোস্লাভ বুলাটোভ

উত্তর:


69

গবেষকরা ছোট পি-মান চান এবং আপনি যদি আরও শক্তিশালী বিতরণ অনুমান করে এমন পদ্ধতি ব্যবহার করেন তবে আপনি ছোট পি-মান পেতে পারেন। অন্য কথায়, শক্তিশালী নয় এমন পদ্ধতি আপনাকে আরও কাগজপত্র প্রকাশ করতে দেয়। অবশ্যই এই কাগজপত্রগুলির আরও বেশি মিথ্যা ইতিবাচক হতে পারে তবে একটি প্রকাশনা একটি প্রকাশনা। এটি একটি ছদ্মবেশী ব্যাখ্যা, তবে এটি কখনও কখনও বৈধ।


4
"কখনও কখনও" একটি সংক্ষিপ্ত বিবরণ ... লেখকদের যুক্তি প্রায়শই এই সরাসরি হয় না তবে উদ্দীপনা / পুরষ্কারের দৃশ্যটি এমন হয় যে লোকেরা এটি কন্ডিশনার বিষয় হিসাবে করবে
জন

2
অজ্ঞতার বাইরে অভিনয় করার মতো গবেষকরা এতটা বেonমান হচ্ছেন না। তারা পরিসংখ্যান বলতে কী বোঝায় বা কী অনুমানের প্রয়োজন তা তারা বুঝতে পারে না তবে আপনি যেমন বলেছিলেন তারা স্পষ্টতই উদ্দীপনা / পুরষ্কারকে বোঝে: p> 0.05 => কোনও প্রকাশনা নেই।
জন ডি কুক

10
আপনাকে অবশ্যই এমন কিছু উপস্থাপন করতে হবে যা "ক্ষমতায়" (সিদ্ধান্ত গ্রহণকারী, সুপারভাইজার, পর্যালোচক) বোঝে। সুতরাং এটি সাধারণ ভাষায় থাকতে হবে যা বেশ ধীরে ধীরে বিকশিত হয়, কারণ এই লোকেরা বয়স্ক এবং পরিবর্তনের প্রতি আরও প্রতিরোধী হওয়ার প্রবণতা রয়েছে, মূলত এটি তাদের ক্যারিয়ারকে এখন পর্যন্ত অকার্যকর করতে পারে!
জেমস

12
ভাল যুক্তি. "আমি পি-মানগুলি বুঝতে পারি Just আমাকে কেবল একটি পি-মান দিন।" হাস্যকরভাবে, তারা সম্ভবত পি-মান বুঝতে পারে না , তবে এটি অন্য বিষয়।
জন ডি কুক

2
আমি বিশ্বাস করি না যে এটি স্পষ্টত সত্য। কমপক্ষে, আমি শুনেছি যে আধুনিক ননপ্যারমেট্রিকগুলি প্রায়শই খুব সামান্য শক্তি উত্সর্গ করে। আফাইক, বিদ্যুৎ হ্রাস র‌্যাঙ্ক ট্রান্সফর্মেশনগুলির সাথে জড়িত পরীক্ষায় সবচেয়ে বেশি উচ্চারিত হয়, যা শক্তিশালী পদ্ধতির মধ্যে খুব কমই সর্বব্যাপী।
নিক স্টাওনার

42

সুতরাং 'ধ্রুপদী মডেলগুলি' (তারা যাই হোক না কেন - আমি ধরে নিয়েছি আপনি পাঠ্যপুস্তকগুলিতে শেখানো এবং এমএল দ্বারা অনুমান করা সাধারণ মডেলের মতো কিছু বোঝানো হয়েছে) কিছু, সম্ভবত অনেকগুলি, বাস্তব বিশ্বের ডেটা সেটগুলিতে ব্যর্থ।

যদি কোনও মডেল ব্যর্থ হয় তবে এটি ঠিক করার জন্য দুটি প্রাথমিক পন্থা রয়েছে:

  1. কম অনুমান করা (কম মডেল) করুন
  2. আরও অনুমান করা (আরও মডেল) করুন

শক্ত পরিসংখ্যান, পরিমাণের সম্ভাবনা এবং জিইই পদ্ধতির অনুমানের কৌশলটি এমন একটিতে পরিবর্তন করে প্রথম দৃষ্টিভঙ্গি গ্রহণ করা হয় যেখানে মডেলটি সমস্ত ডেটা পয়েন্ট (মজবুত) ধারণ করে না বা তথ্যের সমস্ত দিক (কিউএল এবং জিইই) চিহ্নিত করতে পারে না।

বিকল্পটি হ'ল এমন একটি মডেল তৈরির চেষ্টা করুন যা স্পষ্টভাবে মডেলগুলি দূষণকারী উত্সের উত্স, বা মূল মডেলের যে দিকগুলি মিথ্যা বলে মনে হয়, পূর্বে হিসাবে একই পদ্ধতি রেখে keeping

কিছু স্বজ্ঞাতভাবে পূর্বকে পছন্দ করেন (এটি অর্থনীতিতে বিশেষত জনপ্রিয়) এবং কিছু লোক স্বজ্ঞাতভাবে পছন্দ করেন (এটি বিশেষভাবে জনপ্রিয় বায়েশিয়ানদের মধ্যে জনপ্রিয়, যারা আরও জটিল মডেলগুলির সাথে আরও সুখী হন, বিশেষত একবার তারা যখন বুঝতে পারেন যে তারা সিমুলেশন সরঞ্জাম ব্যবহার করতে যাচ্ছেন যাইহোক অনুমান)।

চর্বিযুক্ত লেজযুক্ত বিতরণ অনুমানগুলি, উদাহরণস্বরূপ পোয়েসন বা টি-র পরিবর্তে thanণাত্মক দ্বিপদী ব্যবহার করা দ্বিতীয় কৌশলটির সাথে সম্পর্কিত strategy 'মজবুত পরিসংখ্যান' লেবেলযুক্ত বেশিরভাগ জিনিস প্রথম কৌশলটির সাথে সম্পর্কিত।

ব্যবহারিক বিষয় হিসাবে, বাস্তবগত জটিল সমস্যার জন্য প্রথম কৌশলটির জন্য অনুমানকগুলি অর্জন করা বেশ শক্ত বলে মনে হয়। এটি না করার কারণ এটি নয় তবে এটি কেন খুব ঘন ঘন করা হয় না তা সম্ভবত এটি একটি ব্যাখ্যা।


4
+1 টি। খুব ভাল ব্যাখ্যা। আমি আরও মনে করি যে কিছু "শক্তিশালী" পদ্ধতিগুলি বরং অ্যাডহক (ছেদযুক্ত অর্থ) এবং "শক্তিশালী" কোনও পদ্ধতির একটি বিশেষ দিকের সাথে আবদ্ধ এবং এটি একটি সাধারণ গুণ নয় তবে অনেক লোক "শক্তিশালী" এর অর্থ "আমি ডন না" আমার ডেটা সম্পর্কে চিন্তা করতে হবে না, যেহেতু আমার পদ্ধতিটি শক্ত "।
ওয়েইন

দুর্দান্ত উত্তর। এটি আমাকে বিরক্ত করে যে এতগুলি উত্তর শক্তিশালী পরিসংখ্যান বোঝার অসুবিধা বা অনুমানের লঙ্ঘন উপেক্ষা করার জন্য উত্সাহগুলিতে মনোনিবেশ করে। তারা সেখানকার লোকদের উপেক্ষা করে যারা জানেন যে শক্তিশালী পরিসংখ্যানের প্রয়োজন হয় এবং যখন তারা হয় না তখন এমন কেস রয়েছে।
কেনজি

29

আমি পরামর্শ দেব যে এটি পড়াতে পিছিয়ে আছে। বেশিরভাগ মানুষ হয় কলেজ বা বিশ্ববিদ্যালয়ে পরিসংখ্যান শিখেন। যদি পরিসংখ্যানগুলি আপনার প্রথম ডিগ্রি না হয় এবং পরিবর্তে একটি গণিত বা কম্পিউটার বিজ্ঞান ডিগ্রি করে থাকে তবে আপনি সম্ভবত কেবলমাত্র মৌলিক পরিসংখ্যান মডিউলগুলি আবরণ করেন:

  1. সম্ভাব্যতা
  2. প্রস্তাব টেস্টিং
  3. প্রত্যাগতি

এর অর্থ হ'ল কোনও সমস্যার মুখোমুখি হওয়ার সময় আপনি চেষ্টা করুন এবং সমস্যাটি সমাধান করতে আপনি যা জানেন তা ব্যবহার করুন।

  • ডেটা সাধারণ নয় - লগ নিন।
  • ডেটা বিরক্তিকর outliers আছে - তাদের সরান।

আপনি যদি অন্য কোনও কিছুর প্রতিবন্ধকতা না পান তবে আরও ভাল কিছু করা কঠিন difficult গুগলকে কিছু খুঁজে পাওয়া সত্যিই কঠিন, যদি আপনি এটি কী বলে না জানেন তবে!

আমি মনে করি সমস্ত কৌশল সহ নতুন কৌশলগুলি ফিল্টার ডাউন হওয়ার আগে এটি কিছুটা সময় নেবে। স্ট্যান্ডার্ড পরিসংখ্যান পাঠ্যক্রমের অংশ হতে কতক্ষণ স্ট্যান্ডার্ড হাইপোথিসিস পরীক্ষা নিল?

বিটিডাব্লু, একটি পরিসংখ্যান ডিগ্রি সহ এখনও পড়াতে পিছিয়ে থাকবে - কেবল একটি সংক্ষিপ্ততর!


4
তবে এটি অন্তত সাইকোলজিতে একটি আকর্ষণীয় শিক্ষাগত সমস্যা উত্থাপন করেছে, কারণ যতদূর আমি জানি যে আমার ক্ষেত্রে বেশিরভাগ সূচনাসংখ্যার বই ব্যবহৃত হচ্ছে সেগুলি সত্যই আলাদা করা ছাড়া শক্তিশালী ব্যবস্থা নিয়ে আলোচনা করে না।
রাসেলপিয়েরস

3
এটি খুব সত্য, এবং মনোবিজ্ঞানেও, অ-প্যারাম্যাট্রিক এবং অ-সাধারণের মধ্যে একটি বিরক্তিকর বিভ্রান্তি রয়েছে, যা বোঝার ক্ষেত্রে বাধা বলে মনে হচ্ছে।
richiemorrisroe

2
আমাদের মধ্যে কিছু মনোবিজ্ঞানী সমস্ত পরিসংখ্যান সম্পর্কে বিভ্রান্ত! :)
নিক স্টাওনার

21

যুক্তিসঙ্গত পর্যায়ে পরিসংখ্যান সংক্রান্ত ডেটা বিশ্লেষণে প্রশিক্ষিত যে কোনও ব্যক্তি নিয়মিত ভিত্তিতে শক্তিশালী পরিসংখ্যানের ধারণাটি ব্যবহার করে । বেশিরভাগ গবেষক গুরুতর আউটলিয়ার এবং ডেটা রেকর্ডিংয়ের ত্রুটিগুলি অনুসন্ধান করার জন্য যথেষ্ট জানেন; সন্দেহভাজন ডেটা পয়েন্টগুলি অপসারণের নীতিটি 19 শতকে লর্ড রেলেইগ, জিজি স্টোকস এবং তাদের বয়সের অন্যান্যদের সাথে ভালভাবে ফিরে যায়। যদি প্রশ্নটি হয়:

গবেষকগণ কেন লোকেশন, স্কেল, রিগ্রেশন ইত্যাদি অনুমানের জন্য আরও আধুনিক পদ্ধতি ব্যবহার করেন না?

তারপরে উত্তরটি উপরোক্তভাবে দেওয়া হয়েছে - গত 25 বছরে পদ্ধতিগুলি মূলত বিকশিত হয়েছে 1988 - 2010 বলুন। নতুন পদ্ধতিগুলির কারণগুলির পাশাপাশি জড়তাটি "মিথ" দ্বারা আরও জোর করা হয়েছে যে এতে কোনও ভুল নেই say অন্ধভাবে শাস্ত্রীয় পদ্ধতি ব্যবহার করে। জন টুকি মন্তব্য করেছেন যে আপনি কোন শক্তিশালী / প্রতিরোধী পদ্ধতি ব্যবহার করেন তা গুরুত্বপূর্ণ নয় — গুরুত্বপূর্ণটি হ'ল আপনি কয়েকটি ব্যবহার করেন। শাস্ত্রীয় এবং শক্তিশালী / প্রতিরোধী উভয় পদ্ধতিই নিয়মিতভাবে ব্যবহার করা একেবারে যথাযথ এবং কেবলমাত্র যখন তারা যথেষ্ট পরিমাণে বিষয় বিবেচনা করে ততই চিন্তিত হন। তবে এগুলির মধ্যে পার্থক্য থাকলে আপনার কঠোর চিন্তা করা উচিত ।

পরিবর্তে যদি, প্রশ্নটি হয়:

অন্ধভাবে অত্যন্ত অস্থির প্রাক্কলন প্রয়োগের পরিবর্তে গবেষকরা কেন তাদের তথ্য সম্পর্কে থামেন এবং প্রশ্ন জিজ্ঞাসা করবেন না?

তারপরে উত্তরটি সত্যই প্রশিক্ষণে নেমে আসে। অনেক অনেক গবেষক রয়েছেন যারা পরিসংখ্যান সম্পর্কে সঠিকভাবে প্রশিক্ষণ পান নি, পি-ভ্যালুগুলির উপর সাধারণ নির্ভরতার দ্বারা সংক্ষিপ্তসার হিসাবে পরিসংখ্যানগত তাত্পর্য হিসাবে সর্বাত্মক।

@Kwak: 1970 থেকে হুবার এর অনুমান হয় শব্দের শাস্ত্রীয় অর্থে, শক্তসমর্থ তারা outliers প্রতিহত করা। এবং পুনর্নির্মাণের অনুমানকারীগুলি আসলে ১৯৮০ এর দশকের আগে ঠিকঠাক: প্রিন্সটন দৃton়তা অধ্যয়ন (১৯ 1971১ এর) অবস্থানের বিস্কুয়ার প্রাক্কলন অন্তর্ভুক্ত করেছিল, একটি পুনর্নির্বাচিত অনুমান।


2
projecteuclid.org/… জন টুকারের শক্তিশালী পরিসংখ্যানগুলিতে অবদানের বিষয়ে পিটার হুবারের দ্বারা নিখরচায় উপলব্ধ নথি। যুক্তিযুক্ত সহজ পড়া, সূত্র হালকা।
ওয়েসলি বুড়

20

পরিসংখ্যান অ-পরিসংখ্যান-বিবেচ্য গবেষকদের জন্য একটি সরঞ্জাম এবং এগুলি কেবল তাদের যত্ন নেয় না।

আমি একবার আমার মেডিসিনের নিবন্ধটি সাহায্য করার চেষ্টা করেছি আমার প্রাক্তন স্ত্রী সহ-রচনা করেছিলেন। আমি ডেটা বর্ণনা করে বেশ কয়েকটি পৃষ্ঠাগুলি লিখেছিলাম, এটি কী পরামর্শ দিয়েছে, কেন নির্দিষ্ট পর্যবেক্ষণগুলি অধ্যয়ন থেকে বাদ দেওয়া হয়েছিল ... এবং শীর্ষস্থানীয় গবেষক, একজন চিকিত্সক এটিকে সব ফেলে দিয়েছিলেন এবং কাউকে একটি পি-মান গণনা করতে বলেছিলেন, যা সে সবই (এবং কেবল নিবন্ধটি পড়বেন এমন প্রত্যেকের জন্য) যত্নশীল।


12

আমি দুটি দিক দিয়ে একটি উত্তর দিন:

  1. শক্তিশালী জিনিসগুলি অবিচলভাবে শক্ত লেবেলযুক্ত হয় না। আপনি যদি বিশ্বাস করেন যে সমস্ত কিছুর বিরুদ্ধে দৃust়তা বিদ্যমান তবে আপনি নির্বোধ।
  2. দৃ Stat়তা সংশ্লেষের সমস্যাটি ছেড়ে দেয় এমন পরিসংখ্যানিক পদ্ধতিগুলি কখনও কখনও বাস্তব বিশ্বের সাথে খাপ খায় না তবে রান্নাঘরের মতো দেখতে অ্যালগরিদমের চেয়ে প্রায়শই বেশি মূল্যবান (ধারণা হিসাবে) হয়।

developpment

প্রথমত, আমি মনে করি পরিসংখ্যানগুলিতে অনেক ভাল পন্থা রয়েছে (আপনি আর প্যাকেজগুলিতে এগুলি দেখতে পাবেন যে কোথাও উল্লেখযোগ্য শক্তির সাথে উল্লেখ করা হয়নি) যা প্রাকৃতিকভাবে দৃ rob় এবং সত্যিকারের ডেটাতে পরীক্ষা করা হয় এবং এই সত্য যে আপনি "মজবুতের সাথে অ্যালগরিদম খুঁজে পান না" "কোথাও উল্লেখ করা মানে এটি দৃ does় নয়। যাইহোক আপনি যদি মনে করেন শক্তিশালী হওয়ার অর্থ সর্বজনীন হওয়া তবে আপনি কোনও শক্তিশালী প্রক্রিয়া পাবেন না (নিখরচায় দুপুরের খাবার নয়) আপনাকে অভিযোজিত সরঞ্জামটি ব্যবহার করতে বা অভিযোজিত মডেল তৈরি করার জন্য আপনার যে ডেটা বিশ্লেষণ করেছেন তাতে কিছু জ্ঞান / দক্ষতা থাকতে হবে।

অন্যদিকে, পরিসংখ্যানগুলিতে কিছু পদ্ধতি দৃ rob় নয় কারণ এগুলি একক ধরণের মডেলকে উত্সর্গীকৃত। আমি মনে করি বিষয়গুলি বোঝার চেষ্টা করার জন্য কোনও পরীক্ষাগারে কাজ করা ভাল। আমাদের সমাধানটি কী সমস্যা তা বোঝার জন্য পৃথকভাবে সমস্যার চিকিত্সা করা ভাল ... গণিতবিদ এইভাবে কাজ করেন। গাউসীয় মডেল এলোক্যান্টের উদাহরণ: এতটাই সমালোচিত কারণ গাউসীয় অনুমান কখনই পরিপূর্ণ হয় না তবে আজ পরিসংখ্যানগতভাবে ব্যবহারিকভাবে ব্যবহার করা of 75% ধারণা নিয়ে এসেছেন। আপনি কি সত্যিই ভাবেন যে প্রকাশিত বা ধ্বংস হওয়া নিয়ম (যা আমি পছন্দ করি না, আমি সম্মত) তা অনুসরণ করার জন্য লিখিত কাগজ লেখার বিষয়েই এই সমস্ত?


11

যে কেউ আমার নিজের গবেষণার জন্য কিছুটা পরিসংখ্যান শিখেছেন, আমি অনুমান করতে পারি যে কারণগুলি শিক্ষাগত এবং আন্তঃরক্তিকর।

আমি আমার নিজের ক্ষেত্রের মধ্যে পর্যবেক্ষণ করেছি যে বিষয়গুলিতে ক্রমটি ক্ষেত্রের ইতিহাসকে প্রতিফলিত করে। যে ধারণাগুলি প্রথম এসেছিল তাদের প্রথমে শেখানো হয়, ইত্যাদি so কেবলমাত্র কার্সারি নির্দেশের জন্য পরিসংখ্যানগুলিতে ডুবে থাকা লোকদের জন্য, এর অর্থ তারা প্রথমে শাস্ত্রীয় পরিসংখ্যান শিখবেন এবং সম্ভবত শেষ পর্যন্ত। তারপরে, তারা আরও শিখলেও, প্রাথমিকতার প্রভাবের কারণে তাদের সাথে কাঠি সহ ধ্রুপদী স্টাফ আরও ভাল।

এছাড়াও, দুটি স্যাম্পল টি-টেস্ট কী তা সবাই জানে। মান-হুইটনি বা উইলকক্সন র‌্যাঙ্ক সামম পরীক্ষা কী তা সবার চেয়ে কম জানে। এর অর্থ হ'ল আমার শক্তিশালী পরীক্ষাটি কী তা ক্লাসিকাল টেস্ট দিয়ে কোনও চেষ্টা করতে না পারার বিপরীতে আমাকে কিছুটা শক্তি প্রয়োগ করতে হবে। এ জাতীয় অবস্থার ফলস্বরূপ কম লোকের উচিত তুলনায় শক্তিশালী পদ্ধতি ব্যবহার করা।


9

ওয়াল্ড্রিজ "পরিচিতি ইকোনোমেট্রিক্স - একটি আধুনিক পদ্ধতি" 2 ই পি .261।

যদি হিটারোস্কেস্টাস্টিটিস-মজবুত স্ট্যান্ডার্ড ত্রুটিগুলি সাধারণ ওএলএস স্ট্যান্ডার্ড ত্রুটির তুলনায় অনেক বেশি সময় ধরে বৈধ হয় তবে আমরা কেন সাধারণ স্ট্যান্ডার্ড ত্রুটিগুলি একেবারেই বিরক্ত করব না? ... তারা ক্রস বিভাগীয় কাজের ক্ষেত্রে এখনও ব্যবহার করার একটি কারণ হ'ল, যদি হোমোসকেডাস্টিকটির ধারণা অনুধাবন করে এবং এরোরগুলি সাধারণত বিতরণ করা হয়, তবে নমুনা আকার নির্বিশেষে সাধারণ টি-পরিসংখ্যানগুলিতে সঠিক টি বিতরণ থাকে distrib শক্তিশালী মান ত্রুটিগুলি এবং শক্তিশালী টি পরিসংখ্যান কেবলমাত্র নমুনার আকার বড় হওয়ার সাথে সাথে ন্যায়সঙ্গত হয়। ছোট ছোট নমুনা আকারের সাথে, শক্তিশালী টি পরিসংখ্যানগুলিতে এমন বিতরণ থাকতে পারে যা টি বিতরণের খুব কাছে নয় এবং এটি আমাদের অনুমানকে ছুঁড়ে দিতে পারে। বড় আকারের নমুনা আকারে, আমরা ক্রস-বিভাগীয় অ্যাপ্লিকেশনগুলিতে কেবল হেটেরোস্কেস্টেটিসিটি-মজবুত স্ট্যান্ডার্ড ত্রুটিগুলির প্রতিবেদন করার জন্য একটি মামলা করতে পারি,


2
এখানে খারাপ সংবাদ: pan.oxfordjournals.org/content/23/2/159
conjugateprior

7

যদিও তারা পারস্পরিক একচেটিয়া নয়, আমি মনে করি যে বায়সিয়ান পরিসংখ্যানগুলির ক্রমবর্ধমান জনপ্রিয়তা এর একটি অংশ। বায়সিয়ান পরিসংখ্যান প্রিয়ার এবং মডেল গড়ের মাধ্যমে অনেকগুলি একই লক্ষ্য অর্জন করতে পারে এবং অনুশীলনে কিছুটা বেশি দৃ be় হতে থাকে।


6

আমি পরিসংখ্যানবিদ নই, পরিসংখ্যানগুলিতে আমার অভিজ্ঞতা মোটামুটি সীমাবদ্ধ, আমি কেবল কম্পিউটার ভিশন / 3 ডি পুনর্নির্মাণ / পোজ অনুমানের ক্ষেত্রে দৃ statistics় পরিসংখ্যান ব্যবহার করি। ব্যবহারকারীর দৃষ্টিকোণ থেকে সমস্যাটি এখানে নিই:

প্রথমত, শক্তিশালী পরিসংখ্যান ইঞ্জিনিয়ারিং এবং বিজ্ঞানে এটিকে "শক্তিশালী পরিসংখ্যান" না বলে প্রচুর ব্যবহার করেছিল। অনেক লোক এটিকে স্বজ্ঞাতভাবে ব্যবহার করে, এটি আসল-বিশ্বের সমস্যার সাথে নির্দিষ্ট পদ্ধতিটি সামঞ্জস্য করার প্রক্রিয়াতে আসে। উদাহরণস্বরূপ পুনরাবৃত্তিটি সর্বনিম্ন স্কোয়ারগুলি এবং ছাঁটাইযুক্ত মাধ্যম / ছাঁটাই করা সর্বনিম্ন বর্গ সাধারণত ব্যবহৃত হয়, যা কেবল ব্যবহারকারীরা জানেন না যে তারা দৃ statistics় পরিসংখ্যান ব্যবহার করেছেন - তারা কেবল আসল, সিন্থেটিক ডেটার জন্য পদ্ধতিটিকে কার্যক্ষম করে তোলে।

দ্বিতীয়ত, "স্বজ্ঞাত" এবং সচেতন শক্তিশালী পরিসংখ্যান উভয় ক্ষেত্রেই ফলস্বরূপ ব্যবহার করা হয় যেখানে ফলাফল যাচাইযোগ্য হয় বা যেখানে স্পষ্টভাবে দৃশ্যমান ত্রুটি মেট্রিক উপস্থিত থাকে। যদি সাধারণ বিতরণে প্রাপ্ত ফলাফল স্পষ্টতই অ-বৈধ বা ভুল হয়, লোকেরা ওজন নিয়ে ছাঁটাই শুরু করে, ছাঁটাই করে, নমুনা দেয়, কিছু কাগজ পড়ে এবং শক্তিশালী অনুমান ব্যবহার করে শেষ হয়, তারা পদটি জানে বা না জানুক। অন্যদিকে যদি গবেষণার শেষ ফলাফলটি কেবল কয়েকটি গ্রাফিক্স এবং ডায়াগ্রামে দেখা যায় এবং ফলাফলগুলি যাচাই করতে কোনও সংবেদনশীল না থাকে, বা যদি স্বাভাবিক পরিসংখ্যান উত্সাহে যথেষ্ট ফলপ্রসূ হয় - মানুষ কেবল বিরক্ত করে না।

এবং সর্বশেষে, তত্ত্ব হিসাবে শক্তিশালী পরিসংখ্যানের উপযোগিতা সম্পর্কে - যদিও তত্ত্ব নিজেই খুব আকর্ষণীয় এটি প্রায়শই কোনও ব্যবহারিক সুবিধা দেয় না। বেশিরভাগ শক্তিশালী অনুমানকারীগুলি মোটামুটি তুচ্ছ এবং স্বজ্ঞাত, প্রায়শই লোকেরা কোনও পরিসংখ্যানগত জ্ঞান ছাড়াই এগুলিকে পুনর্বহাল করে। ভাঙ্গন পয়েন্ট অনুমানের মতো থিওরি, অ্যাসিম্পটিক্স, ডেটা গভীরতা, ভিন্ন ভিন্নতা ইত্যাদির মাধ্যমে ডেটা গভীর বোঝার সুযোগ দেয় তবে বেশিরভাগ ক্ষেত্রে এটি কেবল অপ্রয়োজনীয়। একটি বড় ব্যতিক্রম হ'ল দৃ statistics় পরিসংখ্যান এবং সংবেদনশীল সংবেদনের ছেদ, যা কিছু নতুন ব্যবহারিক পদ্ধতি যেমন "ক্রস-অ্যান্ড-তোড়া" তৈরি করে


5

শক্তিশালী অনুমানকারী সম্পর্কে আমার জ্ঞান কেবলমাত্র রিগ্রেশন পরামিতিগুলির জন্য শক্তিশালী মান ত্রুটির ক্ষেত্রে তাই আমার মন্তব্যটি কেবল তাদের ক্ষেত্রেই হবে। আমি লোকদের এই নিবন্ধটি পড়ার পরামর্শ দেব,

দা-দ্য-ডাকা "হুবার স্যান্ডউইচ অনুমানক" এবং "রোবস্ট স্ট্যান্ডার্ড ত্রুটিগুলি" লিখেছেন: ফ্রিডম্যান, এ। ডেভিড দ্য আমেরিকান স্ট্যাটিস্টিশিয়ান, খণ্ড। 60, নং 4. (নভেম্বর 2006), পৃষ্ঠা 299-302। doi: 10.1198 / 000313006X152207 ( পিডিএফ সংস্করণ )

বিশেষত আমি এই পদ্ধতির সাথে যা উদ্বিগ্ন তা সেগুলি ভুল তা নয়, তবে তারা কেবল বৃহত্তর সমস্যা থেকে বিরত হচ্ছে। এইভাবে আমি রবিন গিরার্ডের উত্তর এবং "বিনামূল্যে মধ্যাহ্নভোজন নয়" তার উল্লেখের সাথে পুরোপুরি একমত।


3

মজবুত পরিসংখ্যানগুলির জন্য প্রয়োজনীয় ক্যালকুলাস এবং সম্ভাবনা (সাধারণত) শক্ত, সুতরাং (ক) তত্ত্ব কম রয়েছে এবং (খ) এটি উপলব্ধি করা শক্ত।


2

গাউস-মার্কভের উপপাদ্য উত্তরের এই দীর্ঘ তালিকায় উল্লেখ করা হয়নি দেখে আমি অবাক হই , আফিক্স:

গোলাকার ত্রুটিযুক্ত রৈখিক মডেলটিতে (যার মধ্যে একটি সীমাবদ্ধ ত্রুটি বৈকল্পের মাধ্যমে কোনও আউটলিয়ারের অনুমান অন্তর্ভুক্ত) ওএলএস লিনিয়ার নিরপেক্ষ অনুমানকগুলির একটি শ্রেণিতে দক্ষ - এটিতে (সীমাবদ্ধ, নিশ্চিত হওয়ার জন্য) শর্ত রয়েছে যার অধীনে " আপনি ওএলএস এর চেয়ে ভাল করতে পারবেন না "।

আমি প্রায় সব সময় ওএলএস ব্যবহার করে ন্যায্য হওয়া উচিত বলে তর্ক করছি না, তবে এটি কেন নিশ্চিতভাবে অবদান রাখে (বিশেষত যেহেতু শিক্ষকতায় ওএলএসের প্রতি এত বেশি মনোযোগ দেওয়ার পক্ষে এটি একটি ভাল অজুহাত)।


আচ্ছা, হ্যাঁ, তবে এটি ধরে নিয়েছে যে বৈকল্পিকতা হ্রাস করা প্রাসঙ্গিক মানদণ্ড এবং ভারী লেজ সহ, এটি এমনটি নাও হতে পারে!
কেজিটিল বি হালওয়ারসেন

1
অবশ্যই। আমি কেবল যা বিশ্বাস করি তা যুক্ত করতে চেয়েছিলাম সম্ভবত শক্তিশালী কৌশলগুলি এটি প্রতিস্থাপন করা হয়নি কেন বোধগম্য কারণগুলির তালিকার জন্য ওএলএস একটি কার্যকর কৌশল বলে মনে করার সবচেয়ে বিখ্যাত কারণ হতে পারে: এমন ঘটনা রয়েছে যেখানে আপনার এটি প্রতিস্থাপন করা উচিত নয়।
ক্রিস্টোফ হ্যাঙ্ক

0

আমার অনুমান যে দৃ rob় পরিসংখ্যান কখনও পর্যাপ্ত হয় না অর্থাত্ শক্তিশালী হওয়ার জন্য পরিসংখ্যানগুলি বিতরণ সম্পর্কে কিছু তথ্য এড়িয়ে যায়। এবং আমি সন্দেহ করি যে এটি সর্বদা ভাল জিনিস নয়। অন্য কথায় দৃust়তা এবং তথ্য হ্রাসের মধ্যে একটি বাণিজ্য রয়েছে।

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
মধ্যম অত্যন্ত ভঙ্গুর এবং গড়টি খুব ভালভাবে আচরণ করা এমন একটি পরিস্থিতির জন্য stats.stackexchange.com/questions/74113/… দেখুন ।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.