সাধারণ পরিসংখ্যান পাপ কি?


227

আমি মনোবিজ্ঞানের একজন গ্রেড শিক্ষার্থী, এবং পরিসংখ্যানগুলিতে আরও বেশি স্বাধীন পড়াশোনা করার পরে, আমার আনুষ্ঠানিক প্রশিক্ষণের অপ্রতুলতা দেখে আমি ক্রমশ বিস্মিত হই। উভয় ব্যক্তিগত এবং দ্বিতীয় অভিজ্ঞতা পরামর্শ দেয় যে স্নাতক এবং স্নাতক প্রশিক্ষণের ক্ষেত্রে পরিসংখ্যানগত কঠোরতার মনোভাব মনোবিজ্ঞানের মধ্যে বরং সর্বব্যাপী। এরূপ হিসাবে, আমি ভেবেছিলাম যে এটি নিজের মতো স্বাধীন শিক্ষানবিশদের জন্য "স্ট্যাটিস্টিকাল সিনস" এর একটি তালিকা তৈরি করা কার্যকর হবে, শিক্ষার্থীদের গ্রেড শিক্ষার্থীদের পড়াশুনার জন্য স্ট্যাটিস্টিকাল প্র্যাকটিসকে বিকাশ করা হবে যা বাস্তবে হয় উচ্চতর (আরও শক্তিশালী, বা নমনীয়, অথবা মজবুত, ইত্যাদি) আধুনিক পদ্ধতি বা স্পষ্টভাবে অবৈধ হিসাবে দেখানো হয়েছে। অন্যান্য ক্ষেত্রগুলিও একই ধরণের পরিস্থিতি অনুভব করতে পারে এই প্রত্যাশা করে, আমি একটি সম্প্রদায় উইকির প্রস্তাব দিচ্ছি যেখানে আমরা শাখাগুলি জুড়ে পরিসংখ্যানগত পাপের একটি তালিকা সংগ্রহ করতে পারি।


5
আমি জানি যে "পাপ" সম্ভবত প্রদাহজনক এবং পরিসংখ্যানগত বিশ্লেষণের কিছু দিক কালো-সাদা নয়। আমার উদ্দেশ্য হল এমন ক্ষেত্রে অনুরোধ করা যেখানে কোনও সাধারণভাবে শেখানো অনুশীলনটি বেশ পরিষ্কারভাবে অনুপযুক্ত।
মাইক লরেন্স

5
আপনি চাইলে মিশ্রণে জীববিজ্ঞান / জীবন বিজ্ঞানের শিক্ষার্থীদেরও যুক্ত করতে পারেন;)
নিকো

1
হয়ত এটিকে জীবন বিজ্ঞানের পরিসংখ্যানগত পাপগুলি পুনরুদ্ধার করুন? ... বা আরও নির্দিষ্ট কিছু ...
জন

1
@ শুভ কিছু ভাল উত্তর ছিল, তাই আমি তাদের উভয় একীভূত।

1
হাই @ আমন্ডা, আপনি এখানে কি আলাপের কিছু ইঙ্গিত দিতে পারেন? কেউ রিক-রোলড হওয়ার সম্ভাবনা পছন্দ করে না।
nnot101

উত্তর:



115

পি-মানগুলির বেশিরভাগ ব্যাখ্যা পাপী! পি-মানগুলির প্রচলিত ব্যবহার খারাপভাবে ত্রুটিযুক্ত; একটি সত্য যে, আমার মতে, অনুমানের পরীক্ষাগুলি এবং তাত্পর্যপূর্ণ পরীক্ষার শিক্ষার মানদণ্ডকে প্রশ্নবিদ্ধ করে।

হ্যালার এবং ক্রাউস সন্ধান করেছেন যে স্ট্যাটিস্টিকাল ইন্সট্রাক্টররা প্রায় শিক্ষার্থীদের পি-ভ্যালু সম্পর্কে ভুল ব্যাখ্যা করতে পারে। (তাদের কাগজে পরীক্ষা নিন এবং দেখুন আপনি কীভাবে করেন)) স্টিভ গুডম্যান সম্ভাবনার পক্ষে পি-ভ্যালুয়ের প্রচলিত (ভুল) ব্যবহারটি বাতিল করার জন্য একটি ভাল মামলা করেছেন। হাবার্ড পেপারটিও এক নজর দেখার মতো।

হ্যালার এবং ক্রাউস তাত্পর্যটির ভুল ব্যাখ্যা: একটি সমস্যা শিক্ষার্থীরা তাদের শিক্ষকদের সাথে ভাগ করে । মানসিক গবেষণা পদ্ধতি (2002) খণ্ড। 7 (1) পিপি 1-20 ( পিডিএফ )

হাববার্ড এবং বায়ারি। ধ্রুপদী পরিসংখ্যান পরীক্ষায় ত্রুটি (Er এর) এর পরিমাপের প্রমাণের বিষয়ে বিভ্রান্তি । আমেরিকান পরিসংখ্যানবিদ (2003) খণ্ড 57 (3)

ভাল মানুষ. প্রমাণ ভিত্তিক মেডিক্যাল পরিসংখ্যানের দিকে। 1: পি মান ভ্রান্তি। আন ইন্টার্ন মেড (1999) খণ্ড। 130 (12) পিপি 995-1004 ( পিডিএফ )

আরও দেখুন:

ওয়াগেনমেকার্স, ইজে। পি মানগুলির বিস্তৃত সমস্যাগুলির একটি কার্যকর সমাধান। সাইকোনমিক বুলেটিন অ্যান্ড রিভিউ, 14 (5), 779-804।

কিছু পরিষ্কার কাটা মামলার ক্ষেত্রে যেখানে পরীক্ষকগণের পছন্দগুলি করার কারণে এমনকি একটি পি-ভ্যালুর নামমাত্র "সঠিক" ব্যাখ্যাও ভুল করা হয়েছে।

আপডেট (২০১)) : ২০১ In সালে আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন পি-ভ্যালু সম্পর্কে বিবৃতি জারি করেছে, এখানে দেখুন । এটি একরকম আগে মনোবিজ্ঞান জার্নাল দ্বারা জারি করা "পি-মানগুলিতে নিষেধাজ্ঞার" প্রতিক্রিয়া ছিল।


2
@ মিশেল (+1) আমি বিমূর্তি এবং অবরুদ্ধ পিডিএফগুলিতে লিঙ্কগুলি যুক্ত করেছি। আশা করি কিছু মনে করবেন না।
chl

7
+1, তবে আমি কিছু সমালোচনামূলক মন্তব্য করতে চাই। প্রারম্ভিক রেখাটি সম্পর্কে, কেউ ঠিক সেভাবে বলতে পারত যে "প্রায় সমস্ত" (পরিমাপ তাত্ত্বিক অর্থে) যে কোনও সুসংজ্ঞাত ধারণার ব্যাখ্যা ভুল, কারণ কেবলমাত্র একটি সঠিক। দ্বিতীয়ত, আপনি যখন "প্রচলিত ব্যবহার" এবং "স্ট্যান্ডার্ড অ্যাপ্রোচগুলি" বলছেন তখন আপনি কোনটির প্রতি উল্লেখ করবেন? এই অস্পষ্ট রেফারেন্সগুলি খড়ের মতো মনে হয়। উদাহরণস্বরূপ, পরিসংখ্যান শিক্ষার ক্ষেত্রে সাহিত্যে কী কী পাওয়া যায় তার সাথে তারা একমত হয় না।
হোবার

4
গুডম্যান পেপারটি দেখুন এটি ফার্মাকোলজির ক্ষেত্রে আমার অভিজ্ঞতার সাথে চমত্কারভাবে সম্মতি জানায়। পদ্ধতিগুলি বলে যে "পি <0.05 ফলাফল পরিসংখ্যানপূর্ণ তাৎপর্য হিসাবে নেওয়া হয়েছিল" এবং তারপরে ফলাফলগুলি <পি 0.05 এর জন্য +, পি <0.01 এর জন্য ++ এবং পি <0.0001 এর জন্য +++ উপস্থাপন করা হয়। বিবৃতিটি লা লা নেইমন এবং পিয়ারসনকে ত্রুটির হারের নিয়ন্ত্রণের বোঝা দেয়, তবে বিভিন্ন স্তরের পি ব্যবহার ফিশারের পদ্ধতির নির্দেশ দেয় যেখানে পি মান নাল অনুমানের বিরুদ্ধে প্রমাণের শক্তির একটি সূচক। গুডম্যান যেমন উল্লেখ করেছেন, আপনি একই সাথে ত্রুটির হার নিয়ন্ত্রণ করতে এবং প্রমাণের শক্তির মূল্যায়ন করতে পারবেন না।
মাইকেল লিউ

8
@ মিশেল এই ধরণের প্রতিবেদনের বিকল্প, আরও উদার ব্যাখ্যা রয়েছে। উদাহরণস্বরূপ, লেখক সচেতন হতে পারে যে পাঠকরা তাদের নিজস্ব তাত্পর্যের তাত্পর্যটি প্রয়োগ করতে চান এবং সেজন্য তাদের সাহায্য করার জন্য পি-মানগুলির পতাকাঙ্কণ করতে পারেন। বিকল্পভাবে, লেখক সম্ভবত একাধিক তুলনা সমস্যাগুলি সম্পর্কে সচেতন হতে পারেন এবং একটি বনফেরোনির মতো সামঞ্জস্যকরণের ক্ষেত্রে পৃথকীকরণের স্তরগুলি ব্যবহার করতে পারেন। সম্ভবত পি-ভ্যালুগুলির অপব্যবহারের জন্য দোষের কিছু অংশ পাঠকের পায়ের কাছে রাখা উচিত, লেখক নয়।
হোবার

4
@ ভুবার আমি সম্পূর্ণরূপে একমত, তবে কেবলমাত্র আপনি যা পরামর্শ দিচ্ছেন এটি কিছু ছোট অংশে ('সম্পূর্ণরূপে একটি সীমাবদ্ধ সংস্করণ)' তে সত্য। কিছু জার্নাল রয়েছে যা উল্লেখ করে যে পি মানগুলি সঠিক মানগুলির চেয়ে এক, দুই বা তিন তারা স্তরে রিপোর্ট করা উচিত, সুতরাং সেইসব জার্নালগুলি ফলাফলের জন্য কিছুটা দায় ভাগ করে দেয়। যাইহোক, দুর্বল বিবেচিত প্রয়োজন এবং পি মানগুলির স্পষ্টতই নির্বোধ ব্যবহার, আমার তাকগুলিতে থাকা বেশ কয়েকটি প্রবর্তনামূলক পরিসংখ্যান গ্রন্থগুলিতে ত্রুটি হার এবং প্রমাণের মধ্যে পার্থক্য সম্পর্কে স্পষ্ট ব্যাখ্যা না থাকার ফলস্বরূপ হতে পারে।
মাইকেল লিউ

73

ভবিষ্যদ্বাণীমূলক মডেলটিতে কাজ করার সময় আমি সবচেয়ে বিপজ্জনক ফাঁদে পড়েছি তাড়াতাড়ি কোনও পরীক্ষার ডেটাসেট সংরক্ষণ করা নয় যাতে এটি "চূড়ান্ত" পারফরম্যান্স মূল্যায়নে উত্সর্গ করা হয়।

আপনার মডেলটির ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতাটিকে মূল্যায়ন করা সত্যিই সহজ যদি আপনি যদি প্যারামিটারগুলি টুইট করার সময় পরীক্ষার ডেটা কোনওভাবে ব্যবহার করার সুযোগ পেয়ে থাকেন, পূর্ববর্তীটি নির্বাচন করেন, শেখার অ্যালগরিদমকে মাপদণ্ড বন্ধ করে নির্বাচন করে ...

এই সমস্যাটি এড়ানোর জন্য, নতুন ডেটাসেটে আপনার কাজ শুরু করার আগে আপনার ডেটাটিকে এইভাবে ভাগ করে নেওয়া উচিত:

  • উন্নয়ন সেট
  • মূল্যায়ন সেট

তারপরে আপনার প্রশিক্ষণ বিকাশ সেটটিকে "প্রশিক্ষণ বিকাশ সেট" এবং "টেস্টিং ডেভলপমেন্ট সেট" হিসাবে বিভক্ত করুন যেখানে আপনি বিভিন্ন পরামিতি সহ বিভিন্ন মডেলকে প্রশিক্ষণের জন্য প্রশিক্ষণ বিকাশ সেট ব্যবহার করেন এবং পরীক্ষার বিকাশের সেটটিতে কর্মক্ষমতা অনুযায়ী বেসগুলি নির্বাচন করুন। আপনি ক্রস বৈধতা সহ গ্রিড অনুসন্ধান করতে পারেন তবে কেবলমাত্র ডেভলপমেন্ট সেটে। মডেল নির্বাচনটি 100% সম্পন্ন না হয়ে কখনই মূল্যায়ন সেট ব্যবহার করবেন না।

একবার আপনি মডেল নির্বাচন এবং পরামিতিগুলির সাথে আত্মবিশ্বাসী হয়ে উঠলে, নির্বাচিত মডেলের "আসল" ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতার ধারণা পাওয়ার জন্য মূল্যায়নের জন্য 10 গুণগুলি ক্রস-বৈধকরণ করুন।

এছাড়াও যদি আপনার ডেটা অস্থায়ী হয় তবে একটি সময় কোডে বিকাশ / মূল্যায়ন বিভাজন চয়ন করা ভাল: "ভবিষ্যদ্বাণী করা শক্ত - বিশেষত ভবিষ্যতের বিষয়ে" "


5
আমি নীতিগতভাবে এটির সাথে একমত তবে একটি ছোট ডেটা সেটের ক্ষেত্রে (আমার প্রায়শই কেবলমাত্র 20-40 টি ক্ষেত্রে থাকে) পৃথক মূল্যায়ন সেট ব্যবহার করা ব্যবহারিক নয়। নেস্টেড ক্রস-বৈধতা এটি প্রায় পেতে পারে তবে ছোট ডেটা সেটগুলিতে হতাশাবাদী অনুমানের দিকে নিয়ে যেতে পারে
বিগ্রেন

11
সাধারণভাবে ডেটা বিভাজনের জন্য নির্ভরযোগ্য হওয়ার জন্য এটি একটি বিশাল ডেটাসেট নেয়। এজন্য বুটস্ট্র্যাপের সাথে কঠোর অভ্যন্তরীণ বৈধতা এত আকর্ষণীয়।
ফ্র্যাঙ্ক হ্যারেল

বিশেষত যখন ডেভলপমেন্ট সেটটি অতীত ডেটা এবং মূল্যায়ন সেট করে ভবিষ্যতের ডেটা। কেন না, সমস্ত মডেল টিউনিংয়ের পরে, চূড়ান্ত মডেলটিকে সম্পূর্ণ বিকাশের সেটটিতে নির্দিষ্ট পরামিতিগুলি দিয়ে প্রশিক্ষণ দিন এবং এটির সাথে পুরো মূল্যায়ন সেটটি পূর্বাভাস দিন। প্রকৃত দৃশ্যে, আপনি যেভাবেই বর্ণনা করবেন ভবিষ্যতের ডেটা দিয়ে বৈধতা কাটাতে পারেননি, সুতরাং আপনি সমস্ত প্রাসঙ্গিক পূর্ববর্তী ডেটা ব্যবহার করবেন।
ডেভিড আর্নস্ট

64

যখন আপনি পরিসংখ্যানের পরিবর্তে ডেটা মাইনিং (হাইপোথিসিস আবিষ্কার) করেন তখন পি-ভ্যালুগুলি প্রতিবেদন করা (অনুমান পরীক্ষা)।


2
আপনি (বা কেউ) বিস্তারিত বলতে পারেন?
এন্টোইন-স্যাক


একাধিক হাইপোথিসিস টেস্টিং (বনফেরোনি পদ্ধতির কিছু স্বাদ বা আরও উন্নত সংশোধন সহ) সংশোধন করা পি-মানগুলি সম্পর্কে কী? আমি ভাবছি এটি ঠিক আছে, এমনকি ডেটা মাইনিংয়ের প্রসঙ্গে?
এন্টোইন-স্যাক

আমি সাধারণ ধারণাটি পছন্দ করি তবে পূর্ববর্তীটির সাবসেট হয়ে গেলে অনুমানের পরীক্ষার সাথে পরিসংখ্যানকে সমান করা একটি বিকৃতি।
Rolando2

46

হাইপোথিসেস বনাম এইচ 1 : μ 0 (উদাহরণস্বরূপ গাউসিয়ান সেটিংয়ে) পরীক্ষা করা হচ্ছেH0:μ=0H1:μ0

যে ন্যায্যতা একটি মডেল (অর্থাত মিশ্রিত করা " এইচ 0 প্রত্যাখ্যাত হয় না" এবং " এইচ 0 সত্য")।μ=0H0H0

এই ধরণের (খুব খারাপ) যুক্তিগুলির একটি খুব ভাল উদাহরণ হ'ল যখন আপনি পরীক্ষা করেন যে দুটি গৌসিয়ানর রূপগুলি সমান (যেমন না) পরীক্ষা করার আগে তাদের সমান বৈকল্পিকতা অনুমানের সাথে বৈধ হয় কি না।

আপনি যখন স্বাভাবিকতা প্রমাণ করার জন্য স্বাভাবিকতা (বনাম অ-স্বাভাবিকতা) পরীক্ষা করেন তখন আর একটি উদাহরণ ঘটে। প্রতিটি পরিসংখ্যানবিদ জীবন আছে যে? এটি বাআদ :) (এবং লোককে গৌসিবিহীনতার প্রতি দৃ rob়তা পরীক্ষা করার জন্য চাপ দেওয়া উচিত)


6
একই যুক্তি ("এইচ 1 এর অনুপস্থিতির প্রমাণ হিসাবে" এইচ 1 এর পক্ষে "প্রমাণের অনুপস্থিতি গ্রহণ") মূলত সমস্ত সদ্ব্যবহারের উপযুক্ত পরীক্ষাগুলি অন্তর্ভুক্ত করে। লোকেরা যখন বলেছিল যে "পরীক্ষাটি তাত্পর্যপূর্ণ ছিল না, তখন আমরা যুক্তিযুক্ত এক্স / ভেরিয়েবল ওয়াইয়ের কোনও প্রভাবের প্রভাব ফেলতে পারি না" এই সিদ্ধান্তটিও প্রায়শই যুক্ত হয় The আমি অনুমান করি যে পরীক্ষার শক্তি সম্পর্কে যুক্তি সহকারে যদি পাপটি কম তীব্র হয় তবে (উদাহরণস্বরূপ, নির্দিষ্ট প্রাসঙ্গিক প্রভাবের আকারের সাথে নির্দিষ্ট শক্তিতে পৌঁছানোর জন্য নমুনা আকারের প্রাক-প্রাক্কলন অনুমান)।
ক্যারাকাল

আপনি যদি পাওয়ার সম্পর্কে কোনও মনগড়া না করেন তবে আমি বলব যে প্রত্যাখ্যান করা সত্য যখন এটি প্রত্যাখ্যান করা হয় না খুব খারাপ হয় এবং এইচ 1 টি দাবী করা সত্য হয় এবং এইচ 0 অস্বীকার করা মাত্র একটি ভুল ভুল :)। এইচ0এইচ1এইচ0
রবিন গিরার্ড

গ্রেট !! হ্যাঁ, এটি আমাকে পাগল করে
তোলে

3
আমি পরিসংখ্যানগতভাবে শিক্ষিত হওয়ার চেষ্টা করি এবং এখনও সময়ে সময়ে এটির জন্য পড়ে যাই। বিকল্পগুলি কি? আপনার মডেলটি পরিবর্তন করুন যাতে পুরানো নালটি হয়ে যায় ? কেবলমাত্র অন্য একটি বিকল্প যা আমি ভাবতে পারি তা হ'ল আপনার অধ্যয়নকে যথেষ্ট শক্তি দেওয়া যে শূন্যটিকে প্রত্যাখ্যান করতে ব্যর্থ হওয়া অনুশীলনটি নালকে নিশ্চিত করার জন্য যথেষ্ট কাছাকাছি। উদাহরণস্বরূপ আপনি যদি নিশ্চিত করতে চান যে আপনার কোষগুলিতে একটি রিএজেন্ট যুক্ত করা তাদের 2% এরও বেশি লোককে হত্যা করবে না, সন্তোষজনক মিথ্যা নেতিবাচক হারের শক্তি। H1
ডকবকেটস

বিদ্যুৎ ভিত্তিক পদ্ধতির চেয়ে দুটি একতরফা পরীক্ষার সাথে ডকবকেটস সমতুল্য পরীক্ষা করা আরও কঠোর। তবে আপনাকে নীচে ন্যূনতম প্রাসঙ্গিক প্রভাবের আকার নির্ধারণ করতে হবে যা আপনি ব্যবহারিক সমতুল্যের কথা বলতে পারেন।
ডেভিড আর্নস্ট

46

কয়েকটি ভুল যা আমাকে বিরক্ত করে:

  1. অনুমান নিরপেক্ষ অনুমানকারীরা সবসময় পক্ষপাতদুষ্ট অনুমানকারীদের চেয়ে ভাল।

  2. ধরে নিই যে একটি উচ্চতর একটি ভাল মডেলকে বোঝায়, লো আর 2 একটি খারাপ মডেলকে বোঝায়।R2R2

  3. পারস্পরিক সম্পর্ক ভুলভাবে ব্যাখ্যা করা / প্রয়োগ করা।

  4. স্ট্যান্ডার্ড ত্রুটি ছাড়াই বিন্দু অনুমানের রিপোর্টিং।

  5. আরও শক্তিশালী, আরও ভাল পারফরম্যান্সহীন, নন / সেমিপারমেট্রিক পদ্ধতি উপলভ্য হলে এমন পদ্ধতিগুলি ব্যবহার করে যা কিছু ধরণের মাল্টিভারিয়েট নরমালটি (যেমন লিনিয়ার ডিসক্রিমেন্ট্যান্ট অ্যানালাইসিস) অনুমান করে।

  6. কোনও সম্পর্কের কতটুকু প্রমাণ রয়েছে তার পরিমাপের পরিবর্তে একজন ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়ার মধ্যে শক্তি পরিমাপ হিসাবে পি-মান ব্যবহার করা ।


5
আপনি কি আলাদা বিকল্পগুলিতে বিভক্ত করবেন?
রাসেলপিয়ার্স

41

অবিচ্ছিন্ন ভবিষ্যদ্বাণীকারীর প্রভাবটিকে "সরলকরণ" বিশ্লেষণে বা অ-লাইনারিটির "সমস্যা" সমাধান করার জন্য একটি ধারাবাহিক ভবিষ্যদ্বাণী ভেরিয়েবলের ডিকোটমাইজেশন।


18
প্রাপ্ত ফলাফলগুলি ভুল না হওয়ায় এটি সত্যই "পাপ" বলে আমি মনে করি না। তবে এটি প্রচুর দরকারী তথ্য ফেলে দেয় তাই ভাল অনুশীলন নয়।
রব হ্যান্ডম্যান

2
এই রেখাগুলির সাথে, চূড়ান্ত গোষ্ঠীগুলি ওভার-অ্যাসিমেটস প্রভাবের আকারগুলি ডিজাইন করে যেখানে একটি গড় বা মিডিয়ান স্প্লিটের অধীনে-অনুমানের প্রভাব আকারগুলি ব্যবহার করে।
রাসেলপিয়ের্স

2
দু'একটি পৃথক জনসংখ্যা থাকলে এটি এমনকি পাপও নয়। ধরা যাক আপনার বিভাজনযোগ্য ক্লাস বা উপ-জনসংখ্যা রয়েছে, তবে এটি বিযুক্তি বোধ করা যায়। খুব তুচ্ছ উদাহরণ: আমি কি বরং সাইট / অবস্থান / শহর / দেশ বা ল্যাট / দীর্ঘের জন্য সূচকগুলি ব্যবহার করব?
Iterator

3
+1 এবং যখন তারা দ্বৈতকরণের কাটঅফ বেছে নেওয়া শুরু করেন তখন এটি মারাত্মক পাপ হয়ে যায় যাতে এটি পরীক্ষা করা হয় এমন কিছু পার্থক্যটিকে অনুকূল করে তোলে।
এরিক

5
@ ইট্রেটার আপনি একত্রিত হওয়ার আসল কারণটি পেতে শুরু করেছেন (দুই বা ততোধিক বিভাগে), কারণ এটির কারণগুলির মধ্যে একটি বিশ্বাস করা যে অগ্রাধিকার তাত্ত্বিক কারণগুলি রয়েছে যে iance বিভাগগুলিতে বৈকল্পিক অর্থপূর্ণভাবে বিভাগীয় হয়েছে । উদাহরণস্বরূপ, আমরা এই ধারণাটি ধরে সর্বদা করি যে কোনও ট্রিলিয়ন বা তাই কোষের সংকলন একটি পৃথক ব্যক্তির সমন্বিত , বা পৃথিবীতে এখানে একটি 24 ঘন্টা সময়সীমার অর্থ একক হিসাবে ব্যাখ্যা করা হয়। তবে ইচ্ছামত একত্রিতকরণ তথ্য (যেমন পরিসংখ্যানগত শক্তি) কেবল "ছুঁড়ে ফেলা" করে না, তবে ঘটনার মধ্যে সম্পর্কের বিষয়ে (গুরুতর) পক্ষপাতিত্বের কারণ হতে পারে।
অ্যালেক্সিস

41

সত্যই প্রশ্নের উত্তর দিচ্ছে না, তবে এই বিষয়টিতে একটি সম্পূর্ণ বই রয়েছে:

ফিলিপ আই। গুড, জেমস উইলিয়াম হার্ডিন (2003) পরিসংখ্যানগুলিতে সাধারণ ত্রুটি (এবং কীভাবে সেগুলি এড়ানো যায়)। উইলি। আইএসবিএন 9780471460688


6
+1 আমি এই বইটি প্রকাশিত হওয়ার খুব শীঘ্রই এটি নিশ্চিত করেছিলাম। আমি পরিসংখ্যানগত ভুল করার প্রচুর সুযোগ পাই তাই আমি এগুলি করার আগে তাদের চিহ্নিত করার জন্য আমি সর্বদা কৃতজ্ঞ !
শুক্রবার


41

Ritualized পরিসংখ্যান।

এই "পাপ" তখনই হয় যখন আপনি যা কিছু শেখানো হয়েছিল তার যথাযথতা নির্বিশেষে প্রয়োগ করেন, কারণ জিনিসগুলি এভাবেই হয়। এটি রোট দ্বারা পরিসংখ্যান, এক স্তর উপরে যা মেশিনকে আপনার জন্য পরিসংখ্যান চয়ন করতে দেয়।

উদাহরণস্বরূপ স্তরের শিক্ষার্থীদের পরিচয়পত্রগুলি হ'ল প্রতিটি বিষয়কে তার বিনীত টি-টেস্ট এবং আনোভা সরঞ্জামদণ্ডে ফিট করার চেষ্টা করা বা যে কোনও সময় নিজেকে "ওহ, আমার বিবরণী ডেটা আছে, আমার কাছে এক্স ব্যবহার করা উচিত" এদিকে নজর দেওয়া বন্ধ না করেই করা উচিত ডেটা, বা জিজ্ঞাসা করা প্রশ্ন বিবেচনা করুন।

এই পাপের পরিবর্তনের মধ্যে কোডটি আপনি কেবলমাত্র এক ধরণের বোঝার আউটপুট উত্পাদন করতে বোঝেন না তা ব্যবহারের সাথে জড়িত, তবে "পঞ্চম কলামটি, প্রায় 8 টি সারি নিচে" বা আপনার যে উত্তরটি সন্ধান করা উচিত বলে মনে করেন তা জেনে রাখুন।


6
দুর্ভাগ্যক্রমে, আপনি যদি পরিসংখ্যানগত অনুক্রমের প্রতি আগ্রহী না হন বা সময় এবং / অথবা সংস্থানগুলিতে খুব কমই থাকেন তবে আচারটি খুব চিত্তাকর্ষক বলে মনে হচ্ছে ...
সম্ভাব্যতা ব্লগ

আমার কাছে এপিগ্রাডের বর্ণনাটি এমন একজনের সম্পর্কে যিনি অনুমানের বিষয়ে আন্তরিকভাবে যত্নশীল হন এবং প্রতিবিম্ব, আবিষ্কার এবং কার্যকারণের বিবেচনার মতো বিষয়গুলিকে অবহেলা করেন।
রোল্যান্ডো 2

35

মডেল নির্বাচনের পরে ধাপে ধাপে রিগ্রেশন এবং পরীক্ষার অন্যান্য রূপগুলি হতে পারে।

বিদ্যমান সম্পর্কের পিছনে কোনও পূর্বের অনুমান না করেই মডেলিংয়ের জন্য স্বতন্ত্র ভেরিয়েবল নির্বাচন করা অন্য ভুলগুলির মধ্যেও যৌক্তিক ভুল বা তাত্পর্যপূর্ণ সম্পর্ক স্থাপন করতে পারে।

দরকারী রেফারেন্স (একটি জৈবিক / জৈবিক বিষয় সম্পর্কিত দৃষ্টিকোণ থেকে):

  1. কোজাক, এম।, এবং আজেভেদো, আর। (2011) অনুক্রমিক পথ বিশ্লেষণ মডেলগুলি তৈরি করতে পদক্ষেপের পরিবর্তনশীল নির্বাচন ব্যবহার করা কি কোনও অর্থবোধ করে? ফিজিওলজিয়া প্লান্টেরাম, 141 (3), 197–200। ডোই: 10,1111 / j.1399-3054.2010.01431.x

  2. হুইটিংহাম, এমজে, স্টিফেন্স, পি।, ব্র্যাডবেরি, আরবি, এবং ফ্রেকলটন, আরপি (2006)। আমরা এখনও বাস্তুশাস্ত্র এবং আচরণে ধাপে ধাপে মডেলিং ব্যবহার করি না কেন? প্রাণী পরিবেশের জার্নাল, 75 (5), 1182-9। ডোই: 10,1111 / j.1365-2656.2006.01141.x

  3. ফ্র্যাঙ্ক হ্যারেল, রিগ্রেশন মডেলিং কৌশল , স্প্রিংগার 2001।


32

সম্মেলনের কাগজপত্র এবং এমনকি জার্নালগুলিতে আমি একটি আশ্চর্যজনক পরিমাণ দেখছি যেগুলি একাধিক তুলনা করছে (উদাহরণস্বরূপ দ্বিখণ্ডিত পারস্পরিক সম্পর্ক) এবং তারপরে সমস্ত পি <.05 গুলি "তাৎপর্যপূর্ণ" হিসাবে বর্ণনা করছে (মুহুর্তের জন্য এর সঠিকতা বা অন্যায়টিকে উপেক্ষা করে)।

মনোবিজ্ঞানের স্নাতকদের সম্পর্কে আপনি কী বোঝাতে চেয়েছিলেন তাও আমি জানি know আমি মনোবিজ্ঞানে পিএইচডি শেষ করেছি এবং আমি এখনও কেবল সত্যই শিখছি। এটি বেশ খারাপ, আমি মনে করি মনোবিজ্ঞানের পরিমাণগত তথ্য বিশ্লেষণকে আরও গুরুত্ব সহকারে নেওয়া দরকার যদি আমরা এটি ব্যবহার করতে যাচ্ছি (যা স্পষ্টতই আমাদের উচিত)


9
এটি বিশেষভাবে গুরুত্বপূর্ণ। আমার মনে আছে যে রমজান শিশুদের মায়েদের উপোস ছিল তাদের জন্য মন্দ ছিল কিনা তা নিয়ে একটি গবেষণা পড়েছি। এটি প্রশংসনীয় লাগছিল (কম খাবার, কম জন্মের ওজন) তবে আমি পরিশিষ্টের দিকে তাকালাম। হাজারো অনুমান, এবং তাদের কয়েক শতাংশ ছিল "উল্লেখযোগ্য" পরিসরে। আপনি "রমজান ২ য়, চতুর্থ বা 6th ষ্ঠ মাস হলে বাচ্চার পক্ষে খারাপ" এর মতো অদ্ভুত "সিদ্ধান্ত" পেয়ে যান।
কার্লোস

29

অনুসন্ধানী হওয়া কিন্তু নিশ্চিতকরণের ভান করা। এই করতে ঘটতে যখন কেউ বিশ্লেষণ কৌশল (অর্থাত মডেল ফিটিং পরিবর্তনশীল নির্বাচন ইত্যাদি) চালিত তথ্য পরিবর্তন হয় বা ফল চালিত কিন্তু চিঠিতে এই প্রকাশ্যে এবং তারপর কেবল "শ্রেষ্ঠ" (অর্থাত ক্ষুদ্রতম P-মান) ফলাফল রিপোর্ট যেন এটি ছিল একমাত্র বিশ্লেষণ। ক্রিস বিলি যে একাধিক পরীক্ষার কাজ করেছে এবং বৈজ্ঞানিক প্রতিবেদনে উচ্চতর মিথ্যা ধনাত্মক হারের ফলাফল করে তাও এই বিষয়টির সাথে সম্পর্কিত।


26

যেটি আমি বেশিরভাগ সময় এবং সর্বদা আমার গিয়ারগুলি পিষে দেখি তা হ'ল এই ধারণাটি যে একটি গোষ্ঠীতে একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ প্রধান প্রভাব এবং অন্য গোষ্ঠীতে একটি অ-পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ প্রধান প্রভাবটি একটি এক্স এক্স গ্রুপ মিথস্ক্রিয়াকে বোঝায়।


24

বিশেষত মহামারীবিজ্ঞান এবং জনস্বাস্থ্যের ক্ষেত্রে - সহযোগীতার আপেক্ষিক ব্যবস্থার গ্রাফগুলি রিপোর্ট করার সময় লগারিদমিক স্কেলের পরিবর্তে পাটিগণিত ব্যবহার করা (বিপদ অনুপাত, প্রতিকূল অনুপাত বা ঝুঁকি অনুপাত)।

আরও তথ্য এখানে


5
সব তাদের লেবেল না উল্লেখ করতে xkcd.com/833
radek

23

সম্পর্কের অর্থ কার্যকারণ, যা নাল হাইপোথেসিসকে গ্রহণ করার মতো খারাপ নয়।


তবে কখনও কখনও ... কখনও কখনও কার্যকারণের সম্ভাব্য দিকগুলিতে অত্যন্ত বৈষম্য সম্ভাবনা থাকে। আমি অবশ্যই এটি ভাবতে যাচ্ছি না যে বয়স এবং উচ্চতার মধ্যে একটি পারস্পরিক সম্পর্ক উচ্চতা ... বা কিছু হস্তক্ষেপ পরিবর্তনশীল দ্বারা সৃষ্ট হতে পারে। এছাড়াও, আমি মনে করি যে এটি এমন একটি যা আচরণগত বিজ্ঞানের প্রশিক্ষণ সাধারণত বেশ সংবেদনশীল is
জন

প্রকৃতপক্ষে, কিছু inferring A and B are correlatedসাধারণত দেখতে A causes Bকিন্তু B causes A... (এবং ভুলে সম্পর্কে Cযা ঘটায় Aএবং B)
আন্দ্রে Holzner

12
গুগল পার্থক্যটি যত্ন না করে এক বছরে B 65 বি আয় করে ...
নিল ম্যাকগুইগান

5
আমি আপনার বিষয়গুলির সাথে একমত এবং সেগুলি সবই বৈধ। তবে গুগলের লাভ কী বোঝায়: পারস্পরিক সম্পর্ক => কার্যকারিতা?
সানকুলসু

3
গুগল সেই সমস্ত অর্থ উপার্জনকে মোটেই মাথা ঘামায় না। আসলে, কেন হবে? ভবিষ্যদ্বাণীটি হ'ল ...
কনজুগেটপায়ার

23

আনোভা ব্যবহার করে রেট ডেটা (যথার্থতা ইত্যাদি) বিশ্লেষণ করে, অনুমান করে যে হারের ডেটা গৌসিকে বিতরণ করার সময় ত্রুটি বিতরণ করেছে যখন এটি আসলে দ্বি-দ্বি বিতরণ করা হয়েছিল। ডিকসন (২০০৮) এই পাপের পরিণতি এবং আরও উপযুক্ত বিশ্লেষণ পদ্ধতির অনুসন্ধানের বিষয়ে আলোচনা সরবরাহ করে।


4
এটি বিশ্লেষণের শক্তি কতটা হ্রাস করে? কোন পরিস্থিতিতে এটি সবচেয়ে সমস্যাযুক্ত? অনেক ক্ষেত্রে অ্যানোভা অনুমান থেকে বিচ্যুতি ফলাফল একটি গুরুত্বপূর্ণ পরিমাণে যথেষ্ট প্রভাবিত করে না।
মাইকেল লু

আনোভা পদ্ধতিটি কী কী বিকল্প?
হেনরিক

@ মিশেল লিউ ও হেনরিক: আমি ডিকসনের একটি লিঙ্ক অন্তর্ভুক্ত করার জন্য এই এন্ট্রিটি আপডেট করেছি (২০০৮)
মাইক লরেন্স

2
তবে সংক্ষেপে বলা যায়, যখন মানগুলির পরিসীমা সংকীর্ণ হয় এবং গাউসীয় অনুমানগুলি পূরণ করতে অক্ষম হওয়ায় সম্ভাব্যতাগুলি কম বা বেশি দেখা যায় তখন এটি সবচেয়ে সমস্যাযুক্ত।
রাসেলপিয়ার্স

এটি কেবল দ্বিপদী হিসাবে সাধারণ আনুমানিকের মতোই খারাপ - জরিমানা করা উচিত, তবে প্রতিটি ক্ষেত্রে হার গণনার ক্ষেত্রে ব্যবহৃত ডিনোমিনেটর দ্বারা ভারিত হয়। এটি 10% এর নীচে এবং 90% এরও বেশি হারের জন্য খারাপ আচরণ করবে বলে আশা করি।
সম্ভাব্যতা

18

বর্তমানের জনপ্রিয় একটি পুনরাবৃত্তি ব্যবস্থা ডিজাইনে কাঁচা পারফরম্যান্সের মানগুলির 95% আত্মবিশ্বাসের ব্যবধানগুলি প্লট করে যখন তারা কেবল কোনও প্রভাবের পরিবর্তনের সাথে সম্পর্কিত হয়। উদাহরণস্বরূপ, আত্মবিশ্বাসের ব্যবধানগুলির সাথে পুনরাবৃত্তি ব্যবস্থাগুলির পুনরাবৃত্তি ব্যবস্থার প্রতিক্রিয়া বারের একটি প্লট যেখানে ত্রুটি শব্দটি এমএসই থেকে পুনরাবৃত্তি ব্যবস্থার আনোভা থেকে উদ্ভূত হয়। এই আত্মবিশ্বাসের অন্তরগুলি বোধগম্য কোনও কিছুর প্রতিনিধিত্ব করে না। তারা অবশ্যই নিখুঁত প্রতিক্রিয়া সময় সম্পর্কে কিছুই প্রতিনিধিত্ব করে না। আপনি প্রভাবটির চারপাশে আত্মবিশ্বাসের ব্যবধান তৈরি করতে ত্রুটি শব্দটি ব্যবহার করতে পারেন তবে এটি খুব কমই করা হয়।


এমন কোনও স্ট্যান্ডার্ড নিবন্ধ আছে যা পর্যালোচকদের এই অতি-প্রচলিত অভ্যাসের দাবি থেকে বিরত রাখতে উদ্ধৃত করা যেতে পারে?
রাসেলপিয়ের্স

আমার জানা একমাত্র সমালোচক হ'ল ব্লুইন এবং রিওপেল (২০০৫) তবে তারা এই বিষয়টিকে কেন্দ্র করে না। আমি ম্যাসন অ্যান্ড লোফটাসের প্রভাব গ্রাফগুলির মতো এগুলি না দেখানোর পরিবর্তে কিছু সঠিক করার জন্য জোর দিচ্ছি না (২০০৩, চিত্র ৪, ডান প্যানেলটি দেখুন ... যদি তারা বাম দিক থেকে অপসারণ করা হয় তবে আপনি এটি সঠিকভাবে করেছেন) )।
জন

কেবল স্পষ্ট করে বলতে গেলে, সিআই'র সমস্যাটি হ'ল তারা শর্তগুলির মধ্যে পার্থক্যের বিষয়ে নির্ভুলভাবে অনন্য কারণের জন্য ব্যবহৃত হয় এবং তাই পিএলএসডি থেকেও খারাপ ... বাস্তবে আমি তাদের পছন্দ করি। অন্তত তারা সৎ।
জন

17

যদিও আমি মাইকেল লিউ যা বলেছি তার বেশিরভাগের সাথেই আমি সম্পর্কিত হতে পারি, সম্ভাবনা অনুপাতের পক্ষে পি-ভ্যালুগুলি ত্যাগ করা এখনও আরও একটি সাধারণ সমস্যা মিস করে - ফলস্বরূপ আকারগুলির চেয়ে সম্ভাব্য ফলাফলগুলিকে অত্যধিক প্রভাবিত করা, যার ফলস্বরূপ অর্থ প্রদান প্রয়োজন। এই ধরণের ত্রুটিটি সমস্ত আকার এবং আকারে আসে এবং আমি এটি সর্বাধিক কুখ্যাত পরিসংখ্যানগত ভুল বলে মনে করি। জে কোহেন এবং এম। ওকেস এবং অন্যদের উপর আঁকতে, আমি এই সম্পর্কে একটি টুকরো লিখেছি http://integrativestatistics.com/insidious.htm এ


3
আমি সহজেই অস্পষ্ট যে কীভাবে সম্ভাবনার অনুপাত (এলআর) কোনও প্রভাব আকার অর্জন করে এমন সমস্ত কিছুই অর্জন করতে পারে না, পাশাপাশি সহজেই ব্যাখ্যাযোগ্য স্কেল নিয়োগ করে (জেডের চেয়ে ডেটা ওয়াইয়ের জন্য এক্স গুণ বেশি প্রমাণ রয়েছে)। একটি প্রভাব আকার সাধারণত অব্যক্ত পরিবর্তনশীলতার কাছে ব্যাখ্যা করা অনুপাতের কিছু প্রকারের আকার হয় এবং (নেস্টেড ক্ষেত্রে) এলআর এমন একটি মডেলের মধ্যে প্রভাবহীন পরিবর্তনশীলতার অনুপাত যেটির একটি প্রভাব রয়েছে এবং এটির একটি নয়। কমপক্ষে প্রভাবের আকার এবং এলআরের মধ্যে দৃ strong় সম্পর্ক থাকতে হবে না এবং যদি তাই হয় তবে সম্ভাবনা রেশিও স্কেলে যাওয়ার ফলে কী হারিয়ে যায়?
মাইক লরেন্স

মাইক - আপনি আমাকে আগ্রহী করেছেন, কিন্তু আপনার পয়েন্টগুলি গ্রুপের মধ্যকার পার্থক্য হিসাবে সহজ আকারের আকারগুলি পর্যন্ত প্রসারিত করে? এগুলি কোনও সাধারণ ব্যক্তি সহজেই ব্যাখ্যা করতে পারে এবং আত্মবিশ্বাসের অন্তর অন্তরও নির্ধারিত হতে পারে।
রোল্যান্ডো 2

আহ, সুতরাং প্রভাব আকার দ্বারা, আপনি নিখুঁত প্রভাব আকার বলতে বোঝায়, এটি নিজের কাছে অর্থহীন, তবে এটি আপেক্ষিক প্রভাব আকারে রূপান্তরিত করে (যেমন আমি উল্লেখ করেছি, কিছুটা পরিবর্তনশীলতার দ্বারা বিভাজন করে) অর্থপূর্ণ করে তোলা যেতে পারে, বা কম্পিউটিং দ্বারা পরম প্রভাব আকারের জন্য একটি আত্মবিশ্বাসের ব্যবধান। উপরে আমার যুক্তি আপেক্ষিক প্রভাব আকারের তুলনায় এলআর এর গুণাগুলিতে প্রযোজ্য। প্রভাবের প্রকৃত মান আগ্রহের ক্ষেত্রে (যেমন, ভবিষ্যদ্বাণী) ক্ষেত্রে কম্পিউটিং এফেক্ট সিআইয়ের ইউটিলিটি থাকতে পারে তবে আমি এখনও এলআর এর সাথে প্রভাবগুলির পক্ষে / বিপরীতে প্রমাণের বিষয়ে কথা বলার জন্য আরও স্বজ্ঞাত স্কেল হিসাবে দাঁড়িয়েছি।
মাইক লরেন্স

আমি অনুমান করি যে এলআর বনাম সিআই এর ব্যবহার সম্ভবত প্রেক্ষাপট অনুসারে পরিবর্তিত হবে, যা নিম্নলিখিত হিসাবে কার্যকরভাবে সংক্ষিপ্তসারিত হতে পারে: বিজ্ঞানের আরও অনুসন্ধানমূলক স্তরগুলি, যেখানে তত্ত্বগুলি ঘটনাস্থলের অস্তিত্ব / অস্তিত্ব দ্বারা মোটামুটিভাবে চিহ্নিত হয়, প্রমাণের পরিমাণ নির্ধারণের জন্য এলআরগুলিকে পছন্দ করতে পারে। অন্যদিকে, বিজ্ঞানের আরও উন্নত পর্যায়ে সিআই-কে অগ্রাধিকার দেওয়া যেতে পারে, যেখানে তাত্ত্বিকভাবে প্রত্যাশিত প্রভাবগুলির ব্যাপ্তি সহ বাঞ্ছনীয় পূর্বাভাসের অনুমতি দিতে যথেষ্ট পরিমার্জন করা হয় বা বিপরীতভাবে, যখন প্রভাবের বিস্তৃততার বিভিন্ন পরিসীমা বিভিন্ন তত্ত্বকে সমর্থন করে। শেষ অবধি, যে কোনও মডেল থেকে উত্পন্ন ভবিষ্যদ্বাণীগুলির জন্য সিআই প্রয়োজন need
মাইক লরেন্স

0|β|=1|β|>1|β|1β=0β0

15

এই ত্রুটিটি সাধারণত বিতরণ করা হয় এবং চিকিত্সার মধ্যে ধ্রুবক পার্থক্য রয়েছে এই ধারণাটি পরীক্ষা করতে ব্যর্থ। এই অনুমানগুলি সর্বদা পরীক্ষিত হয় না, সুতরাং প্রকৃতপক্ষে অনুচিত হলে সাধারণত কম-স্কোয়ারের মডেল ফিটিং ব্যবহার করা হয়।


11
ডেটা অ-স্বাভাবিক বা হেটেরোস্কেস্টেস্টিক হলে ন্যূনতম স্কোয়ার অনুমান সম্পর্কে কী অনুচিত? এটি পুরোপুরি দক্ষ নয়, তবে এটি এখনও নিরপেক্ষ এবং ধারাবাহিক।
রব হ্যান্ডম্যান

3
যদি ডেটা হিটারোসিসেস্টেস্টিক হয় তবে আপনি নমুনা পূর্বাভাসের বাইরে খুব অস্পষ্টতার সাথে শেষ করতে পারেন কারণ রিগ্রেশন মডেল উচ্চতর বৈচিত্র্যযুক্ত অঞ্চলে নমুনাগুলিতে ত্রুটি হ্রাস করতে খুব চেষ্টা করবে এবং কম বৈকল্পিক অঞ্চলের নমুনাগুলিতে যথেষ্ট শক্ত নয়। এর অর্থ আপনি খুব খারাপভাবে পক্ষপাতদুষ্ট মডেলটি দিয়ে শেষ করতে পারেন। এর অর্থ হ'ল ভবিষ্যদ্বাণীগুলির ত্রুটি বারগুলিও ভুল হবে।
ডিকরান মার্সুপিয়াল

6
না, এটি নিরপেক্ষ নয়, তবে আপনি ব্যাখ্যা করার কারণে যদি আপনি আরও দক্ষ পদ্ধতি ব্যবহার করেন তবে তার চেয়ে ভিন্নতা আরও বড় larger হ্যাঁ, পূর্বাভাস অন্তরগুলি ভুল।
রব হ্যান্ডম্যান

4
হ্যাঁ (আমি কোনও পরিসংখ্যানগত ধারণা না বলে একটি কথোপকথনে পক্ষপাতদুষ্ট ব্যবহার করছি মানে মডেলটি বৈশিষ্ট্যযুক্ত স্থানের উচ্চ বৈচিত্র্যপূর্ণ অঞ্চলে পর্যবেক্ষণের প্রতি পদ্ধতিগতভাবে পক্ষপাতদুষ্ট ছিল - মেয়া কুলপা!) - উচ্চতর বৈকল্পিকতার অর্থ এটি আরও সঠিক হবে সসীম ডেটাসেট ব্যবহার করে দুর্বল মডেল পাওয়ার সম্ভাবনা বেড়েছে। এটি আপনার প্রশ্নের যুক্তিযুক্ত উত্তর বলে মনে হচ্ছে। আমি নিরপেক্ষতাটিকে অনেকটা আরামের হিসাবে দেখছি না - গুরুত্বপূর্ণটি হ'ল মডেলটি আমার কাছে থাকা ডেটা সম্পর্কে ভাল পূর্বাভাস দেয় এবং প্রায়শই বৈকল্পিকতা আরও গুরুত্বপূর্ণ।
ডিকরান মার্শুপিয়াল

14

আন্ডারগ্রাডে আমার ইন্ট্রো সাইকোমেট্রিক্স কোর্সটি কীভাবে পদক্ষেপে পদক্ষেপ গ্রহণ করতে হয় তা শেখাতে কমপক্ষে দুই সপ্তাহ ব্যয় করেছে। এমন কোনও পরিস্থিতি কি যেখানে ধাপে ধাপে উত্তোলন করা ভাল ধারণা?


6
"গুড আইডিয়া" পরিস্থিতি নির্ভর করে। আপনি যখন পূর্বাভাসটি সর্বাধিক করতে চান এটি কোনও ভয়ঙ্কর ধারণা নয় - যদিও এটি ওভার ফিটনেস হতে পারে। এমন কিছু বিরল ঘটনা রয়েছে যেখানে এটি অনিবার্য - যেখানে মডেল নির্বাচনকে গাইড করার জন্য কোনও তত্ত্ব নেই। আমি পদক্ষেপের তুলনায় "পাপ" হিসাবে গণ্য করব না তবে যখন তত্ত্বটি মডেল নির্বাচনের পক্ষে যথেষ্ট তখন তা ব্যবহার করা।
রাসেলপিয়ের্স

20
পাপটি স্টেপওয়াস রিগ্রেশনের মাধ্যমে প্রাপ্ত কোনও মডেলটির উপর পরিসংখ্যানগত পরীক্ষা করছে।
রব হেন্ডম্যান

3
যদি আপনি ক্রস-বৈধতা ব্যবহার করেন এবং এক্সট্রোপোলেটেড না করেন তবে এটি ঠিক। যদিও পি-ভ্যালু প্রকাশ করবেন না, কারণ এগুলি অর্থহীন।
নিল ম্যাকগুইগান

আমি এমন একটি প্রকল্পে কাজ করছি যা ধাপে ধাপে রিগ্রেশন ব্যবহার করে। কারণটি হ'ল আমার কাছে >> ডি >> এন, যেখানে ডি মাত্রিকতা এবং এন নমুনার আকার (এইভাবে সমস্ত ভেরিয়েবলগুলির সাথে একটি মডেল ব্যবহারের বিষয়টি প্রত্যাখ্যান করছেন), বৈশিষ্ট্যগুলির উপসর্গগুলি একে অপরের সাথে অত্যন্ত সংযুক্ত, আমি একটি পরিসংখ্যানগতভাবে মূলত উপায় চাই সম্ভবত 2-3 "সেরা" বৈশিষ্ট্যগুলি নির্বাচন করা এবং আমি কমপক্ষে কোনও ধরণের রক্ষণশীল সংশোধন না করে পি-মানগুলি প্রতিবেদন করার ইচ্ছা করি না।
dsimcha

12

আমার পুরানো পরিসংখ্যানের প্রোফাইলে আউটলিয়ারদের সাথে আচরণের জন্য "থাম্বের নিয়ম" ছিল: আপনি যদি আপনার স্ক্রেটারপ্লোটে কোনও আউটলেট দেখতে পান তবে এটি আপনার থাম্ব দিয়ে coverেকে রাখুন :)


এটি উইনসরাইজেশনের অনুরূপ যা খুব ভয়ানক নয়।
এরি বি ফ্রিডম্যান

12

এটি আপনি যা খুঁজছেন তার চেয়ে বেশি পপ-পরিসংখ্যানের উত্তর হতে পারে তবে:

ডেটা যখন উচ্চ স্কু হয় তখন অবস্থানের সূচক হিসাবে গড় ব্যবহার করে

এটি অগত্যা কোনও সমস্যা নয়, আপনি এবং আপনার শ্রোতা যদি জানেন যে আপনি কী সম্পর্কে কথা বলছেন তবে এটি সাধারণত তেমনটি হয় না এবং মিডিয়ান প্রায়শই কী ঘটছে সে সম্পর্কে আরও ভাল ধারণা দেওয়ার সম্ভাবনা রয়েছে।

আমার প্রিয় উদাহরণটি হ'ল গড় মজুরি, যা সাধারণত "গড় মজুরি" হিসাবে রিপোর্ট করা হয়। একটি দেশে আয় / সম্পদের বৈষম্যের উপর নির্ভর করে এটি মধ্যম মজুরির চেয়ে অনেক বেশি পৃথক হতে পারে, যা লোকেরা প্রকৃত জীবনে যেখানে রয়েছে তার জন্য এটি আরও ভাল সূচক দেয়। উদাহরণস্বরূপ, অস্ট্রেলিয়া, যেখানে আমরা অপেক্ষাকৃত কম বৈষম্য আছে, মধ্যমা হয় 10-15% গড় চেয়ে কম । মার্কিন যুক্তরাষ্ট্রে পার্থক্যটি অনেক বেশি সূক্ষ্ম , মিডিয়ান গড়ের 70% এর চেয়ে কম এবং ব্যবধানটি বাড়ছে।

"গড়" (গড়) মজুরির প্রতিবেদনের ফলে ওয়্যারেন্টডের চেয়ে রোজাদার ছবি আসে এবং এটি প্রচুর সংখ্যক লোককে ভ্রান্ত ধারণা দেয় যে তারা "সাধারণ" লোকের মতো বেশি আয় করেন না।


এটি এখানে ট্রেন্ড বিশ্লেষণে প্রযোজ্য হিসাবে এটির একটি আধা-সম্পর্কিত আলোচনা আছে: tamino.wordpress.com/2012/03/29/…
nnot101

2
এটি কেবল স্কিউনেসের সাথে সম্পর্কিত নয়, তবে এটি একটি সাধারণ সমস্যা যা ছড়িয়ে পড়ার বিষয়টি বিবেচনা না করে গড় বা কেন্দ্রীয় প্রবণতার কোনও পরিমাপই যথেষ্ট নয়। উদাহরণস্বরূপ, যদি দুটি গ্রুপের মিডিয়ান সমান হয় তবে আন্ত জনগোষ্ঠীর পরিসীমা এক জনগোষ্ঠীর জন্য 100 গুণ বড় ছিল। মিডিয়ানের দিকে তাকালে আপনি বলবেন যে তারা "একই জনসংখ্যা বিতরণ", যখন বাস্তবে তারা খুব আলাদা হবে। সমস্যা তৈরি করতে একাধিক মোড উল্লেখ না করা ...
সম্ভাব্যতা

কিন্তু, কিছু কাজের জন্য অর্থ হল প্রাসঙ্গিক: মজুরি একটি হল ব্যাপক পরিবর্তনশীল যার অর্থ মজুরি সমষ্টির অর্থপূর্ণ হয়। কিছু (উপ) গোষ্ঠীর মোট বেতনের আয় প্রাসঙ্গিক, এমন প্রশ্নের জন্য অর্থগুলি সঠিক জিনিস: মোটটি মধ্যম থেকে নয়, গড় থেকে উদ্ধার করা যেতে পারে।
কেজেটিল বি হালওয়ারসেন

@ কেজেটিভালভর্সেন: কেবল তখন মোট ব্যবহার করবেন না কেন?
naught101

এন

10

পি-মান হ'ল নাল অনুমানের সত্যতা এবং (1-পি) সম্ভাবনা হ'ল বিকল্প অনুমানটি সত্য যে, নাল অনুমানটি বাতিল করতে ব্যর্থ হওয়ার অর্থ বিকল্প অনুমানটি মিথ্যা ইত্যাদি etc.


1
1

আকর্ষণীয়, আপনি কি এটি সম্পর্কে পড়তে একটি রেফারেন্স দিতে পারেন?
ডিকরান মার্শুপিয়াল

2
(আপনি এখানে যান) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] ব্যক্তিগতভাবে, যদিও আমি এটি আকর্ষণীয় মনে করি না কেন, সম্ভাবনার অনুপাতের উত্তরোত্তর বন্টন পরিমাণের পরিমাণ কেন এই প্রশ্নের সাথে আমি লড়াই করি স্বার্থ.
সম্ভাব্যতাব্লোগিক

10

@ দিরকান এর অনুরূপ শিরাতে - নাল অনুমানের সত্যতার প্রমাণ হিসাবে একটি আনুষ্ঠানিক পরিমাপ হিসাবে পি-মানগুলির ব্যবহার। এটিতে কিছু ভাল তাত্ত্বিক এবং স্বজ্ঞাতভাবে ভাল বৈশিষ্ট্য রয়েছে তবে এটি মূলত প্রমাণের একটি অসম্পূর্ণ পদক্ষেপ কারণ এটি বিকল্প অনুমানের কোনও উল্লেখ করে না। যদিও শূন্যের অধীনে ডেটা অসম্ভব হতে পারে (একটি ছোট পি-ভ্যালু বাড়ে ), বিকল্প হাইপোথিসিসের অধীনে ডেটা আরও বেশি সম্ভাবনা হতে পারে ।


আমি উত্তর দিচ্ছি না কারণ আমি একথা চিন্তা করার সমস্যায় যেতে চাই না এবং ইতিমধ্যে প্রদত্ত সমস্তগুলি দিয়ে আমি বিষয়টি পুনরায় না বলার জন্য নিশ্চিত হয়েছি! তবে আমি মনে করি আমি সহায়ক হতে পারি। গুড অ্যান্ড হার্ডিনের একটি বই রয়েছে যার নাম "পরিসংখ্যানগুলির সাধারণ ত্রুটি এবং কীভাবে তাদের এড়ানো যায়" called আপনি সেখানে দুর্দান্ত উদাহরণ খুঁজে পেতে পারেন। এটি একটি জনপ্রিয় বই যা ইতিমধ্যে এর চতুর্থ সংস্করণে চলেছে।
মাইকেল চেরনিক

এছাড়াও চ্যাপম্যান অ্যান্ড হল / সিআরসি সহ অল্টম্যানের বই "মেডিকেল রিসার্চ ইন প্র্যাকটিক্যাল স্ট্যাটিস্টিকস" চিকিত্সা সাহিত্যের একটি অধ্যায় রয়েছে যেখানে প্রকাশিত কাগজপত্রগুলিতে ঘটেছিল অনেক পরিসংখ্যানীয় পাপ প্রকাশিত হয়।
মাইকেল চেরনিক

9

আপেক্ষিক ফ্রিকোয়েন্সি চিত্রিত করতে পাই চার্ট ব্যবহার করা। আরও এখানে


2
সাইটে কিছু যুক্তি অন্তর্ভুক্ত করা ভাল হবে।
nnot101

9

"পরম সত্য" পরিমাপ করতে অনুমানের পরীক্ষায় পরিসংখ্যান / সম্ভাবনা ব্যবহার করা। পরিসংখ্যানগুলি কেবল এটি করতে পারে না, কেবলমাত্র বিকল্পগুলির মধ্যে সিদ্ধান্ত নেওয়ার ক্ষেত্রে সেগুলি ব্যবহার করতে পারে , যা অবশ্যই পরিসংখ্যানের দৃষ্টান্তের "বাইরের" থেকে নির্দিষ্ট করা উচিত। "পরিসংখ্যান দ্বারা নাল হাইপোথিসিস সত্য প্রমাণিত হয়েছে" এর মতো বক্তব্যগুলি কেবলমাত্র ভুল; পরিসংখ্যান কেবল আপনাকে বলতে পারে "বিকল্প অনুমানের তুলনায় নাল হাইপোথিসিসটি ডেটা দ্বারা পছন্দসই"। আপনি যদি ধরে নেন তবে নাল অনুমান বা বিকল্পটি অবশ্যই সত্য হতে পারে, আপনি "নাল সত্য বলে প্রমাণিত" বলতে পারেন, তবে এটি কেবল আপনার অনুমানের একটি ক্ষুদ্র পরিণতি, ডেটা দ্বারা প্রদর্শিত কিছু নয়।


9

α=0.05

এবং অনুরূপভাবে (বা প্রায় একই) @ ওরিসেলের উত্তর , একটি গ্রিড অনুসন্ধান সম্পাদন করা এবং কেবল সেরা ফলাফলের প্রতিবেদন করা।


আমি মনে করি আপনি একটি আলাদা কমিকের সাথে লিঙ্ক বোঝাতে চেয়েছিলেন, যদিও এটি অমর।
রোল্যান্ডো 2

সম্ভবতঃ, আমি যদি আমার মনে পরে যা কিছু মনে করি তা যদি আমি খুব ভাল করে মনে করি: xkcd.com/882
অ্যান্ড্রু

8

(কিছুটা ভাগ্যের সাথে এটি বিতর্কিত হবে))

বৈজ্ঞানিক পরীক্ষার পরিসংখ্যানগত বিশ্লেষণের জন্য নেইমন-পিয়ারসন পদ্ধতির ব্যবহার approach বা আরও খারাপ, নেইমন-পিয়ারসন এবং ফিশারের একটি অশুভ সংজ্ঞায়িত হাইব্রিড ব্যবহার করা।


অজ্ঞ থাকার জন্য দুঃখিত, তবে (নেইমেন-পিয়ারসন) বৈজ্ঞানিক পরীক্ষার (ফলাফলের) বিশ্লেষণের জন্য কী নির্মাণ হয়েছে?
আন্দ্রে হল্জনার

@ এবং আমি মনে করি এই মন্তব্যটি এই থ্রেডের অন্য কোথাও @ মিচেল লিউ দ্বারা প্রদত্ত অন্য একটির সাথে ঘনিষ্ঠভাবে জড়িত থাকতে পারে ( stats.stackexchange.com/questions/4551/… )।
whuber

8

অনুরোধ করা এবং সম্ভবত ফ্লো চার্ট প্রাপ্তি : সেই গ্রাফিকাল জিনিসটি যেখানে আপনি বলছেন যে আপনার ভেরিয়েবলের স্তরটি কী এবং আপনি কী ধরনের সম্পর্ক খুঁজছেন এবং আপনি ব্র্যান্ড নেম টেস্ট বা ব্র্যান্ড নেম স্ট্যাটিস্টিক পেতে তীরগুলি অনুসরণ করেন । কখনও কখনও রহস্যজনক 'প্যারামিমেট্রিক' এবং 'নন-প্যারামেট্রিক' পাথ সরবরাহ করা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.