যতদূর তাত্পর্য পরীক্ষা হয় (বা অন্য কিছু যা মূলত তাত্পর্য পরীক্ষার মতো একই কাজ করে ), আমি দীর্ঘদিন ধরেই ভেবেছিলাম যে বেশিরভাগ পরিস্থিতিতে সেরা পদ্ধতির সম্ভাব্যতা সম্পর্কে একটি 95% আত্মবিশ্বাসের ব্যবধানের সাথে একটি মানযুক্ত প্রভাব আকারের অনুমান করা যায় প্রভাব আকার। সত্যিকার অর্থে এখানে নতুন কিছু নেই - গাণিতিকভাবে আপনি তাদের মধ্যে পিছনে পিছনে পরিবর্তন করতে পারেন - যদি কোনও 'শূন্য' শূন্যের জন্য p- মান <.05 হয়, তবে 0 টি 95% CI এর বাইরে থাকবে এবং এর বিপরীতে। এটির সুবিধাটি আমার মতে মনস্তাত্ত্বিক; এটি হ'ল এটি বিদ্যমান গুরুত্বপূর্ণ তথ্য তৈরি করে যা কেবলমাত্র প-মানগুলির প্রতিবেদন করার পরে লোকেরা দেখতে পায় না। উদাহরণস্বরূপ, এটি সহজেই দেখতে পাওয়া যায় যে একটি প্রভাব বন্যভাবে 'তাৎপর্যপূর্ণ' তবে হাস্যকরভাবে ছোট; বা 'অ-তাত্পর্যপূর্ণ', তবে কেবল ত্রুটি বারগুলি বিশাল হওয়ায় অনুমানিত প্রভাবটি আপনার প্রত্যাশার চেয়ে কম বা কম। এগুলি কাঁচা মান এবং তাদের সিআই এর সাথে যুক্ত করা যায়।
এখন, অনেক ক্ষেত্রে কাঁচা মানগুলি অন্তর্নিহিত অর্থবহ, এবং আমি স্বীকার করেছি যে আমাদের কাছে ইতিমধ্যে উপায় এবং opালু জাতীয় মান রয়েছে তা প্রদত্ত ইফেক্ট আকার আকারগুলি গণনা করা এখনও সার্থক কিনা এই প্রশ্নটি উত্থাপন করে। একটি উদাহরণ স্তম্ভিত বৃদ্ধি খুঁজছেন হতে পারে; আমরা জানি যে 20 বছর বয়সী, সাদা পুরুষের 6 +/- 2 ইঞ্চি সংক্ষিপ্ত হওয়া (যার অর্থ 15 +/- 5 সেমি) হবে তার অর্থ কী, অন্যথায় তাদের তুলনায়, তাই কেন উল্লেখ ? আমি মনে করি যে এখনও উভয়ই রিপোর্টিংয়ের মূল্য থাকতে পারে, এবং এগুলি গণনা করার জন্য ফাংশনগুলি রচনা করা যায় যাতে এটি খুব সামান্য অতিরিক্ত কাজ হয় তবে আমি স্বীকার করি যে মতামতগুলি পৃথক হবে। যে কোনও হারে, আমি যুক্তি দিয়েছি যে আত্মবিশ্বাসের অন্তরগুলির সাথে পয়েন্টের অনুমানগুলি আমার প্রতিক্রিয়ার প্রথম অংশ হিসাবে পি-মানগুলিকে প্রতিস্থাপন করে। d=−1.6±.5
অন্যদিকে, আমি মনে করি একটি বড় প্রশ্ন হচ্ছে 'তাত্পর্যপূর্ণ পরীক্ষা যা আমরা সত্যই তা চাই তা করি?' আমি মনে করি আসল সমস্যাটি হ'ল বেশিরভাগ লোকেরা বিশ্লেষণ করে ডেটা (যেমন, অনুশীলনকারীরা পরিসংখ্যানবিদ নয়), তাত্পর্য পরীক্ষাটি বিশ্লেষণের সম্পূর্ণতা হয়ে উঠতে পারে। আমার কাছে মনে হয় যে সর্বাধিক গুরুত্বপূর্ণ বিষয়টি হল আমাদের ডেটা নিয়ে কী চলছে সে সম্পর্কে চিন্তাভাবনা করার মূলত উপায় এবং নাল অনুমানের তাত্পর্য পরীক্ষা করা, সর্বোপরি, এটির একটি খুব ছোট অংশ। আমাকে একটি কাল্পনিক উদাহরণ দেই (আমি স্বীকার করি যে এটি একটি ক্যারিকেচার, তবে দুর্ভাগ্যক্রমে, আমি ভয় করি যে এটি কিছুটা প্রশংসনীয়):
বব একটি অধ্যয়ন পরিচালনা করে, কিছু বা অন্য কোনও বিষয়ে ডেটা সংগ্রহ করে। তিনি আশা করেন যে তথ্যগুলি সাধারণত বিতরণ করা হবে, কিছু মানকে ঘিরে দৃ tight়ভাবে ক্লাস্টারিং করা হবে এবং তার ডেটা কিছু পূর্বনির্ধারিত মান থেকে 'উল্লেখযোগ্যভাবে পৃথক' আছে কিনা তা দেখার জন্য একটি নমুনা টি-পরীক্ষা করার ইচ্ছা করে। তার নমুনা সংগ্রহ করার পরে, তিনি তার ডেটাগুলি সাধারণত বিতরণ করা হয় কিনা তা পরীক্ষা করে দেখেন যে সেগুলি নেই are পরিবর্তে, তাদের কেন্দ্রে একটি উচ্চারিত পিণ্ড নেই তবে একটি নির্দিষ্ট ব্যবধানের তুলনায় তুলনামূলকভাবে বেশি এবং তারপরে লম্বা বাম লেজের সাহায্যে ট্রেল করা যায়। বব তার পরীক্ষা বৈধ কিনা তা নিশ্চিত করার জন্য তার কী করা উচিত তা নিয়ে উদ্বেগ প্রকাশ করেছেন। তিনি কিছু করে শেষ করেন (যেমন, রূপান্তর, একটি নন-প্যারাম্যাট্রিক পরীক্ষা ইত্যাদি), এবং তারপরে একটি পরীক্ষার পরিসংখ্যান এবং একটি পি-মান রিপোর্ট করে।
আমি আশা করি এটি কদর্য হিসাবে না আসে। আমি কারও সাথে বিদ্রূপ করা বলতে চাইছি না তবে আমি মনে করি এরকম কিছু ঘটনা মাঝে মধ্যে ঘটে। যদি এই দৃশ্যটি দেখা দেয় তবে আমরা সকলেই সম্মতি জানাতে পারি যে এটি হ'ল ডেটা বিশ্লেষণ। তবে সমস্যাটি এই নয় যে পরীক্ষার পরিসংখ্যান বা পি-ভ্যালুটি ভুল; আমরা প্রতিক্রিয়া জানাতে পারি যে ডেটা সেই ক্ষেত্রে সঠিকভাবে পরিচালিত হয়েছিল। আমি যুক্তি দিয়ে বলব যে সমস্যাটি বব ক্লিভল্যান্ডকে "রোট ডেটা অ্যানালাইসিস" বলে ডাকাতে ব্যস্ত। তিনি বিশ্বাস করেন বলে মনে হয় যে একমাত্র পয়েন্টটি সঠিক প-মান পাওয়া এবং এটি লক্ষ্য অনুসরণ করার বাইরে তার ডেটা সম্পর্কে খুব কম চিন্তা করে। তিনি এমনকি উপরে আমার পরামর্শটি সরিয়ে যেতে পারতেন এবং 95% আত্মবিশ্বাসের ব্যবধানের সাথে একটি প্রমিত আকারের প্রতিবেদন করতে পারতেন এবং আমি বৃহত্তর সমস্যা হিসাবে যা দেখি তা পরিবর্তিত হত না (মূলত একই জিনিসটি করার দ্বারা আমি এটি বোঝাতে চাইছিলাম) "ভিন্ন উপায়ে) এই নির্দিষ্ট ক্ষেত্রে, তথ্যটি তার প্রত্যাশার মতো দেখেনি (যেমন, স্বাভাবিক ছিল না) আসল তথ্য, এটি আকর্ষণীয়, এবং খুব সম্ভবত গুরুত্বপূর্ণ, কিন্তু সেই তথ্যটি মূলত কেবল ফেলে দেওয়া হয়। তাত্পর্য পরীক্ষার উপর ফোকাস দেওয়ার কারণে বব এটিকে চিনতে পারে না। আমার মনে, তাত্পর্যপূর্ণ পরীক্ষার ক্ষেত্রে এটিই আসল সমস্যা।
আমাকে উল্লেখ করা কয়েকটি অন্যান্য দৃষ্টিভঙ্গি সম্বোধন করা যাক এবং আমি খুব স্পষ্ট করে বলতে চাই যে আমি কারও সমালোচনা করছি না।
- প্রায়শই উল্লেখ করা হয় যে অনেক লোক সত্যই পি-মানগুলি বুঝতে পারে না (উদাহরণস্বরূপ, তারা নাল সত্য বলে মনে করে) ইত্যাদি। কখনও কখনও যুক্তিযুক্ত যে, যদি কেবল লোকেরা বেয়েশিয়ার পদ্ধতিকেই ব্যবহার করে, তবে এই সমস্যাগুলি ঘটত চলে যাও. আমি বিশ্বাস করি যে লোকেরা বায়েশিয়ান ডেটা বিশ্লেষণকে এমনভাবে উপস্থাপন করতে পারে যা ঠিক ততটাই দুষ্টু এবং যান্ত্রিক। তবে আমি মনে করি যে পি-মানগুলির অর্থের ভুল বোঝাবুঝি কম ক্ষতিকারক হবে যদি কেউ ভাবেন না যে পি-মান পাওয়ার লক্ষ্য ছিল।
- 'বিগ ডেটা'র অস্তিত্ব সাধারণত এই সমস্যার সাথে সম্পর্কিত নয়। বড় ডেটা কেবল এটি সুস্পষ্ট করে তোলে যে 'তাত্পর্য' প্রায় ডেটা বিশ্লেষণ সংগঠিত করা সহায়ক সাহায্যকারী নয় helpful
- হাইপোথিসিস পরীক্ষা করার সাথে সমস্যাটি রয়েছে বলে আমি বিশ্বাস করি না। লোকেরা যদি কেবলমাত্র এটি দেখতে চেয়েছিল যে আনুমানিক মানটি কোনও বিরতির বাইরে নয়, এটি বিন্দু মানের সমান হওয়ার চেয়ে, একই সমস্যাগুলির অনেকগুলি উত্থিত হতে পারে। (আবারও, আমি পরিষ্কার হতে চাই আমি জানি আপনি 'বব' নন ))
- রেকর্ডের জন্য, আমি উল্লেখ করতে চাই যে প্রথম অনুচ্ছেদ থেকে আমার নিজের পরামর্শটি, বিষয়টি উল্লেখ করে না , যেমন আমি উল্লেখ করার চেষ্টা করেছি।
আমার কাছে এটি মূল বিষয়: আমরা যা চাই তা হল যা ঘটেছিল তা চিন্তা করার মূলত উপায় । কোনও প্রদত্ত পরিস্থিতিতে এর অর্থ কী কেটে শুকানো হয় না। কোনও পদ্ধতি শ্রেণিতে শিক্ষার্থীদের এটি কীভাবে প্রেরণ করা যায় তা পরিষ্কার বা সহজ নয়। গুরুত্বের পরীক্ষার পিছনে প্রচুর জড়তা এবং traditionতিহ্য রয়েছে। একটি পরিসংখ্যান শ্রেণিতে, এটি কী শেখানো প্রয়োজন এবং কীভাবে তা স্পষ্ট। ছাত্র এবং অনুশীলনকারীদের পক্ষে উপাদান বোঝার জন্য একটি ধারণামূলক স্কিমা এবং বিশ্লেষণ পরিচালনা করার জন্য একটি চেকলিস্ট / ফ্লোচার্ট (আমি কিছু দেখেছি!) বিকাশ করা সম্ভব হয়। গুরত্বপূর্ণ বা অলস বা খারাপ কাউকে ছাড়াই গুরুত্ব পরীক্ষার প্রাকৃতিকভাবে রোট ডেটা বিশ্লেষণে বিকশিত হতে পারে। এটাই সমস্যা।