পুনরায় একটি পরীক্ষা চালিয়ে ওয়েব a / b পরীক্ষা বৈধ করুন - এটি কি বৈধ?


11

পরের দিন একটি বি / টেস্টিং সংস্থার একজন ওয়েবিনারের কাছে তাদের বাসিন্দা "ডেটা সায়েন্টিস্ট" ব্যাখ্যা করেছিলেন যে পরীক্ষাটি পুনরায় চালিয়ে আপনার ফলাফলগুলি বৈধ করে তোলা উচিত। ভিত্তিটি ছিল, আপনি যদি 95% আত্মবিশ্বাস নির্বাচন করেন তবে ভ্রান্ত ইতিবাচক হওয়ার 5% (1/20) সম্ভাবনা রয়েছে। যদি আপনি একই পরীক্ষা-নিরীক্ষা নিয়ে আপনার পরীক্ষাটি আবার চালান তবে এখন একটি 1/400 রয়েছে (আমি ধরে নিচ্ছি তারা এটি 0.05 ^ 2 = 1/400 হিসাবে নির্ধারণ করেছে)

এটি কি বৈধ বক্তব্য? (অর্থাত্, "দু'বার চালান, দুটি পরিসংখ্যানগত তাত্পর্য জিতে যায় = 1/400 মিথ্যা ধনাত্মক হওয়ার সম্ভাবনা")? আপনার তাত্পর্য স্তর বাড়ানোর জন্য এটি কি আরও ভাল পন্থা হতে পারে?

ব্যবসায়ের দৃষ্টিকোণ থেকে, আমার যে উদ্বেগটি তা পরীক্ষা-নিরীক্ষার মাধ্যমে পুনরায় চালিয়ে যাওয়া, আপনি আরও ব্যবহারকারীকে নিকৃষ্ট পৃষ্ঠায় (চিকিত্সা) প্রকাশ করছেন এবং এইভাবে সম্ভাব্য বিক্রয় হারাবেন।


2
হাই জন, স্ট্যাটাস.এসই তে স্বাগতম! যদি আপনি উত্তরগুলির মধ্যে দুটিতে সন্তুষ্ট হন তবে আপনার সেগুলির একটি গ্রহণ করা উচিত, বা আপনি কী সন্ধান করছেন সে সম্পর্কে আরও স্পষ্ট করে প্রশ্ন সরবরাহ করা উচিত।
ক্রিস্টোফার অ্যাডেন

জন, আমি সন্দেহ করি আসল বিষয়টি প্রসঙ্গে উদ্বেগ প্রকাশ করেছে। এটি বিরল যে মানুষ একবারে কেবল একটি জিনিস শেখার জন্য সংস্থানগুলি উত্সর্গ করবে: তারা সঙ্গত কারণে তাদের ডেটাগুলির সর্বাধিক উপার্জন করতে চায়। এর অর্থ হ'ল প্রতিটি ডাটাসেট একাধিক পরীক্ষার জন্য ব্যবহৃত হবে। তদুপরি, কখনও কখনও পরীক্ষাগুলি পোস্ট পোস্ট হয় : সেগুলি ডেটাতে প্রদর্শিত নিদর্শন দ্বারা অনুপ্রাণিত হয়েছিল। এই জাতীয় ক্ষেত্রে পরীক্ষাগুলিতে প্রকৃতপক্ষে কাঙ্ক্ষিত 95% (বা যাই হোক না কেন) আত্মবিশ্বাস এবং প্রতিরূপ প্রয়োজনীয় নয়। সুতরাং: "পরীক্ষা" বলতে আপনার অর্থ কী? উত্তরটি এই সামান্য বিশদটির উপর জড়িত!
whuber

পরীক্ষার পুনরাবৃত্তি এবং তাত্পর্যপূর্ণ মান সম্পর্কে, এই এক্সকেসিডি কমিকটি পরীক্ষা করুন: xkcd.com/882 এটি পড়ার পরে, উপরে ওপারের মন্তব্যটি দেখুন।
লুকাস গ্যালিন্ডো

হুঁশিয়ার: বিস্তারিত অভাবের জন্য দুঃখিত, আমি ওয়েবসাইট অপ্টিমাইজেশন উল্লেখ করছি, সুতরাং একটি পরীক্ষামূলক পরীক্ষায় আমার হোমপেজের দুটি সংস্করণ পরীক্ষা করা হবে যার সাথে প্রত্যেকের 50/50 বিভাজন থাকবে।
জন

উত্তর:


3

মুহুর্তের জন্য কোনও মিথ্যা পজিটিভের সম্ভাবনাগুলি উপেক্ষা করে আমি এটি এর মতো দেখব:

  1. আপনি যদি একই ফলশ্রুতিটি পেতে দুটিবার এই পরীক্ষা চালান, তবে দুটি সত্যিকারের ইতিবাচক ফলাফল বা পরপর দুটি ভুয়া ইতিবাচক ফলাফল ছিল কিনা তা আপনার ধারণা নেই।
  2. আপনি যদি পরীক্ষাটি দু'বার চালান এবং দুটি পৃথক ফলাফল পান তবে আপনি জানেন না কোনটি সত্য পজিটিভ এবং কোনটি মিথ্যা ইতিবাচক ফলাফল।

উভয় ক্ষেত্রেই আপনার তৃতীয় পরীক্ষা চালানো উচিত, সুনিশ্চিত হওয়ার জন্য। তুলনামূলকভাবে সাশ্রয়ী এমন পরীক্ষাগুলির জন্য এটি হয়ত জরিমানা, তবে যেখানে ব্যয়টি সম্ভাব্য বেশি (গ্রাহক হারানোর মতো) আপনার অবশ্যই সুবিধাটি বিবেচনা করা দরকার।

সম্ভাব্যতার দিকে তাকানো, আপনি যখন প্রথমবার এই পরীক্ষাটি চালাবেন তখন একটি মিথ্যা ধনাত্মক হওয়ার 1/20 সম্ভাবনা রয়েছে। দ্বিতীয়বার আপনি যখন পরীক্ষাটি চালাচ্ছেন তখনও একটি ভুয়া পজিটিভের 1/20 সম্ভাবনা রয়েছে (একে একে মরার রোলিং হিসাবে ভাবেন যেখানে প্রতিটি রোলের একটি নির্দিষ্ট নম্বর পাওয়ার 1/6 সম্ভাবনা থাকে)। পরপর দুটি মিথ্যা ধনাত্মক হওয়ার সম্ভাবনা রয়েছে মাত্র 1/400।

আসল ইস্যুটি হ'ল কঠোর পদ্ধতিগুলির সাথে একটি সুস্পষ্ট সংজ্ঞা দেওয়া হাইপোথিসিস থাকে এবং একটি নমুনার আকার, ত্রুটির মাত্রা এবং আত্মবিশ্বাসের অন্তর অন্তর্ভুক্ত থাকে যার সাথে আপনি বেঁচে থাকতে বা সামর্থ্য রাখতে পারেন। পরীক্ষার পুনরাবৃত্তি অন্বেষণে ছেড়ে যাওয়া উচিত

  1. সময়ের সাথে সাথে গ্রাহক
  2. সংগঠন দ্বারা করা পরিবর্তন
  3. প্রতিযোগিতা দ্বারা পরিবর্তন

বরং দ্বিতীয় অনুমানের ফলাফলের চেয়ে। যদিও পরিচালকদের কাছে এটি ব্যাখ্যা করা সমাপ্তের চেয়ে বলা সহজ।


এমজেসি, মন্তব্যের জন্য আপনাকে অনেক ধন্যবাদ - আমি ঠিক এটিই খুঁজছিলাম।
জন

2

হ্যাঁ উক্তিটি সঠিক, আপনার পরীক্ষাটি আদর্শ বলে ধরে নিচ্ছেন। তবে এই অনুভূতির চেয়ে বিশ্বাসযোগ্যতা অর্জনের চেয়ে আদর্শ পরীক্ষা নেওয়া উপায় er "রিয়েল ওয়ার্ল্ড" ডেটা অগোছালো, জটিল এবং প্রথম স্থানে ব্যাখ্যা করা শক্ত। ত্রুটিযুক্ত বিশ্লেষণ, গোপন ভেরিয়েবলগুলি (খুব কমই "একই সীমাবদ্ধতাগুলি আছে"), বা কোনও ডেটা বিজ্ঞানী তাদের কাজ করছেন এবং একটি চিহ্নদানকারী এক্সিকিউটিভকে তাদের কাজ করছেন তার মধ্যে ভুল যোগাযোগ রয়েছে for

ব্যবসায়ের দৃষ্টিকোণ থেকে ভাল পদ্ধতি নিশ্চিত করা এবং ফলাফলগুলিতে অতিরিক্ত আত্মবিশ্বাসী না হওয়া; আপনি যে ভাবেন তার চেয়েও কঠিন কৌশল। এগুলি নামার পরে, 5% এর উপর কাজ করুন।


ধন্যবাদ, এটি প্রথম প্রশ্নের উত্তর দেয়। দ্বিতীয় প্রশ্নটি সম্পর্কে কী: "আপনার তাত্পর্যতা বাড়ানোর জন্য এটির চেয়ে ভাল উপায় কি হতে পারে?" কেবলমাত্র আর-তে একটি দ্রুত সিমুলেশন করছি (একই প্রভাবের আকার এবং শক্তি বজায় রাখা, কেবল তাত্পর্যপূর্ণ মূল্য পরিবর্তনের জন্য) আমি 95% তাত্পর্যতে 2 এক্স পরীক্ষা চালানোর চেয়ে কেবল 97.5% তাত্পর্য চয়ন করে ~ 4.8% কম ডেটা সংগ্রহ করতে পারি। আমার স্পষ্ট করা উচিত - যখন আমি জিজ্ঞাসা করি "এটি আরও ভাল হত .." মানে আমি কি কম ডেটা সংগ্রহ করে একই পরিণতি অর্জন করতে পারতাম?
জন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.