কোনও পরীক্ষা শুরু করার আগে নমুনা আকার নির্ধারণ করা বা অনির্দিষ্টকালের জন্য পরীক্ষা চালানো?


12

আমি বছর পূর্বে পরিসংখ্যান অধ্যয়ন করেছি এবং এগুলি সব ভুলে গিয়েছি তাই এগুলি নির্দিষ্ট কোনও কিছুর চেয়ে সাধারণ ধারণাগত প্রশ্নের মতো মনে হতে পারে তবে এখানে আমার সমস্যা।

আমি ইউএক্স ডিজাইনার হিসাবে একটি ই-বাণিজ্য ওয়েবসাইটের জন্য কাজ করি। আমাদের একটি A / B পরীক্ষার কাঠামো রয়েছে যা কয়েক বছর আগে নির্মিত হয়েছিল যা আমি এটি সম্পর্কে সন্দেহ করতে শুরু করি।

আমরা আমাদের যে সকল সিদ্ধান্তের বিষয়ে মেট্রিক করি তা রূপান্তর হিসাবে পরিচিত, এবং এটি সাইটটি পরিদর্শনকারী, শতকরা কিছু কেনার সমাপ্তির শতাংশের উপর ভিত্তি করে তৈরি।

সুতরাং আমরা কিনতে বোতামের রঙ সবুজ থেকে নীল করে পরীক্ষা করতে চাই।

নিয়ন্ত্রণটি হ'ল আমাদের ইতিমধ্যে যা আছে, সবুজ বোতামটি যেখানে আমরা জানি আমাদের গড় রূপান্তর হারটি কী। পরীক্ষাটি নীল বোতামটির সাথে সবুজ বোতামটি প্রতিস্থাপন করছে।

আমরা সম্মতি দিচ্ছি যে 95% তাত্পর্যটি আমরা যে আত্মবিশ্বাসের স্তরের সাথে সন্তুষ্ট তা হ'ল এবং আমরা পরীক্ষাটি চালু করি, এটি চালিয়ে যান।

ব্যবহারকারীরা যখন সাইটটিতে যান, তখন পর্দার আড়ালে একটি 50/50 সুযোগ থাকে তাদের নিয়ন্ত্রণ সংস্করণে (সবুজ বোতাম) বনাম পরীক্ষার সংস্করণ (নীল বোতাম) এ প্রেরণ করা হবে।

Days দিন পর পরীক্ষার দিকে তাকানোর পরে, আমি দেখতে পাচ্ছি যে রূপান্তরটি ১০০০% এর নমুনা আকারের সাথে 3000 (1500 নিয়ন্ত্রণে চলেছে, 1500 পরীক্ষায় যাচ্ছে) এবং 99.2% এর একটি পরিসংখ্যানিক তাত্পর্য রয়েছে। দুর্দান্ত আমি মনে করি।

পরীক্ষা চালিয়ে যায়, নমুনার আকারটি বৃদ্ধি পায় এবং তারপরে আমি 98.1% এর তাত্পর্য সহ রূপান্তরিতকরণে + 9% বৃদ্ধি দেখতে পাচ্ছি। ঠিক আছে, পরীক্ষা চালিয়ে যাওয়া চালিয়ে যান এবং এখন পরীক্ষাটি ৯২% এর তাত্পর্যপূর্ণ তাত্পর্য সহ রূপান্তরকরণের মধ্যে মাত্র 5% লিফট দেখায়, ফ্রেমওয়ার্কটি আমাকে বলেছে যে 95% তাত্পর্য অর্জনের আগে আমাকে আরও 4600 নমুনা দরকার?

তাহলে কোন পর্যায়ে পরীক্ষাটি শেষ?

যদি আমি এমন কোনও ক্লিনিকাল ট্রায়াল প্রক্রিয়া বলার কথা ভাবি যেখানে আপনি নমুনার আকারের বিষয়ে আগেই সম্মত হন এবং পরীক্ষাটি শেষ করার পরে আপনি যে পরিমাণ মেট্রিকের 99% তাত্পর্যপূর্ণ হন তার 10% উন্নতি দেখতে পান, তবে সিদ্ধান্ত নেওয়া হয় যে সেই ড্রাগটি তখন বাজারে যায়। তবে তারা যদি 4000 জনের উপর এই পরীক্ষাটি করে থাকেন এবং তারা যদি মেট্রিকের 5% উন্নতি দেখতে পান কেবলমাত্র 92% তাৎপর্যপূর্ণ হয় তবে সেই ড্রাগটিকে বাজারে যেতে দেওয়া হবে না।

আমরা কি নমুনা আকারের আগাম একমত হতে পারি এবং নমুনার আকারটি পৌঁছে দেওয়ার পরে যদি থামানো উচিত এবং পরীক্ষাটি বন্ধ করে দেওয়ার মুহুর্তে তাত্পর্যটি 99% হয় তবে ফলাফলগুলি নিয়ে খুশি হওয়া উচিত?


1
আপনি র‌্যাঙ্কিং এবং নির্বাচনের উপর ভিত্তি করে কোনও ভিন্ন পদ্ধতির ব্যবহার বিবেচনা করতে পারেন ।
pjs

আমি এই চলচ্চিত্রটি জুড়ে এসেছি ( youtube.com/watch?v=fl9V0U2SGeI )। আমার কাছে মনে হচ্ছে এটি আপনার প্রশ্নের ঠিক উত্তর দেয়।
নাথান

অধ্যয়নের অন্তর্নিহিত জিনিসটি লক্ষ্য করার মতো মূল্য অত্যন্ত প্রতিচ্ছবিযুক্ত, দ্রুত চলমান এবং ধ্রুব পুনরাবৃত্তি পরীক্ষার প্রয়োজন। বিন্যাস, রঙ, বোতাম ইত্যাদি নতুন সাইট, মান এবং শৈলীর প্রদর্শিত হওয়ার সাথে সাথে দ্রুত চলে move এছাড়াও একটি উচ্চ স্তরের সমন্বয়যুক্ত সমস্যা (সেই বোতামটি ব্যাকগ্রাউন্ডের রঙগুলিতে সামান্য ঝাপটায় বিভিন্ন ফলাফল ফিরিয়ে দিতে পারে)। ফলস্বরূপ, তাত্পর্যপূর্ণ স্তরগুলি নির্বিশেষে আপনার ফলাফলগুলিতে খুব বেশি 'সত্য' স্তরের আস্থা থাকতে পারে না (এবং অবশ্যই এটি দীর্ঘ সময়ের জন্য নয়) এমনকি তারা খুব শক্তিশালী দেখায়।
ফিলিপ

উত্তর:


11

আমি মনে করি আপনি যে ধারণাটি অনুসন্ধান করছেন তা হ'ল অনুক্রম বিশ্লেষণ। এই সাইটটিতে এই শব্দটির সাথে ট্যাগযুক্ত বেশ কয়েকটি প্রশ্ন রয়েছে যা আপনি দরকারী হিসাবে খুঁজে পেতে পারেন, সম্ভবত অভিযোজিত অনুক্রমিক বিশ্লেষণের জন্য পি-মান সমন্বয় (চি স্কোয়ার পরীক্ষার জন্য)? শুরু করার জায়গা হবে। আপনি এখানে উইকিপিডিয়া নিবন্ধের সাথে পরামর্শ করতে পারেন । আর একটি দরকারী অনুসন্ধান শব্দটি হ'ল আলফা ব্যয় যা প্রতিটি বারবার চেহারা গ্রহণ করার সাথে সাথে এটি আপনার কিছু আলফা (তাত্পর্য স্তর) ব্যবহার হিসাবে বিবেচনা করা উচিত from একাধিক তুলনা বিবেচনায় না নিলে আপনি যদি আপনার ডেটাতে তাকাতে থাকেন তবে আপনি নিজের প্রশ্নের যে রূপরেখাটি রূপরেখা দিয়েছেন সে ধরণের সমস্যাটি চালান।


ধন্যবাদ, এটি কিছু ভাল পড়ার সুপারিশ। অন্যথায় কী অনুসন্ধান করতে হবে তাও আমি জানতাম না। এটি গ্রাস করবে।
টেক 75

5

তাহলে কোন পর্যায়ে পরীক্ষাটি শেষ?

আমার মনে হয় চিন্তাভাবনার ক্ষেত্রে ত্রুটিটি এখানেই। আপনি যদি "কর্তব্যনিষ্ঠভাবে কার্যকারণ প্রমাণ করুন" এর অর্থ গ্রহণ করেন তবে পরীক্ষাটি "সিদ্ধান্তগ্রহী" হতে পারে এমন কোনও বিন্দু নেই। আপনি যখন একটি পরীক্ষা-নিরীক্ষার সাথে জড়িত এমন একটি পরীক্ষা করছেন, তখন আপনি যে প্রমাণকে যথেষ্ট ভাল বলে মনে করেন সে সম্পর্কিত আপনার একটি প্রতিশ্রুতিবদ্ধ হওয়া দরকার।

পরিসংখ্যানগতভাবে কার্যকর পরীক্ষামূলক পদ্ধতিগুলি আপনাকে মিথ্যা ধনাত্মক এবং মিথ্যা নেগেটিভের জ্ঞাত হারের সাথে ফলাফল দেয়। আপনি যদি এমন একটি পদ্ধতি বেছে নিয়েছেন যা 0.05 তাত্পর্য হিসাবে তাত্পর্য হিসাবে ব্যবহার করে, আপনি বলছেন যে আপনি যে কোনও ক্ষেত্রেই কোনও পার্থক্য নেই তার 5% ক্ষেত্রে আপনি এটি মানতে রাজি আছেন, আপনার পরীক্ষা আপনাকে বলবে যে একটি পার্থক্য রয়েছে।

আপনি বর্ণনা করার পদ্ধতিগুলি থেকে যদি পদ্ধতি থেকে বিচ্যুত হন (সাময়িক সময়ের বিরতি বিন্দু চয়ন না করা, আপনার গণিত পি-মান 0.05 এর নিচে নেমে আসা পর্যন্ত পরীক্ষা চালিয়ে যাওয়া বা আপনি ইতিবাচক ফলাফল না পাওয়া পর্যন্ত পুরো পরীক্ষাকে একাধিকবার চালিয়ে যাচ্ছেন , ইত্যাদি), আপনি এটি আরও বেশি সম্ভাবনা তৈরি করছেন যে আপনার পরীক্ষা আপনাকে বলবে যে আসলে কোনও পার্থক্য না থাকলে কোনও পার্থক্য রয়েছে। আপনি এটা তৈরি করছেন সম্ভাবনা বেশি পরিবর্তনে চিন্তা কার্যকর হয়েছে মধ্যে বোকা বানানো পাবেন করবে। নিজেকে ফাঁকি পেতে দেবেন না।

এই কাগজটি পড়ুন: তথ্য সংগ্রহ এবং বিশ্লেষণে মিথ্যা-ইতিবাচক মনোবিজ্ঞান অপ্রকাশিত নমনীয়তা যে কোনও কিছুকে তাত্পর্যপূর্ণ হিসাবে উপস্থাপনের অনুমতি দেয়

এটি বেশ কয়েকটি উপায়ে হাইলাইট করে যে আপনি কোনও পরীক্ষার পদ্ধতিতে ভুলভাবে হস্তক্ষেপ করতে পারেন যা আপনার বোকা হওয়ার সম্ভাবনা তৈরি করে, এর সাথে আপনি বর্ণনা করেছেন এমন সঠিক দৃশ্যাবলী (কখন পরীক্ষা বন্ধ করবেন জানেন না) including

অন্যান্য উত্তরগুলি আপনাকে এই সমস্যার বিরুদ্ধে প্রশমিত করার কয়েকটি সমাধান দেয় (ক্রম বিশ্লেষণ, একাধিক তুলনার জন্য Bonferroni সংশোধন)। কিন্তু সমাধান, যখন মিথ্যা-পজিটিভ হার নিয়ন্ত্রণ করতে, সাধারণত, পরীক্ষার ক্ষমতা কমাতে এটা সম্ভাবনা কম পার্থক্য সনাক্ত করতে যখন তারা উপার্জন সক্ষম না বিদ্যমান।


আপনার করা অন্য একটি ত্রুটি রয়েছে। আপনি "মেট্রিক যা 99% তাত্পর্যপূর্ণ তার 10% উন্নতি" সম্পর্কে কথা বলছেন। তাত্পর্য পরীক্ষার শুধুমাত্র আপনি বলতে পারেন কিনা আপনার নমুনা পর্যবেক্ষিত পার্থক্য একটি বাস্তব অন্তর্নিহিত পার্থক্য বা শুধু রান্ডম নয়েজ কারণে হতে পারে; পার্থক্যটির আসল মাত্রা কী তা আপনার চারপাশে তারা আপনাকে আত্মবিশ্বাসের ব্যবধান দেয় না।


3

আমার মনে হয় আপনি এখানে ভুল প্রশ্ন করছেন। আপনি যে প্রশ্নটি জিজ্ঞাসা করছেন তা পরিসংখ্যান পরীক্ষার বিষয়ে; আমি মনে করি সঠিক প্রশ্নটি "সময়ের সাথে প্রভাব কেন পরিবর্তন হচ্ছে?"

আপনি যদি রূপান্তরকরণের জন্য 0/1 ভেরিয়েবল পরিমাপ করে থাকেন (তারা কি আদৌ কিনেছিল?) তবে যে সমস্ত লোক প্রাথমিক অধিবেশনটিতে কেনেনি তারা আবার ফিরে এসে কিনতে পারে। এর অর্থ হ'ল সময়ের সাথে সাথে রূপান্তর হার বৃদ্ধি পাবে এবং পরবর্তী ভিজিটের বিপরীতে গ্রাহকরা তাদের প্রথম দর্শনে কেনার যে কোনও প্রভাব হারাবে।

অন্য কথায়, প্রথমে আপনি যা মাপছেন তা ঠিক করুন , তারপরে আপনি কীভাবে পরিমাপ করছেন তা নিয়ে চিন্তা করুন ।


3

ঠিক এই কারণেই বিচারের আগে একটি পরিষ্কার মানদণ্ডকে সংজ্ঞায়িত করা দরকার। @ এমডেভেয়ে ইঙ্গিত দিচ্ছে যে পর্যায়ক্রমে একটি পরীক্ষার মূল্যায়নের জন্য প্রতিষ্ঠিত পদ্ধতি রয়েছে তবে সিদ্ধান্তের বিষয়ে কোনও ঝক্কি রোধ করার জন্য এগুলিগুলির একটি স্পষ্ট স্টপিং মাপদণ্ডের প্রয়োজন। দুটি সমালোচনামূলক বিষয় হ'ল একাধিক তুলনার জন্য আপনার সংশোধন করা দরকার এবং প্রতিটি বিশ্লেষণ স্বাধীন নয়, তবে এর ফলাফলটি আপনার পূর্ববর্তী বিশ্লেষণের ফলাফল দ্বারা খুব বেশি প্রভাবিত।

বিকল্প হিসাবে বাণিজ্যিকভাবে প্রাসঙ্গিক যুক্তির উপর ভিত্তি করে একটি সেট নমুনা আকার নির্ধারণ করা সেরা অনুশীলন হতে পারে।

প্রথমে সংস্থার রূপান্তর হারে বাণিজ্যিকভাবে প্রাসঙ্গিক পরিবর্তন কী তা একমত হওয়া উচিত (অর্থাত্ স্থায়ীভাবে স্থাপনের জন্য বাণিজ্যিক কেস তৈরির জন্য ওয়ারেন্টের জন্য কোন আকারের পার্থক্য প্রয়োজন)। এটি সম্মত না করে কোনও বুদ্ধিমান বেনমার্ক নেই।

একবার সর্বনিম্ন বাণিজ্যিকভাবে প্রাসঙ্গিক প্রভাবের আকার নির্ধারণ করা হয়েছে (নোটটি কেসটির ভিত্তিতে কেসটির উপর ভিত্তি করে পরীক্ষা করা হচ্ছে এটি কতটা সমালোচিত তার উপর নির্ভর করে নোট করুন) তারপরে আপনি যে ঝুঁকির মাত্রাটি স্বীকার করছেন যে সংস্থাটি সত্যিকারের প্রভাবটি হারিয়ে যাওয়ার জন্য স্বীকার করতে রাজি হবে ( বিটা) এবং একটি মিথ্যা প্রভাব গ্রহণ করার জন্য (আলফা)।

একবার আপনি এই সংখ্যাগুলি সেগুলিকে নমুনা আকারের ক্যালকুলেটর এবং ভয়েলায় প্লাগ করে ফেললে, সিদ্ধান্ত নেওয়ার জন্য আপনার সেট নমুনা আকার থাকবে।


সম্পাদনা

ছোট ছোট নমুনা আকার ব্যবহার এবং আশা করা যে তারা যথেষ্ট পরিমাণে প্রভাব ফেলবে তা একটি মিথ্যা অর্থনীতি (যেহেতু আপনার লক্ষ্যটি একাডেমিক প্রকাশের জন্য বিতর্কিত হাইপোথিসি তৈরির পরিবর্তে কার্যক্ষম নির্ভরযোগ্য ফলাফল)। নিরপেক্ষ নমুনা অনুমান করে, কম নমুনা আকারে এলোমেলোভাবে নমুনা নির্বাচন করার সম্ভাবনাগুলি উচ্চতর নমুনার আকারের চেয়ে বেশি হয় opposite এটি কোনও নাল অনুমানকে প্রত্যাখ্যান করার উচ্চতর সম্ভাবনা নিয়ে যায় যখন বাস্তবে কোনও পার্থক্য নেই। সুতরাং এর অর্থ এমন পরিবর্তনের মধ্য দিয়ে চাপ দেওয়া যা প্রকৃতপক্ষে বাস্তব প্রভাব ফেলছে না বা কিছুটা নেতিবাচক প্রভাব ফেলছে তার থেকেও খারাপ। @ বিজ্ঞান যখন কথা বলে তখন কী কথা বলছে তা বোঝানোর এটি একটি ভিন্ন উপায়

"আপনি এটি আরও বেশি সম্ভাবনা তৈরি করছেন যে আপনার পরীক্ষা আপনাকে বলবে যে আসলে কোনও পার্থক্য নেই যখন একটি পার্থক্য বিদ্যমান"

আপনার পরিসংখ্যানগত বিশ্লেষণের প্রাক-নির্দিষ্ট করার বিষয়টিটি (আমি বর্ণনা হিসাবে স্থির নমুনার আকার বা একাধিক মূল্যায়ন কৌশল যাই হোক না কেন) হ'ল আপনি যথাযথভাবে I এবং II উভয় ত্রুটির ত্রুটির দাবিগুলিতে ভারসাম্য বজায় রাখুন। আপনার বর্তমান কৌশলটি টাইপ প্রথম ত্রুটিগুলিতে ফোকাস করে এবং II টাইপটিকে সম্পূর্ণ উপেক্ষা করে appears

যেমনটি অন্যান্য অন্যান্য উত্তরদাতারা জানিয়েছেন যে ফলাফলগুলি কখনই চূড়ান্ত হয় না, তবে আপনি যদি উভয় প্রকারের I এবং II ত্রুটিগুলি এবং আপনার ব্যবসায়ের উপর তাদের প্রভাব বিবেচনা করে থাকেন তবে ফলাফলের ভিত্তিতে পরিবর্তনগুলি প্রয়োগ করতে হবে কিনা তা নিয়ে আপনারা সবচেয়ে বেশি আস্থা রাখতে পারেন। শেষ পর্যন্ত সিদ্ধান্ত নেওয়া আপনার ঝুঁকির স্তরের সাথে স্বাচ্ছন্দ্য বোধ করা এবং আপনার 'সত্য' কে কখনও অপরিবর্তনীয় হিসাবে বিবেচনা করবেন না।

আপনার স্টাডি ডিজাইনের অন্যান্য দিকগুলি নিয়ে আমি আগ্রহী যা আপনার দেখা ফলাফলগুলিকে প্রভাবিত করতে পারে। তারা কিছু সূক্ষ্ম কারণগুলি প্রকাশ করতে পারে যা আপনি চান তা নয়।

নমুনার জন্য লোকেরা কি সমস্ত নতুন দর্শনার্থী, সমস্ত প্রত্যাবর্তনকারী দর্শনার্থীর বা নির্বাচিত হয়? প্রতিষ্ঠিত গ্রাহকদের কিছু উপন্যাসের দিকে যাওয়ার প্রবণতা বাড়তে পারে (কোনও নির্দিষ্ট রঙের পরিবর্তনের প্রতি পক্ষপাতিত্ব করা) না, তবে নতুন গ্রাহকদের কাছে সবকিছুই নতুন।

প্রকৃত লোকেরা কি অধ্যয়নের সময়সীমার মধ্যে পুনরাবৃত্তি করতে ক্লিক করে?

লোকেরা যদি অধ্যয়নের সময়সীমার মধ্যে একাধিকবার পরিদর্শন করে তবে তারা কি একই সংস্করণটি উপস্থাপন করে বা এলোমেলোভাবে উড়তে বরাদ্দ করা হয়?

যদি বারবার আগত দর্শনার্থীদের সেখানে এক্সপোজার ক্লান্তি হওয়ার আশঙ্কা অন্তর্ভুক্ত করা হয় (এটি আর বিচলিত হয় না কারণ এটি আর নতুন নয়)


এর জন্য ধন্যবাদ. আপনি আগে থেকেই রূপান্তরকরণে বাণিজ্যিকভাবে প্রাসঙ্গিক পরিবর্তনকে সম্মত করার বিষয়ে দুর্দান্ত বক্তব্য রেখেছেন। তবে ই-কমার্সের মতো দেখতে, রূপান্তরিত ছোট্ট পরিবর্তনগুলি বিক্রয়কে প্রভাবিত করতে পারে, এটি বেশ কম মান হবে।
টেক 75

সর্বনিম্ন পার্থক্যটি ছোট হওয়ার দরকার নেই কোনও সমস্যা নয়, এটি নিশ্চিত করবে যে আপনি যথাযথভাবে শক্তি প্রয়োগ করেছেন।
রিনিবেট

0

সাধারণ অনুশীলন সাধারণত হুকুম দেয় যে আপনি প্রথমে নমুনা আকারের বিষয়ে সিদ্ধান্ত নিন (আপনার অনুমানের পরীক্ষার পরিসংখ্যানের শক্তি নিয়ন্ত্রণ করতে) এবং তারপরে পরীক্ষাটি চালান।

আপনার বর্তমান অবস্থানের প্রতিক্রিয়া হিসাবে, মনে হচ্ছে আপনি একাধিক হাইপোথিসিস পরীক্ষার সংমিশ্রনের পরে রয়েছেন। আমি আপনাকে ফিশারের পদ্ধতিটি দেখার পরামর্শ দিচ্ছি। এছাড়াও, আপনি সম্ভবত ফিশারের পদ্ধতি নির্ভরশীল পরীক্ষার পরিসংখ্যানগুলিতে সামঞ্জস্য করার জন্য ব্রাউন বা কস্টের পদ্ধতিগুলি দেখতে চান। অন্য একজন উত্তরদাতা যেমন উল্লেখ করেছেন, গ্রাহকের রূপান্তর (বা রূপান্তর না করা) তারা পরের পরিদর্শনকালে কেনা (বা না) করবে কিনা তা প্রভাব ফেলবে - বোতামটি যে রঙ তা নির্বিশেষে।

Afterthoughts:

  1. ফিশারের পদ্ধতি এবং তাদের সম্প্রসারণ সম্পর্কিত আরও তথ্য এবং উত্স ফিশারের পদ্ধতির উইকিপিডিয়া নিবন্ধে পাওয়া যাবে।
  2. আমি উল্লেখ করা জরুরী যে একটি পরীক্ষা সত্যই চূড়ান্ত হয় না । একটি ছোট পি-মানটি আপনার ফলাফলটি চূড়ান্ত বলে ইঙ্গিত দেয় না - কেবলমাত্র আপনার অর্জিত ডেটার ভিত্তিতে নাল অনুমানটি অসম্ভব unlikely
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.