পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হওয়ার জন্য কীভাবে ডেটা অনুকরণ করবেন?


18

আমি দশম শ্রেণিতে আছি এবং আমি একটি মেশিন লার্নিং বিজ্ঞান মেলা প্রকল্পের ডেটা সিমুলেট করতে চাইছি। চূড়ান্ত মডেলটি রোগীর উপাত্তগুলিতে ব্যবহার করা হবে এবং সপ্তাহের নির্দিষ্ট সময়ের মধ্যে সম্পর্ক এবং একক রোগীর ডেটার মধ্যে ওষুধের আনুগত্যের উপর এর প্রভাবের পূর্বাভাস দেয়। আনুগত্যের মানগুলি বাইনারি হবে (0 এর অর্থ তারা ওষুধ গ্রহণ করেনি, 1 মানে তারা করেছে)। আমি এমন একটি মেশিন লার্নিং মডেল তৈরি করতে চাই যা সপ্তাহের সময়ের মধ্যকার সম্পর্ক থেকে শিখতে সক্ষম হয় এবং সপ্তাহকে 21 সময়ের স্লটে বিভক্ত করে রেখেছি, দিনের প্রতিটি সময়ের জন্য তিনটি (1 সোমবার সকালে, 2 সোমবার বিকেলে, ইত্যাদি)। আমি 1000 জন রোগীর মূল্যবান ডেটা অনুকরণ করতে চাইছি। প্রতিটি রোগীর কাছে 30 সপ্তাহের মূল্যবান ডেটা থাকবে। আমি সপ্তাহের একটি সময় এবং আনুগত্যের সাথে যুক্ত কিছু প্রবণতা সন্নিবেশ করতে চাই। উদাহরণ স্বরূপ, একটি ডেটা সেটে আমি বলতে পারি যে সপ্তাহের 7 স্লটের সাথে আনুগত্যের সাথে একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ সম্পর্ক রয়েছে। সম্পর্কের পরিসংখ্যানগত দিক থেকে তাৎপর্যপূর্ণ কিনা তা নির্ধারণ করার জন্য আমাকে অপরের প্রত্যেকের সাথে এক সময়ের স্লটের তুলনায় দুটি নমুনা টি-পরীক্ষা করতে হবে এবং তাগিদটির মান 0.05 এর চেয়ে কম কিনা তা নিশ্চিত করতে হবে।

যাইহোক, আমার নিজের ডেটা সিমুলেট করার পরিবর্তে এবং আমি যে প্রবণতাগুলি সন্নিবেশ করিয়েছিলাম তা উল্লেখযোগ্য কিনা তা যাচাই না করে আমি বরং পিছনের দিকে কাজ করব এবং সম্ভবত একটি প্রোগ্রাম ব্যবহার করব যা আমি একটি নির্দিষ্ট সময় স্লটকে মেনে চলার সাথে একটি উল্লেখযোগ্য প্রবণতা নির্ধারণ করতে বলব, এবং এটি ফিরে আসবে বাইনারি ডেটা যাতে এর মধ্যে থাকা ট্রেন্ডের জন্য আমি জিজ্ঞাসা করেছি এবং অন্যান্য সময় স্লটগুলির জন্য বাইনারি ডেটাতে কিছু শব্দ রয়েছে তবে কোনও পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ প্রবণতা তৈরি করে না।

এমন কোনও প্রোগ্রাম আছে যা আমাকে এরকম কিছু অর্জনে সহায়তা করতে পারে? নাকি অজগর মডিউল হতে পারে?

যে কোনও সহায়তা (আমার প্রকল্পে সাধারণ মন্তব্যগুলি) অত্যন্ত প্রশংসিত হবে!


4
এইটা একটা ভালো প্রশ্ন. এবং এর মতো কিছু হ'ল অধ্যয়ন নকশার পর্যায়ে অনুদানের জন্য আবেদনের আগে বেশিরভাগ বিজ্ঞানীকে করা উচিত । আমি অনেক অনেক সময় দেখি যে লোকেরা প্রথমে তাদের ডেটা সংগ্রহ করে এবং কীভাবে এটি বিশ্লেষণ করা যায় তা পরে বের করার চেষ্টা করে, ফলাফলটি দিয়ে যে পরিসংখ্যানবিদ কেবল রোনাল্ড ফিশারের ভাষায় এই পরীক্ষাটি কীভাবে মারা গিয়েছিলেন তা বলতে সক্ষম হতে পারে ।
এস। কোলাসা - মনিকা

@ স্টেফানকোলাসা যাইহোক, মানব ডেটা নিয়ে কিছু পরীক্ষা-নিরীক্ষায় কী ডেটা পাওয়া যাবে তা মূল্যায়ন করা খুব কঠিন, এবং অন্য সেটিং-এ একজন এমন ডেটা ব্যবহার করে যা উপলব্ধ এবং আরও সংগ্রহ করতে পারে না ...
llrs

2
@ এলার্স: এটি সম্পূর্ণ সঠিক। এবং এটি অবশ্যই সিমুলেশন অনুশীলন অবহিত করা উচিত। কী কী ডেটা পাওয়া যায় সে সম্পর্কে আগে চিন্তা করা ভাল , পরীক্ষার পরে সন্ধান করা যে গুরুত্বপূর্ণ ডেটা প্রাপ্ত করা যায় না।
এস। কোলাসা - মনিকা

(+1) এই প্রশ্নটি কিছুটা আপত্তিজনকভাবে বন্ধ করার জন্য আমি ভোটটি পেয়েছি
রবার্ট লং

@ রবার্টলং, আপনি কেন তা বলছেন? আমি কেবল জিজ্ঞাসা করেছি কারণ আমি নিশ্চিত করতে চাই যে প্রতিক্রিয়াতে আমি এমন কিছু মিস করছি না যা এটি কম বিশ্বাসযোগ্য করে তুলেছে।
নীলাশা ভট্টাচার্য

উত্তর:


14

সাধারাওন বক্তব্য

  • "আমি দশম শ্রেণিতে আছি এবং আমি একটি মেশিন লার্নিং বিজ্ঞান মেলা প্রকল্পের ডেটা অনুকরণ করতে চাইছি।" অসাধারণ. আমি দশম শ্রেণিতে গণিত সম্পর্কে মোটেই পাত্তা দিইনি; আমার মনে হয় আমি সেই বছর বীজগণিত 2 এর মতো কিছু নিয়েছিলাম ...? আপনি কয়েক বছরের মধ্যে আমাকে চাকরি থেকে সরিয়ে না দেওয়া পর্যন্ত আমি অপেক্ষা করতে পারি না! আমি নীচে কিছু পরামর্শ দিচ্ছি, কিন্তু: আপনি এই সিমুলেশন থেকে কী শিখতে চাইছেন? পরিসংখ্যান এবং মেশিন লার্নিংয়ে আপনি ইতিমধ্যে কীসের সাথে পরিচিত? এটি জানার ফলে আমাকে (এবং অন্যরা) আরও কিছু নির্দিষ্ট সাহায্য একসাথে রাখতে সহায়তা করবে।

  • পাইথন একটি খুব দরকারী ভাষা, তবে আমি এই মতামত নিয়েছি যে ডেটা অনুকরণের জন্য আর ভাল। আমি বেশিরভাগ বই / ব্লগ / পড়াশোনা / ক্লাসগুলি ডেটা সিমুলেট করে দেখেছি (লোকেরা "মন্টি কার্লো পদ্ধতিগুলিকে অভিনব বলে অভিহিত করে) আর এও আছে। আর ভাষাটি পরিসংখ্যানবিদদের দ্বারা" হিসাবে পরিচিত, "এবং বেশিরভাগ শিক্ষাবিদ — যা তাদের পদ্ধতিগুলি দেখানোর জন্য সিমুলেশন স্টাডির উপর নির্ভর করে R আর ব্যবহার করুন cool প্রচুর শীতল ফাংশনগুলি বেস আর ভাষাতে রয়েছে (এটি কোনও অতিরিক্ত প্যাকেজগুলির প্রয়োজন নেই), যেমন ইউনিফর্মের rnormজন্য একটি সাধারণ বিতরণের runifজন্য বন্টন, rbetaবিটা বিতরণের জন্য, ইত্যাদি। আর-তে টাইপ করা ?Distributionsআপনাকে সেগুলিতে একটি সহায়তা পৃষ্ঠা দেখাবে। যাইহোক, আছে মত অনেক অন্যান্য শীতল প্যাকেজ mvtnormবাsimstudyযে দরকারী। আমি আর শিখার জন্য ডেটা ক্যাম্প ডটকমকে সুপারিশ করব, যদি আপনি কেবল পাইথন জানেন; আমি মনে করি যে তারা জিনিসগুলির সাথে আলতোভাবে পরিচয় করিয়ে দেওয়ার জন্য ভাল

  • দেখে মনে হচ্ছে আপনার এখানে অনেক কিছু চলছে: আপনি সময়ের সাথে (অনুদৈর্ঘ্য), সাবজেক্টের মধ্যে (সম্ভবত একটি মাল্টিলেভেল মডেল ব্যবহার করছেন) এমন ডেটা চান এবং সেগুলির একটি মৌসুমী উপাদান রয়েছে (সম্ভবত কোনও সময়ের সিরিজের মডেল), সমস্ত ভবিষ্যদ্বাণী করে একটি দ্বিধাদায়ক ফলাফল (লজিস্টিক রিগ্রেশন জাতীয় কিছু)। আমি মনে করি যে সিমুলেশন অধ্যয়ন শুরু করে প্রচুর লোক (নিজেকে সহ) একসাথে একগুচ্ছ জিনিস ফেলে দিতে চায় তবে এটি সত্যই উদ্বেগজনক এবং জটিল হতে পারে। সুতরাং আমি যা করার পরামর্শ দিচ্ছি তা হ'ল সহজ কিছু দিয়ে শুরু করা — সম্ভবত ডেটা উত্পন্ন করার জন্য একটি ফাংশন বা দুটি তৈরি করা then এবং সেখান থেকে তৈরি করুন।

নির্দিষ্ট মন্তব্য

দেখে মনে হচ্ছে আপনার মূল অনুমানটি হ'ল: "দিনের সময়টি ভবিষ্যদ্বাণী করে যে কেউ তাদের ওষুধ সেবন করতে মেনে চলেন কিনা।" আর তুমি দুই দুই কৃত্রিম ডেটা সেট তৈরি চাই: এক যেখানে হয় একটি সম্পর্ক এবং এক যেখানে আছে না

আপনি একই ব্যক্তির একাধিক পর্যবেক্ষণ উপস্থাপনের জন্য সিমুলেটিং ডেটা উল্লেখ করেছেন। এর অর্থ হ'ল প্রতিটি ব্যক্তির সাথে তাদের আনুগত্যের নিজস্ব সম্ভাবনাও থাকবে, সম্ভবত, দিনের সময় এবং আনুগত্যের সম্ভাবনার মধ্যে সম্পর্কের জন্য তাদের নিজস্ব opeাল হবে। আমি এই ধরণের সম্পর্কের জন্য "মাল্টিলেভেল" বা "শ্রেণিবদ্ধ" রিগ্রেশন মডেলগুলিতে সন্ধান করার পরামর্শ দেব, তবে আমি মনে করি আপনি এটির চেয়ে সহজতর শুরু করতে পারেন।

এছাড়াও, আপনি ওষুধের নিয়ম মেনে চলার সময় এবং সম্ভাবনার মধ্যে একটি অবিচ্ছিন্ন সম্পর্কের কথা উল্লেখ করেছেন, যা আমাকে ভাবতেও বাধ্য করে যে টাইম সিরিজ মডেলিং - বিশেষত মৌসুমী প্রবণতাগুলি দেখানো you আপনার জন্য সহায়ক হবে। এটিও অনুকরণযোগ্য-সক্ষম, তবে আবারও, আমি মনে করি আমরা আরও সহজ শুরু করতে পারি।

আসুন ধরা যাক আমাদের 1000 জন লোক রয়েছে এবং আমরা তাদের ওষুধটি একবারে নিয়েছি কিনা তা আমরা মাপছি। আমরা এও জানি যে তাদের সকাল, বিকেলে বা সন্ধ্যায় এটি নেওয়ার দায়িত্ব দেওয়া হয়েছিল কিনা। আসুন বলে যে ওষুধ 1, নিচ্ছে না এটা 0. আমরা ব্যবহার dichotomous তথ্য সিমুলেট করতে rbinomএকটি দ্বিপদ বিন্যাস থেকে স্বপক্ষে জন্য। আমরা প্রতিটি ব্যক্তিকে একটি নির্দিষ্ট সম্ভাব্যতা সহ 1 টি পর্যবেক্ষণ করতে সেট করতে পারি। ধরা যাক যে লোকেরা সকালে এটি গ্রহণের সম্ভাবনা থাকে 80%, বিকেলে 50% এবং রাতে 65%। আমি নীচের কোডটি পেস্ট করেছি, এর পরে কিছু মন্তব্য সহ #:

set.seed(1839) # this makes sure the results are replicable when you do it
n <- 1000 # sample size is 1000
times <- c("morning", "afternoon", "evening") # create a vector of times
time <- sample(times, n, TRUE) # create our time variable

# make adherence probabilities based on time
adhere_prob <- ifelse(
  time == "morning", .80, 
  ifelse(
    time == "afternoon", .50, .65
  )
)

# simulate observations from binomial distribution with those probabilities
adhere <- rbinom(n, 1, adhere_prob)

# run a logistic regression, predicting adherence from time
model <- glm(adhere ~ time, family = binomial)
summary(model)

এই সংক্ষিপ্তসারটি অংশে দেখায়:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.02882    0.10738   0.268  0.78839    
timeevening  0.45350    0.15779   2.874  0.00405 ** 
timemorning  1.39891    0.17494   7.996 1.28e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Interceptবিকেলে প্রতিনিধিত্ব করে আর আমরা দেখতে পারি উভয় সন্ধ্যায় এবং সকাল লগ্ন এর উল্লেখযোগ্যভাবে বেশী সম্ভাবনা আছে। লজিস্টিক রিগ্রেশন সম্পর্কে প্রচুর বিশদ রয়েছে যা আমি এই পোস্টে ব্যাখ্যা করতে পারি না, তবে টি- স্টেটস ধরে নিচ্ছে যে আপনার শর্তসাপেক্ষে স্বাভাবিকভাবে বিতরণ করা নির্ভরশীল ভেরিয়েবল রয়েছে। লজিস্টিক রিগ্রেশন মডেলগুলি আরও উপযুক্ত যখন আপনার মত ডাইকোটমাস (0 বনাম 1) ফলাফল আসে। সর্বাধিক পরিচায়ক পরিসংখ্যান বই সম্পর্কে কথা বলতে হবে টন -test এবং পরিচায়ক মেশিন লার্নিং বই লজিস্টিক রিগ্রেশন সম্পর্কে কথা বলতে হবে অনেক। আমি মনে করি পরিসংখ্যানগত শিক্ষার পরিচিতি: আর এর সাথে অ্যাপ্লিকেশনগুলি দুর্দান্ত, এবং লেখকরা পুরো জিনিসটি অনলাইনে পোস্ট করেছেন:https://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf

সিমুলেশন অধ্যয়নের জন্য আমি ভাল বই সম্পর্কে নিশ্চিত নই; আমি ঘোরাঘুরি, অন্য লোকেরা কী করেছে তা পড়ার থেকে এবং একটি স্নাতক কোর্স থেকে আমি পরিসংখ্যানগত কম্পিউটিং শুরু করেছি (অধ্যাপকের উপকরণগুলি এখানে রয়েছে: http://pj.freefactory.org/guides/ )।

সবশেষে, আপনি একই সম্ভাবনা থাকার জন্য সময় নির্ধারণ করে কোনও প্রভাব ছাড়াই অনুকরণ করতে পারেন:

set.seed(1839)
n <- 1000
times <- c("morning", "afternoon", "evening")
time <- sample(times, n, TRUE)
adhere <- rbinom(n, 1, .6) # same for all times
summary(glm(adhere ~ time, binomial))

যা ফেরত:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.40306    0.10955   3.679 0.000234 ***
timeevening -0.06551    0.15806  -0.414 0.678535    
timemorning  0.18472    0.15800   1.169 0.242360    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

এটি সময়ের মধ্যে কোনও তাত্পর্যপূর্ণ তাত্পর্য প্রদর্শন করে না, কারণ আমরা সম্ভাবনা থেকে একই সময়ের মধ্যে একইরকম আশা করব।


বইয়ের সুপারিশের জন্য আপনাকে অনেক ধন্যবাদ! ছুটির পড়ার জন্য আমার যা প্রয়োজন!
এমডি-টেক

এই জন্য আপনাকে অনেক ধন্যবাদ! আমি জানতাম যে আমার প্রকল্পের মেশিন লার্নিংয়ের দিকগুলির জন্য আমার একটি লজিস্টিক রিগ্রেশন মডেল প্রয়োজন, তবে এটি ডেটা সিমুলেটেড করার ক্ষেত্রেও একটি অ্যাপ্লিকেশন রয়েছে বলে মনে হয়। যাইহোক, আমি এই ধারণাটির মধ্যে ছিলাম যে লজিস্টিক রিগ্রেশনটি সময়ের ক্রমকে বিবেচনা করার জন্য প্রয়োজন, তবে এই ক্ষেত্রে তা হয় না কারণ প্রতিটি সময় একে অপরের সাথে কোনও সম্পর্কযুক্ত নয় different আমি আমার গণিত শিক্ষকের সাথে আলোচনা করার পরে এই সিদ্ধান্তে পৌঁছেছি, তবে আমরা দুজনেই খুব ভুল হতে পারি। আপনি দয়া করে এখানে স্পষ্ট করে বলতে পারেন কেন সঠিকভাবে লজিস্টিক রিগ্রেশন এখানে ব্যবহার করা যেতে পারে?
নীলাশা ভট্টাচার্য

@ নীলাশাভট্টাচার্জি ডেটা সিমুলেট করা এবং লজিস্টিক রিগ্রেশন মডেল ফিটিং করা দুটি পৃথক পদক্ষেপ — আমরা যদি একই ডেটা অনুকরণ করতে পারি এবং একটি বিশিষ্ট টেবিল এবং চি-বর্গ পরিসংখ্যান ব্যবহার করে এটি বিশ্লেষণ করতে পারি। আপনি ঠিক বলেছেন যে আমি যে মডেলটি ফিট করি তা কোনও সময়ে কোনও ক্রমকে এনকোড করে না। তবে, রিগ্রেশন মডেলগুলি স্বতন্ত্র ভেরিয়েবলগুলি নয়, নির্ভরশীল ভেরিয়েবল কীভাবে বিতরণ করা হবে তা নিয়ে অনুমানগুলি তৈরি করে । আমরা ভবিষ্যদ্বাণীকারী, ক্রমাগত ভবিষ্যদ্বাণীকারী, গণনা পূর্বাভাসক ইত্যাদির আদেশ দিতে পারতাম এবং তাদের সমস্তটি লজিস্টিক রিগ্রেশনের জন্য ঠিক ছিল।
হোয়াইট

@ নীলাশাভট্টাচার্জি লজিস্টিক রিগ্রেশনটি এখানে ব্যবহার করা যেতে পারে যেহেতু আমরা একটি দ্বৈতশ্রিত নির্ভরশীল পরিবর্তনশীলকে মডেলিং করছি - এটি হল দুটি এবং কেবল দুটি সম্ভাব্য ফলাফল সহ একটি। লজিস্টিক রিগ্রেশন যা করে তা হ'ল "লজিস্টিক লিঙ্ক ফাংশন" ব্যবহার করে রিগ্রেশন সমীকরণের জন্য সমস্ত পূর্বাভাসিত মানকে (যেমন, বি0 + বি 1 * এক্স) 0 এবং 1 এর মধ্যে ফিট করে And নির্ভরশীল পরিবর্তনশীল মান ১।
মার্ক হোয়াইট

তোমাকে অনেক ধন্যবাদ! যাইহোক, আমি ভাবছিলাম যে আপনি দুটি সিমুলেটেড ডেটা সেটগুলির মধ্যে পি মানগুলি কীভাবে দেখতে সক্ষম হন এবং এটি নির্ধারণ করতে সক্ষম হন যে একটির উল্লেখযোগ্য প্রবণতা ছিল এবং অন্যটি। আমার কাছে, উভয় সেটের p মান রয়েছে যা যথেষ্ট পরিমাণে তাত্পর্যপূর্ণ হতে পারে।
নীলাশা ভট্টাচার্য

4

যদি আপনি ইতিমধ্যে কিছু পাইথন জানেন, তবে আপনি অবশ্যই বেজ পাইথন পাশাপাশি numpyএবং / অথবা এর সাহায্যে যা প্রয়োজন তা অর্জন করতে সক্ষম হবেন pandas। মার্ক হোয়াইট যদিও পরামর্শ দিচ্ছেন, প্রচুর সিমুলেশন এবং পরিসংখ্যান-সম্পর্কিত স্টাফ আর এ বেকড রয়েছে, তাই অবশ্যই দেখার দরকার।

নীচে আপনি কীভাবে পাইথন ক্লাসটি ব্যবহার করে এটির কাছে যেতে পারেন তার একটি প্রাথমিক কাঠামো রয়েছে। কিছু শব্দ sertোকাতে আপনি প্রতিটি বিষয়গুলির np.random.normalসামঞ্জস্য করতে ব্যবহার করতে পারেন baseline_adherence। এটি আপনাকে একটি সিউডো-এলোমেলো আনুগত্য দেয় যা আপনি নির্দিষ্ট দিনগুলিতে লক্ষ্যবস্তু হ্রাস মেনে চলতে পারেন।

import pandas as pd
import numpy as np

from itertools import product

class Patient:

    def __init__(self, number, baseline_adherence=0.95):
        self.number = number
        self.baseline_adherence = baseline_adherence
        self.schedule = self.create_schedule()

    def __repr__(self):
        return "I am patient number {}".format(self.number)

    def create_schedule(self):

        time_slots = []
        for (day, time) in product(range(1, 8), range(1, 4)):
            time_slots.append("Day {}; Slot {}".format(day, time))
        week_labels = ["Week {}".format(x) for x in range(1, 31)]
        df = pd.DataFrame(np.random.choice([0, 1],
                                           size=(30, 21),#1 row per week, 1 column per time slot
                                           p=(1-self.baseline_adherence, self.baseline_adherence)),
                          index=week_labels,
                          columns=time_slots
                         )
        return df

    def targeted_adherence(self, timeslot, adherence=0.8):

        if timeslot in self.schedule.columns:
            ad = np.random.choice([0, 1],
                                  size=self.schedule[timeslot].shape,
                                  p=(1-adherence, adherence)
                                 )
            self.schedule[timeslot] = ad


sim_patients = [Patient(x) for x in range(10)]
p = sim_patients[0]
p.targeted_adherence("Day 1; Slot 3")

1

এটি একটি দুর্দান্ত প্রকল্প। এর মতো প্রকল্পগুলির জন্য একটি চ্যালেঞ্জ রয়েছে এবং আপনার সিমুলেটেড ডেটা ব্যবহারের পদ্ধতি এটি মূল্যায়নের এক দুর্দান্ত উপায়।

আপনার কি কোনও অগ্রাধিকার অনুমান আছে, যেমন "সন্ধ্যায় মানুষ বেশি ভুলে যায়"? সেক্ষেত্রে একটি পরিসংখ্যান পরীক্ষা যা সকালের তুলনায় সন্ধ্যায় ভুলে যাওয়ার ফ্রিকোয়েন্সি তুলনা করে এটি পরীক্ষা করবে। পূর্ববর্তী উত্তরদাতারা যেমনটি বলেছিলেন এটি বার্নোল্লি বিতরণ।

অন্য পদ্ধতিটি হ'ল আপনার ডেটা ট্রল করে এটি নির্ধারণ করতে যে কোন সময় স্লটে ব্যর্থতার সর্বোচ্চ হার রয়েছে। একটি হতে বাধ্য, তাই প্রশ্নটি "এটি কি কেবল একটি সুযোগের ফলাফল?" এক্ষেত্রে তাত্পর্যটির তাত্পর্য বেশি। আপনি যদি এ সম্পর্কে পড়তে চান তবে "মিথ্যা আবিষ্কারের হার" অনুসন্ধান করুন।

আপনার ক্ষেত্রে সিস্টেমটি যথেষ্ট সহজ যে আপনি কিছুটা চিন্তাভাবনা করে প্রান্তিকের গণনা করতে পারেন। তবে সাধারণ পদ্ধতিটিও ব্যবহার করা যেতে পারে: কোনও হারের প্রকরণ ছাড়াই 1000 ডেটাসেটের সমান করুন, তারপরে কাকতালীয় কম সংখ্যার ফ্রিকোয়েন্সি বিতরণটি সন্ধান করুন। আপনার আসল ডেটাসেট এর সাথে তুলনা করুন। যদি দুপুর ১ টা থেকে সত্যিকারের ডেটাগুলিতে স্পার্স স্লট হয় তবে 50/1000 সিমুলেটেড ডেটাসেটগুলির একটি সমানভাবে বিছিন্ন স্লট থাকে, তবে ফলাফলটি শক্তিশালী নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.