কোনও ডেটা নমুনা থেকে জিপফ কেটে দেওয়া বিতরণের জন্য প্যারামিটারগুলি কীভাবে অনুমান করা যায়?


10

জিপফের জন্য অনুমানের পরামিতি নিয়ে আমার সমস্যা আছে। আমার পরিস্থিতি নিম্নলিখিত:

আমার একটি নমুনা সেট রয়েছে (এমন একটি পরীক্ষার মাধ্যমে পরিমাপ করা হবে যে কলগুলি উত্পন্ন করে যা একটি জিপএফ বিতরণ অনুসরণ করবে)। আমাকে প্রদর্শন করতে হবে যে এই জেনারেটরটি সত্যিই জিপএফ বিতরণের মাধ্যমে কল উত্পন্ন করে। আমি ইতিমধ্যে এই প্রশ্নোত্তরটি পড়েছি শীর্ষ ফ্রিকোয়েন্সিগুলির একটি সেট থেকে জিপফের আইন সহগকে কীভাবে গণনা করব? তবে আমি খারাপ ফলাফলগুলিতে পৌঁছে যাচ্ছি কারণ আমি একটি ছাঁটাই বিতরণ ব্যবহার করি। উদাহরণস্বরূপ, যদি আমি প্রজন্মের প্রক্রিয়াটির জন্য "s" মানটি "0.9" তে সেট করি, যদি আমি রিপোর্ট করা প্রশ্নোত্তর পর্বে লিখিত "s" মানটি অনুমান করার চেষ্টা করি তবে আমি "এস" ০.২ সিএ সমান পেয়েছি। আমি মনে করি এটি সত্য যে আমি একটি ট্রানকাটযুক্ত বিতরণ ব্যবহার করি (এর কারণে আমাকে জিপফকে একটি কাটা পয়েন্ট দিয়ে সীমাবদ্ধ করতে হবে, এটি ডান-কাটা) due

কাটা কাটা জিপফ বিতরণের সাথে আমি কীভাবে পরামিতিগুলি অনুমান করতে পারি?


স্পষ্ট করে বলতে গেলে, আপনি ঠিক কী কাটাচ্ছেন? জিপফের মূল্যবোধের বন্টন নাকি নিজেই? আপনি কি কাটা পয়েন্ট জানেন? কাটাটি কি ডেটাটির একটি আর্টিক্ট বা ডেটা প্রসেসিংয়ের একটি শৈল্পিক (যেমন, আপনি বা পরীক্ষকরা কিছু সিদ্ধান্ত নিয়েছেন)? অতিরিক্ত কোনও বিবরণ সহায়ক হবে।
কার্ডিনাল

@মৌলিক. (অংশ 1/2) ধন্যবাদ কার্ডিনাল। আমি আরও বিশদ দেব: আমার কাছে একটি ভিওআইপি জেনারেটর রয়েছে যা কলকারী প্রতি ভলিউমের জন্য জিপফ (এবং অন্যান্য বিতরণ) অনুসরণ করে কল উত্পন্ন করে। আমাকে যাচাই করতে হবে যে এই জেনারেটরটি সত্যই এই বিতরণগুলি অনুসরণ করে। জিপফ বিতরণের জন্য আমাকে ট্র্যাঙ্কেশন পয়েন্টটি সংজ্ঞায়িত করতে হবে (সুতরাং এটি পরিচিত এবং এটি মানগুলির বন্টনকে বোঝায়) যা ব্যবহারকারী এবং স্কেল পরামিতি দ্বারা সর্বাধিক সংখ্যক উত্পন্ন কল। বিশেষত আমার ক্ষেত্রে এই মানটি 500 এর সমান, এটি ইঙ্গিত দেয় যে একজন ব্যবহারকারী সর্বাধিক 500 কল উত্পন্ন করতে পারে।
মৌরিজিও

(অংশ ২/২) সেট করার জন্য অন্য প্যারামিটারটি হ'ল জিপফের জন্য স্কেল প্যারামিটার যা বিতরণের বিস্তারকে সংজ্ঞায়িত করে (আমার ক্ষেত্রে এই মানটি 0.9)। আমার কাছে সমস্ত পরামিতি রয়েছে (নমুনার আকার, ব্যবহারকারী প্রতি ফ্রিকোয়েন্সি ইত্যাদি) তবে আমাকে যাচাই করতে হবে যে আমার ডেটাसेट জিপফ বিতরণ অনুসরণ করে follows
মৌরিজিও

তাই আপনি দৃশ্যত দ্বারা বন্টন renormalizing করছি , জন্য যেহেতু, আমি কি মনে হবে একটি "ছেঁটে ফেলা Zipf" হিসাবে, 0.9 একটি স্কেলিং প্যারামিটার অসম্ভব। আপনি যদি এই প্রচুর ডেটা তৈরি করতে পারেন এবং আপনার "কেবল" 500 টি সম্ভাব্য ফলাফল রয়েছে তবে কেবল চ-বর্গক্ষেত্রের-সদ্ব্যবহারযোগ্য পরীক্ষা কেন ব্যবহার করবেন না? যেহেতু আপনার বিতরণটির একটি দীর্ঘ-লেজ রয়েছে, আপনার জন্য বেশ বড় আকারের নমুনার আকারের প্রয়োজন হতে পারে। তবে, এটি একটি উপায় হবে। আর একটি দ্রুত এবং নোংরা পদ্ধতিটি হ'ল কলগুলির সংখ্যার ছোট মানগুলির জন্য আপনি সঠিক অভিজ্ঞতা বন্টন পান কিনা তা পরীক্ষা করা । Σআমি=1500আমি-0.9
কার্ডিনাল

উত্তর:


14

আপডেট : 7 এপ্রিল 2011 এই উত্তরটি বেশ দীর্ঘ হচ্ছে এবং এতে সমস্যার একাধিক দিক রয়েছে। তবে, আমি এ পর্যন্ত পৃথক উত্তরে এটি ভেঙে প্রতিরোধ করেছি।

আমি এই নীচে পিয়ারসনের এর পারফরম্যান্সের একদম নীচে আলোচনা যুক্ত করেছি ।χ2


ব্রুস এম হিল লিখেছেন, সম্ভবত, জিপফের মতো প্রসঙ্গে অনুমানের উপর "সেমিনাল" কাগজটি। তিনি ১৯ 1970০ এর দশকের মাঝামাঝি বিষয়টিতে বেশ কয়েকটি গবেষণাপত্র লিখেছিলেন। যাইহোক, "হিল অনুমানকারী" (এটি এখন বলা হয়) মূলত নমুনার সর্বাধিক আদেশের পরিসংখ্যানের উপর নির্ভর করে এবং তাই, বর্তমান কাটানোর ধরণের উপর নির্ভর করে এটি আপনাকে কোনও সমস্যায় ফেলতে পারে।

মূল কাগজটি হ'ল:

বিএম হিল, একটি বিতরণের লেজ সম্পর্কে অনুমানের জন্য একটি সাধারণ সাধারণ পদ্ধতি , আন। তাত্ক্ষণিকবাজার। , 1975।

যদি আপনার ডেটা সত্যই প্রাথমিকভাবে জিপফ হয় এবং তারপরে এটি কেটে ফেলা হয় তবে ডিগ্রি বিতরণ এবং জিপফ প্লটের মধ্যে একটি দুর্দান্ত চিঠিপত্র আপনার সুবিধার জন্য ব্যবহার করা যেতে পারে।

বিশেষত, ডিগ্রি বিতরণটি কেবল প্রতিটি পূর্ণসংখ্যার প্রতিক্রিয়া দেখা যায় এমন সংখ্যার অনুপ্রেরণামূলক বিতরণ,

আমি=#{:এক্স=আমি}এন

আমরা যদি বিরুদ্ধে এই প্লটে বিভক্ত একটি লগ-লগ চক্রান্ত উপর, আমরা একটি ঢাল স্কেলিং সহগ সংশ্লিষ্ট সঙ্গে একটি রৈখিক ট্রেন্ড পাবেন।আমি

অন্যদিকে, আমরা যদি জিপফ প্লট প্লট করি , যেখানে আমরা নমুনাকে বৃহত্তম থেকে ক্ষুদ্রতম পর্যন্ত সাজান এবং তারপরে মানগুলি তাদের র‌্যাঙ্কের বিপরীতে প্লট করি তবে আমরা আলাদা opeালু সহ একটি ভিন্ন লিনিয়ার প্রবণতা পাই । তবে opালগুলি সম্পর্কিত।

তাহলে Zipf বিতরণের জন্য স্কেলিং-ল সহগ হয়, তাহলে প্রথম কাহিনিসূত্রেও ঢাল হল - α এবং দ্বিতীয় কাহিনিসূত্রেও ঢাল হল - 1 / ( α - 1 ) । নীচে জন্য একটি উদাহরণ চক্রান্ত α = 2 এবং = 10 6 । বাম-হাতের ফলকটি ডিগ্রি বিতরণ এবং লাল রেখার opeাল - 2 । ডান দিকের দিকটি হ'ল জিপফ প্লট, সুপারিম্পোজড লাল রেখার সাথে - 1 / ( 2 - 1 ) = -α-α-1/(α-1)α=2এন=106-2-1/(2-1)=-1

জিপফ বিতরণ থেকে আইডির নমুনার জন্য ডিগ্রি বিতরণ (বাম) এবং জিপফ (ডান) প্লট।

সুতরাং, যদি আপনার তথ্য এত ছেঁটে ফেলা হয়েছে আপনি কোন মান কিছু থ্রেশহোল্ড চেয়ে বড় দেখতে , কিন্তু ডেটা অন্যথায় Zipf-বিতরণ করা হয় এবং τ যুক্তিসঙ্গতভাবে বড়, তারপর আপনি অনুমান করতে পারেন α থেকে ডিগ্রী বন্টন । খুব সহজ পদ্ধতির মধ্যে রয়েছে লগ-লগ প্লটের একটি লাইনের সাথে ফিট করে এবং সংশ্লিষ্ট সহগ ব্যবহার করা।ττα

যদি আপনার ডেটা কেটে ফেলা হয় যাতে আপনি ছোট মান দেখতে না পান (যেমন, বৃহত্তর ওয়েব ডেটা সেটগুলির জন্য যেভাবে ফিল্টারিং করা হয়) তবে আপনি লগ-লগ স্কেলে ঝালটি অনুমান করতে জিপফ প্লট ব্যবহার করতে পারেন এবং তারপরে " ব্যাক আউট "স্কেলিং ব্যয়কারী। বলুন Zipf চক্রান্ত থেকে ঢাল আপনার অনুমান β । তারপর, স্কেলিং-ল সহগ এক সহজ অনুমান α = 1 - 1β^

α^=1-1β^

এই বিষয়টি সম্পর্কে মিশিগানে মার্ক নিউম্যান সহ-রচয়িতা @ সিএসগিলিসপি একটি সাম্প্রতিক একটি কাগজ দিয়েছেন। তিনি এই সম্পর্কে অনেক অনুরূপ নিবন্ধ প্রকাশিত বলে মনে হচ্ছে। নীচে আরও কয়েকটি দম্পতি উল্লেখ করা যেতে পারে যা আগ্রহী হতে পারে। নিউম্যান কখনও কখনও পরিসংখ্যানগত দিক থেকে সর্বাধিক বুদ্ধিমান কাজ করেন না, তাই সাবধান হন।

এমইজে নিউম্যান, পাওয়ার আইন, পেরেটো বিতরণ এবং জিপফের আইন , সমসাময়িক পদার্থবিজ্ঞান 46, 2005, পৃষ্ঠা 323-351 -3

মিঃ মিজেনম্যাচার, পাওয়ার আইন এবং লগনরমাল ডিস্ট্রিবিউশনস , ইন্টারনেট গণিতের জন্য জেনেরেটরি মডেলের সংক্ষিপ্ত ইতিহাস , খণ্ড। 1, না। 2, 2003, পৃষ্ঠা 226-251।

কে নাইট, দৃ rob়তা এবং পক্ষপাত হ্রাস অ্যাপ্লিকেশন সহ হিল অনুমানকারী একটি সাধারণ পরিবর্তন , ২০১০।


সংযোজন :

আর105

> x <- (1:500)^(-0.9)
> p <- x / sum(x)
> y <- sample(length(p), size=100000, repl=TRUE, prob=p)
> tab <- table(y)
> plot( 1:500, tab/sum(tab), log="xy", pch=20, 
        main="'Truncated' Zipf simulation (truncated at i=500)",
        xlab="Response", ylab="Probability" )
> lines(p, col="red", lwd=2)

ফলস্বরূপ প্লট হয়

"কাটা" জিপফ প্লট (i = 500 এ কেটে গেছে)

আমি30

তবুও, ব্যবহারিক দৃষ্টিকোণ থেকে, এই জাতীয় প্লট তুলনামূলকভাবে বাধ্যতামূলক হওয়া উচিত।


α=2এন=300000এক্সমিএকটিএক্স=500

χ2

X2=i=1500(OiEi)2Ei
OiiEi=npi=niα/j=1500jα

মরিজিওর স্প্রেডশীটে দেখানো হিসাবে আমরা 40 মাপের আকারের বিংশগুলিতে প্রথম গণনাগুলি তৈরি করে তৈরি করা একটি দ্বিতীয় পরিসংখ্যানও গণনা করব (শেষ বিনটিতে কেবল বিশটি পৃথক ফলাফলের মান রয়েছে)।

এনপি

পি

এখানে চিত্র বর্ণনা লিখুন

আর

# Chi-square testing of the truncated Zipf.

a <- 2
n <- 300000
xmax <- 500

nreps <- 5000

zipf.chisq.test <- function(n, a=0.9, xmax=500, bin.size = 40)
{
  # Make the probability vector
  x <- (1:xmax)^(-a)
  p <- x / sum(x)

  # Do the sampling
  y <- sample(length(p), size=n, repl=TRUE, prob=p)

  # Use tabulate, NOT table!
  tab <- tabulate(y,xmax)

  # unbinned chi-square stat and p-value
  discrepancy <- (tab-n*p)^2/(n*p)
  chi.stat <- sum(discrepancy)
  p.val    <- pchisq(chi.stat, df=xmax-1, lower.tail = FALSE)

  # binned chi-square stat and p-value
  bins <- seq(bin.size,xmax,by=bin.size)
  if( bins[length(bins)] != xmax )
    bins <- c(bins, xmax)

  tab.bin  <- cumsum(tab)[bins]
  tab.bin <- c(tab.bin[1], diff(tab.bin))

  prob.bin <- cumsum(p)[bins] 
  prob.bin <- c(prob.bin[1], diff(prob.bin))

  disc.bin <- (tab.bin - n*prob.bin)^2/(n * prob.bin)
  chi.stat.bin <- sum(disc.bin)
  p.val.bin <- pchisq(chi.stat.bin, df=length(tab.bin)-1, lower.tail = FALSE)

  # Return the binned and unbineed p-values
  c(p.val, p.val.bin, chi.stat, chi.stat.bin)
}

set.seed( .Random.seed[2] )

all <- replicate(nreps, zipf.chisq.test(n, a, xmax))

par(mfrow=c(2,1))
hist( all[1,], breaks=20, col="darkgrey", border="white",
      main="Histogram of unbinned chi-square p-values", xlab="p-value")
hist( all[2,], breaks=20, col="darkgrey", border="white",
      main="Histogram of binned chi-square p-values", xlab="p-value" )

type.one.error <- rowMeans( all[1:2,] < 0.05 )

+1, যথারীতি দুর্দান্ত উত্তর। আপনার নিজেকে একজন মডারেটর হিসাবে মনোনীত করা উচিত, এখনও 1 ঘন্টা বাকি আছে :)
এমপিটকাস

@ এমপিক্টাস, প্রশংসা ও উত্সাহের জন্য ধন্যবাদ। আমি নিশ্চিত নই যে আমি ইতিমধ্যে অত্যন্ত দৃ strong় স্লেট প্রার্থীদের সাথে নিজেকে মনোনয়নের ন্যায্যতা প্রমাণ করতে পেরেছি, যারা সমানভাবে, আমার চেয়ে বেশি বিস্তৃতভাবে এবং বেশি দিন অংশ নিয়েছিল।
কার্ডিনাল

@ কার্ডিনাল, এখানে হিলের অনুমানের বিকল্পের কয়েকটি লিঙ্ক রয়েছে: পলাউসকাসের মূল নিবন্ধ এবং ভ্যাসিউলিস এবং গাদেইকিস এবং পলাউস্কাসের ফলো-আপগুলি । এই অনুমানকটির মনে হয় মূল হিলের চেয়ে ভাল বৈশিষ্ট্য রয়েছে।
এমপিটিকাস

@ এমপিক্টাস, লিঙ্কগুলির জন্য ধন্যবাদ। হিলের অনুমানকারীটির বেশ কয়েকটি "নতুন এবং উন্নত" সংস্করণ রয়েছে। মূল পদ্ধতির প্রধান ত্রুটি এটি হল যে যেখানে গড় বন্ধ করতে হবে সেখানে "কাট অফ" এর একটি পছন্দ প্রয়োজন। আমি মনে করি এটি বেশিরভাগ ক্ষেত্রে "আইফলিং" দ্বারা সম্পন্ন হয়েছে যা এটি সাবজেক্টিভিটির অভিযোগের জন্য উন্মুক্ত করে। দীর্ঘ-লেজযুক্ত বিতরণগুলিতে রেজনিকের একটি বই এ সম্পর্কে কিছুটা বিশদ আলোচনা করেছে, যদি আমি মনে করি। আমি মনে করি এটি তার আরও সাম্প্রতিক।
কার্ডিনাল

@ কার্ডিনাল, আপনাকে অনেক ধন্যবাদ, আপনি খুব দয়ালু এবং খুব বিস্তারিত! আর-তে আপনার উদাহরণটি আমার পক্ষে খুব কার্যকর ছিল, তবে আমি কীভাবে এই ক্ষেত্রে একটি চি চি-স্কোয়ার পরীক্ষা করতে পারি? (আমি ইউনিফর্ম, ক্ষতিকারক, সাধারণ হিসাবে অন্যান্য বিতরণগুলির সাথে চি-স্কোয়ার পরীক্ষাটি ব্যবহার করেছি তবে জিপফ সম্পর্কে আমার অনেক সন্দেহ আছে ... দুঃখিত তবে এই বিষয়গুলিতে এটি আমার প্রথম পদ্ধতির)। মোডিটেটরদের কাছে প্রশ্ন: আমাকে কি "ছাঁটা জিপফ বিতরণের জন্য চি-স্কোয়ার পরীক্ষা কীভাবে সম্পাদন করতে হবে" এর মতো আরও একটি প্রশ্নোত্তর লিখতে হবে? অথবা এই প্রশ্নোত্তরে অবিরত থাকতে পারে ট্যাগ এবং শিরোনাম আপডেট করা?
মৌরিজিও

5

কাগজটি

ক্লাউসেট, এট আল , এম্পিরিকাল ডেটাতে পাওয়ার-আইন বিতরণ । 2009

ফিটিং পাওয়ার আইন মডেলগুলির সম্পর্কে কীভাবে যেতে হবে তার একটি খুব ভাল বর্ণনা রয়েছে। সম্পর্কিত ওয়েব পৃষ্ঠায় কোড নমুনা রয়েছে। দুর্ভাগ্যক্রমে, এটি কাটা বিতরণের জন্য কোড দেয় না, তবে এটি আপনাকে পয়েন্টার দিতে পারে।


একদিকে যেমন, কাগজটি এই বিষয় নিয়ে আলোচনা করে যে অনেকগুলি "পাওয়ার-ল ডেটাসেট" সমানভাবে মডেল করা যায় (এবং কিছু ক্ষেত্রে আরও ভাল) লগের সাথে সাধারণ বা তাত্ক্ষণিক বিতরণ!


দুর্ভাগ্যক্রমে এই কাগজটি কেটে যাওয়া বিতরণ সম্পর্কে কিছুই বলে না..আমি আর-তে এমন কিছু প্যাকেজ পেয়েছি যা জিপফ অনুমানের পরামিতিটি একটি সহজ উপায়ে (জিপএফআর, ভিজিএএম) নিয়ে কাজ করে তবে সংক্ষিপ্ত বিতরণটির "বিশেষ চিকিত্সা" দরকার need আপনার শেষ বাক্যটির অর্থ কি আপনি বোঝাতে চেয়েছিলেন যে কোনও ক্ষতিকারক বিতরণ দিয়ে একটি পাওয়ার-ল ডেটাসেটের মডেল করা এবং তারপরে "কাটা" এক্সফোনেনশিয়াল বিতরণের জন্য কিছু অনুমানের পরামিতি প্রক্রিয়া প্রয়োগ করা সম্ভব? আমি এই বিষয়ে খুব নবাগত!
মৌরিজিও

কাগজে, লেখকরা বিভিন্ন ডেটা সেটগুলির পুনরায় বিশ্লেষণ করেন যেখানে একটি পাওয়ার-আইন লাগানো হয়েছে। লেখকরা উল্লেখ করেছেন যে বেশ কয়েকটি ক্ষেত্রে পাওয়ার-আইন মডেলটি দুর্দান্ত নয় এবং বিকল্প বিতরণ আরও ভাল হবে।
csgillespie

2

ব্যবহারকারীর কার্ডিনাল সম্পর্কিত বিশদ উত্তর অনুসরণ করে আমি আমার অনুমানযোগ্য ছাঁটাইয়া জিপএফ বিতরণে চি-স্কোয়ার পরীক্ষা করেছি। চি-বর্গ পরীক্ষার ফলাফল নিম্নলিখিত টেবিলে জানানো হয়েছে:

এখানে চিত্র বর্ণনা লিখুন

যেখানে স্টার্টইনটারওয়াল এবং এন্ডআইন্টারওয়াল উদাহরণস্বরূপ কলগুলির পরিসীমা এবং পর্যবেক্ষণ করা হচ্ছে 0 থেকে 19 টি কল এবং তারপরে কল করার সংখ্যা রয়েছে এবং শেষ কলামগুলি না পৌঁছানো পর্যন্ত চি-বর্গ পরীক্ষা ভাল হয়, তারা ফাইনালটি বাড়িয়ে তোলে গণনা, অন্যথায় এই বিন্দু অবধি "আংশিক" চি-বর্গ মানটি গ্রহণযোগ্য ছিল!

অন্যান্য পরীক্ষার সাথে ফলাফলটি একই হয়, সর্বশেষ কলাম (বা শেষ 2 কলাম) সর্বদা চূড়ান্ত মান বাড়িয়ে দেয় এবং আমি কেন জানি না এবং কেন (এবং কীভাবে) অন্য বৈধতা পরীক্ষা ব্যবহার করে তা আমি জানি না।

পিএস: সম্পূর্ণতার জন্য, প্রত্যাশিত মানগুলি গণনা করতে ( প্রত্যাশিত ) আমি কার্ডিনালের পরামর্শটি এভাবে অনুসরণ করি:

এখানে চিত্র বর্ণনা লিখুন

যেখানে এক্স_আই এর গণনা করার জন্য ব্যবহৃত হয় :, গণনা করার x <- (1:n)^-Sজন্য পি_আই এর p <- x / sum(x)এবং অবশেষে E_i (কলগুলির প্রতিটি এনআর জন্য ব্যবহারকারীদের প্রত্যাশিত এনআর) প্রাপ্ত হয়P_i * Total_Caller_Observed

এবং স্বাধীনতার ডিগ্রির সাথে = 13 চি-স্কয়ারের সদ্ব্যবহার সর্বদা হাইপোটিসিসকে প্রত্যাখ্যান করে যে নমুনা সেটটি জিপফ বিতরণ অনুসরণ করে কারণ টেস্ট স্ট্যাটিস্টিকস (এই ক্ষেত্রে 64৪,১৪) চি-স্কোয়ার টেবিলগুলিতে প্রকাশিত রিপোর্টের চেয়ে বড়, "ডিমেট" শেষ কলামের জন্য। গ্রাফিকাল ফলাফল এখানে রিপোর্ট করা হয়: এখানে চিত্র বর্ণনা লিখুন

যদিও কাটা পয়েন্টটি 500 এ সর্বাধিক মান প্রাপ্তি 294 হিসাবে সেট করা হয়েছে I আমি মনে করি চ-বর্গ পরীক্ষার ব্যর্থতার কারণ চূড়ান্ত "বিচ্ছুরণ"।

হালনাগাদ!!

আমি উপরের উত্তরে রিপোর্ট করা আর কোডের সাথে উত্পন্ন প্রিপোজযোগ্য জিপফ ডেটা নমুনায় চি-স্কোয়ার পরীক্ষা করার চেষ্টা করি।

> x <- (1:500)^(-2)
> p <- x / sum(x)
> y <- sample(length(p), size=300000, repl=TRUE, prob=p)
> tab <- table(y)
> length(tab)
[1] 438
> plot( 1:438, tab/sum(tab), log="xy", pch=20, 
        main="'Truncated' Zipf simulation (truncated at i=500)",
        xlab="Response", ylab="Probability" )
> lines(p, col="red", lwd=2)

সম্পর্কিত প্লটটি নিম্নলিখিত: এখানে চিত্র বর্ণনা লিখুন

চি-বর্গ পরীক্ষার ফলাফল নিম্নলিখিত চিত্রে রিপোর্ট করা হয়েছে: এখানে চিত্র বর্ণনা লিখুন

এবং চ-বর্গ পরীক্ষার পরিসংখ্যান (44,57) স্বাধীনতার নির্বাচিত ডিগ্রির সাথে বৈধতার জন্য খুব বেশি। এছাড়াও এই ক্ষেত্রে ডেটার চূড়ান্ত "বিচ্ছুরণ" হ'ল চি-স্কোয়ার মানের কারণ। তবে এই জিপফ বিতরণকে বৈধ করার জন্য একটি পদ্ধতি রয়েছে (আমার "ভুল" জেনারেটর নির্বিশেষে, আমি আর ডেটা নমুনায় ফোকাস করতে চাই) ???


@ মৌরিজিও, কোনও কারণে আমি এই পোস্টটি এখনও মিস করেছি। আপনি কি এটিকে সম্পাদনা করতে পারেন এবং আমার পোস্টে সর্বশেষের মতো একটি প্লট যুক্ত করতে পারেন, তবে আপনার পর্যবেক্ষণের ডেটা ব্যবহার করছেন? এটি সমস্যার নির্ণয়ে সহায়তা করতে পারে। আমার মনে হয় আমি আপনার অন্য একটি প্রশ্ন দেখেছি যেখানে আপনাকে অভিন্ন বিতরণ তৈরি করতে সমস্যা হচ্ছে, তাই সম্ভবত এটি এই বিশ্লেষণগুলিতেও বয়ে চলেছে। (?) শ্রদ্ধা
কার্ডিনাল

@ কার্ডিনাল, আমি ফলাফল আপডেট করেছি! আপনি কি মনে করেন? ইউনিফর্ম বিতরণ সম্পর্কে প্রশ্নটি আরও একটি বিষয় যা আমাকে আরও ভাল উপায়ে নির্দিষ্ট করতে হবে এবং আমি আজ বা কাল তা করবো;)
মৌরিজিও

এস=0.9

পি=পি(এক্সআমি=500)4.05×10-4এন=845484544.0510-43.431-(1-0.000405)84540,9675। উপরের সিমুলেশনের সাথে কতটা ঘনিষ্ঠভাবে মেলে তা লক্ষ করুন।
কার্ডিনাল

@ কার্ডিনাল, আমি আরও মনে করি যে প্রজন্মের পদ্ধতিতে কিছু "ভুল" রয়েছে (আমার লক্ষ্যটি যাচাই করা এই জেনারেটরটি সত্যিই জিপএফ বিতরণ অনুসরণ করে)। এই দিনগুলিতে আমাকে প্রকল্পের ডিজাইনারদের সাথে কথা বলতে হবে।
মৌরিজিও
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.