আমার কাছে একটি ডেটাসেট রয়েছে যা একটি ওয়েব আলোচনা ফোরামের পরিসংখ্যান। আমি কোনও বিষয়ের প্রত্যাশিত উত্তরগুলির সংখ্যার বিতরণটি দেখছি। বিশেষত, আমি একটি ডেটাसेट তৈরি করেছি যার সাথে শীর্ষস্থানীয় জবাব গণনাগুলির একটি তালিকা রয়েছে এবং তারপরে সেই সংখ্যার জবাব রয়েছে এমন বিষয়গুলির গণনা।
"num_replies","count"
0,627568
1,156371
2,151670
3,79094
4,59473
5,39895
6,30947
7,23329
8,18726
আমি যদি লগ-লগ প্লটে ডেটাসেটটি প্লট করি তবে মূলত একটি সরল রেখাটি আমি পাই:
(এটি জিপফিয়ান বিতরণ )। উইকিপিডিয়া আমাকে বলে যে লগ-লগ প্লটে সরল রেখা একটি ফাংশন যে ফর্ম একটি monomial দ্বারা অনুকরণে করা যেতে পারে পরোক্ষভাবে । এবং প্রকৃতপক্ষে আমি এই জাতীয় কোনও ক্রিয়াকলাপকে চোখের সামনে রেখেছি:
lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green")
আমার চোখের বলগুলি স্পষ্টতই আর আর এর মতো নির্ভুল নয় তবে আমি কীভাবে এই মডেলটির পরামিতিগুলিকে আরও সঠিকভাবে ফিট করতে পারি? আমি বহুবর্ষীয় রিগ্রেশন চেষ্টা করেছি, তবে আমি মনে করি না যে আর পরামিতি হিসাবে এক্সপেনশনটিকে ফিট করার চেষ্টা করে - আমি যে মডেলটি চাই তার সঠিক নাম কী?
সম্পাদনা করুন: প্রত্যেকের উত্তরের জন্য ধন্যবাদ। প্রস্তাবিত হিসাবে, আমি এখন এই রেসিপিটি ব্যবহার করে ইনপুট ডেটার লগগুলির বিরুদ্ধে লিনিয়ার মডেলটি ফিট করেছি:
data <- read.csv(file="result.txt")
# Avoid taking the log of zero:
data$num_replies = data$num_replies + 1
plot(data$num_replies, data$count, log="xy", cex=0.8)
# Fit just the first 100 points in the series:
model <- lm(log(data$count[1:100]) ~ log(data$num_replies[1:100]))
points(data$num_replies, round(exp(coef(model)[1] + coef(model)[2] * log(data$num_replies))),
col="red")
ফলাফলটি, লাল রঙের মধ্যে মডেলটি দেখিয়ে:
এটি আমার উদ্দেশ্যগুলির জন্য একটি ভাল অনুমানের মতো দেখায়।
আমি যদি তখন এই জিপফিয়ান মডেলটি (আলফা = 1.703164) বরাবর এলোমেলো সংখ্যা জেনারেটর সহ একই পরিমাণের সংখ্যা তৈরি করতে (1400930) মূল পরিমাপক ডেটাসেট ধারণ করে ( এই সি কোডটি ব্যবহার করে ওয়েবে পেয়েছি ), ফলাফলটি দেখায় মত:
পরিমাপ করা পয়েন্টগুলি কালো রঙের হয়, মডেল অনুসারে এলোমেলোভাবে উত্পন্ন পয়েন্টগুলি লাল।
আমি মনে করি এটি দেখায় যে এগুলি 1400930 পয়েন্ট এলোমেলোভাবে তৈরি করে তৈরি করা সহজ প্রকরণটি মূল গ্রাফের আকারের জন্য একটি ভাল ব্যাখ্যা।
আপনি যদি নিজেরাই কাঁচা ডেটা নিয়ে খেলতে আগ্রহী হন তবে আমি এটি এখানে পোস্ট করেছি ।