আমি যোগ্যতা অর্জন করতে এবং কিছুটা স্বীকৃত উত্তরটি পরিষ্কার করতে চাই।
তিনটি প্যাকেজ একে অপরের পরিপূরক, যেহেতু তারা বিভিন্ন অঞ্চল coverেকে রাখে, বিভিন্ন মূল উদ্দেশ্য থাকে বা মেশিন লার্নিং / পরিসংখ্যানের বিভিন্ন ক্ষেত্রে জোর দেয়।
- পান্ডাস হ'ল প্রধানত ডেটা পরিচালনা ও পরিচালনা করার জন্য একটি প্যাকেজ।
- বিজ্ঞান-শিখুন প্রায়শই বড় এবং বিচ্ছুরিত ডেটার সাথে ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের উপর জোর দিয়ে মেশিন লার্নিং করছে
- প্যারামিটার অনুমান এবং (পরিসংখ্যান) পরীক্ষার উপর জোর জোর দিয়ে স্ট্যাটাসমডেলগুলি "traditionalতিহ্যবাহী" পরিসংখ্যান এবং একনোমেট্রিক্স করছে।
statsmodels একটি নির্ভরতা হিসাবে পান্ডা আছে, পান্ডা কিছু পরিসংখ্যানের জন্য স্ট্যাটাসমডেলগুলি বিকল্পভাবে ব্যবহার করে। স্ট্যাটাসমডেলগুলি patsy
মডেলগুলিকে আর হিসাবে একটি অনুরূপ সূত্র ইন্টারফেস সরবরাহ করতে ব্যবহার করছে।
স্কাইকিট-লার্ন এবং স্ট্যাটাসমডেলগুলির মধ্যে মডেলগুলির মধ্যে কিছু ওভারল্যাপ রয়েছে তবে বিভিন্ন লক্ষ্য সহ। উদাহরণস্বরূপ দেখুন দুটি সংস্কৃতি: পরিসংখ্যান বনাম মেশিন লার্নিং?
স্ট্যাটাসমডেল সম্পর্কে আরও কিছু
স্ট্যাটাস মডেলগুলির সর্বনিম্ন বিকাশ কার্যকলাপ এবং তিনটির মধ্যে দীর্ঘতম প্রকাশের চক্র রয়েছে cycle স্ট্যাটাস মডেলগুলির অনেক অবদানকারী রয়েছে তবে দুর্ভাগ্যক্রমে এখনও কেবলমাত্র দুটি "রক্ষণাবেক্ষণকারী" (আমি তাদের মধ্যে একজন।)
স্ট্যাটাসমডেলের মূলটি হল "উত্পাদন প্রস্তুত": লিনিয়ার মডেল, শক্তিশালী রৈখিক মডেল, সাধারণ রৈখিক মডেল এবং পৃথক মডেলগুলি বেশ কয়েক বছর ধরে রয়েছে এবং স্টাটা এবং আর এর বিপরীতে যাচাই করা হয় st ভিএআর (ভেক্টর অটোরেগ্রেসিভ) রিগ্রেশন, যা অন্য কোনও পাইথন প্যাকেজে পাওয়া যায় না।
স্কাইকিট-লারিতে মেশিন লার্নিং পদ্ধতির এবং স্ট্যাটাস মডেলগুলিতে পরিসংখ্যান এবং একনোমেট্রিক্স পদ্ধতির মধ্যে কিছু নির্দিষ্ট পার্থক্য দেখানোর জন্য কয়েকটি উদাহরণ:
সাধারণ লিনিয়ার রিগ্রেশন, -র প্যারামিটার, বহির্মুখী ব্যবস্থাগুলি এবং স্পেসিফিকেশন পরীক্ষার পরীক্ষাগুলি সহ OLS
প্রচুর পরিমাণে প্রাক-অনুমানের বিশ্লেষণ
http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.linear_model.OLSResults.html রয়েছে : /statsmodels.sourceforge.net/devel/stats.html#residual-diagnostics-and-specification-tests
লজিস্টিক রিগ্রেশনটি স্ট্যাটাস Logit
মডেলগুলিতে হয় বিযুক্তের মডেল হিসাবে অথবা সাধারণ রৈখিক মডেল হিসাবে পরিবার হিসাবে ( GLM
) as http://statsmodels.sourceforge.net/devel/glm.html#module-reference
GLM
স্বাভাবিক পরিবারের অন্তর্ভুক্ত, বিযুক্ত মডেলের ব্যতীত রয়েছে Logit
এছাড়াও Probit
, MULTINOMIAL এবং রিগ্রেশন গণনা।
Logit
ব্যবহার Logit
করা যেমন এই http://statsmodels.sourceforge.net/devel/example/generated/example_discrete.html হিসাবে সহজ
>>> import statsmodels.api as sm
>>> x = sm.add_constant(data.exog, prepend=False)
>>> y = data.endog
>>> res1 = sm.Logit(y, x).fit()
Optimization terminated successfully.
Current function value: 0.402801
Iterations 7
>>> print res1.summary()
Logit Regression Results
==============================================================================
Dep. Variable: y No. Observations: 32
Model: Logit Df Residuals: 28
Method: MLE Df Model: 3
Date: Sat, 26 Jan 2013 Pseudo R-squ.: 0.3740
Time: 07:34:59 Log-Likelihood: -12.890
converged: True LL-Null: -20.592
LLR p-value: 0.001502
==============================================================================
coef std err z P>|z| [95.0% Conf. Int.]
------------------------------------------------------------------------------
x1 2.8261 1.263 2.238 0.025 0.351 5.301
x2 0.0952 0.142 0.672 0.501 -0.182 0.373
x3 2.3787 1.065 2.234 0.025 0.292 4.465
const -13.0213 4.931 -2.641 0.008 -22.687 -3.356
==============================================================================
>>> dir(res1)
...
>>> res1.predict(x.mean(0))
0.25282026208742708