পান্ডা / স্ট্যাটাসমডেল / সাইকিট-শিখুন


41
  1. পান্ডস, স্ট্যাটাসমডেলস এবং সাইকিট-কি মেশিন লার্নিং / স্ট্যাটিস্টিকাল অপারেশনের বিভিন্ন বাস্তবায়ন শিখছেন, বা এগুলি একে অপরের পরিপূরক?

  2. এর মধ্যে কোনটির সর্বাধিক কার্যকর কার্যকারিতা রয়েছে?

  3. কোনটি সক্রিয়ভাবে বিকশিত এবং / বা সমর্থিত?

  4. আমাকে লজিস্টিক রিগ্রেশন প্রয়োগ করতে হবে। এর মধ্যে কোনটি আমার ব্যবহার করা উচিত?

উত্তর:


33
  1. তালিকাভুক্ত তিনটির মধ্যে মেশিন লার্নিংয়ের জন্য সাইকিট-লার্ন (স্কলারন) সেরা পছন্দ। পান্ডা এবং স্ট্যাটাসমডেলগুলিতে কিছু ভবিষ্যদ্বাণীপূর্ণ শেখার অ্যালগরিদম থাকে তবে এগুলি লুকানো / এখনও উত্পাদনের জন্য প্রস্তুত নয়। প্রায়শই, লেখকরা বিভিন্ন প্রকল্পে কাজ করবেন বলে গ্রন্থাগারগুলি প্রশংসামূলক। উদাহরণস্বরূপ, সম্প্রতি পান্ডাসের ডেটাফ্রেমগুলি স্ট্যাটাসমডেলগুলিতে একীভূত হয়েছিল। স্কলারন এবং পান্ডাদের মধ্যে একটি সম্পর্ক বিদ্যমান নেই (এখনও)।

  2. কার্যকারিতা সংজ্ঞায়িত করুন। তারা সবাই দৌড়ায়। আপনি যদি বোঝাতে চান যে সবচেয়ে বেশি দরকারী তবে তা আপনার আবেদনের উপর নির্ভর করে। আমি পান্ডাসকে এখানে অবশ্যই একটি +1 দেব, কারণ এটি পাইথনের (ডেটাফ্রেমেস) একটি দুর্দান্ত নতুন ডেটা কাঠামো যুক্ত করেছে। পান্ডাদেরও সম্ভবত সেরা এপিআই রয়েছে।

  3. এগুলি সবাই সক্রিয়ভাবে সমর্থিত, যদিও আমি বলব পান্ডসের সেরা কোড বেস রয়েছে। স্ক্লার্ন এবং পান্ডা স্ট্যাটাসমডেলসের চেয়ে বেশি সক্রিয়।

  4. স্পষ্ট পছন্দ স্ক্লার্নান arn এটি কীভাবে সম্পাদন করা যায় তা সহজ এবং স্পষ্ট।

    from sklearn.linear_models import LogisticRegression as LR
    logr = LR()
    logr.fit( X, Y )
    results = logr.predict( test_data)

5
নীচের দীর্ঘ বিবরণ পড়তে ভুলবেন না!
ডার্টডোগ

4
এই উত্তরটি ব্যাখ্যা করতে উপেক্ষা করেছে যে পান্ডগুলি মূলত ডেটা ম্যানিপুলেশনের জন্য (যেমন সূচীকরণ, নির্বাচন করা, সমষ্টিকরণ), অন্য বাকী দুটি হ'ল বিল্ডিং মডেলগুলির জন্য (যেমন পূর্বাভাস বা অনুমানের জন্য)।
নাথান গোল্ড

আমি এক বছরের বেশি সময় ধরে স্ক্লারইন ব্যবহার করে আসছি এবং দুর্দান্ত হয়েছে, এখন এই প্রকল্পটি বড় হয়েছে আমি পান্ডাসকে চমৎকার ডেটা স্ট্রাকচার ব্যবহার করার প্রয়োজন অনুভব করছি, তাই আমি মনে করি তারা দীর্ঘমেয়াদে পরিপূরক।
ছদ্মবেশী

সম্ভবত এই সম্প্রতি পরিবর্তিত কিন্তু ইম্পোর্ট বিবৃতিটি, এটা হওয়া উচিত linear_model(একবচন) এবং linear_models
বিশাল

75

আমি যোগ্যতা অর্জন করতে এবং কিছুটা স্বীকৃত উত্তরটি পরিষ্কার করতে চাই।

তিনটি প্যাকেজ একে অপরের পরিপূরক, যেহেতু তারা বিভিন্ন অঞ্চল coverেকে রাখে, বিভিন্ন মূল উদ্দেশ্য থাকে বা মেশিন লার্নিং / পরিসংখ্যানের বিভিন্ন ক্ষেত্রে জোর দেয়।

  • পান্ডাস হ'ল প্রধানত ডেটা পরিচালনা ও পরিচালনা করার জন্য একটি প্যাকেজ।
  • বিজ্ঞান-শিখুন প্রায়শই বড় এবং বিচ্ছুরিত ডেটার সাথে ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের উপর জোর দিয়ে মেশিন লার্নিং করছে
  • প্যারামিটার অনুমান এবং (পরিসংখ্যান) পরীক্ষার উপর জোর জোর দিয়ে স্ট্যাটাসমডেলগুলি "traditionalতিহ্যবাহী" পরিসংখ্যান এবং একনোমেট্রিক্স করছে।

statsmodels একটি নির্ভরতা হিসাবে পান্ডা আছে, পান্ডা কিছু পরিসংখ্যানের জন্য স্ট্যাটাসমডেলগুলি বিকল্পভাবে ব্যবহার করে। স্ট্যাটাসমডেলগুলি patsyমডেলগুলিকে আর হিসাবে একটি অনুরূপ সূত্র ইন্টারফেস সরবরাহ করতে ব্যবহার করছে।

স্কাইকিট-লার্ন এবং স্ট্যাটাসমডেলগুলির মধ্যে মডেলগুলির মধ্যে কিছু ওভারল্যাপ রয়েছে তবে বিভিন্ন লক্ষ্য সহ। উদাহরণস্বরূপ দেখুন দুটি সংস্কৃতি: পরিসংখ্যান বনাম মেশিন লার্নিং?

স্ট্যাটাসমডেল সম্পর্কে আরও কিছু

স্ট্যাটাস মডেলগুলির সর্বনিম্ন বিকাশ কার্যকলাপ এবং তিনটির মধ্যে দীর্ঘতম প্রকাশের চক্র রয়েছে cycle স্ট্যাটাস মডেলগুলির অনেক অবদানকারী রয়েছে তবে দুর্ভাগ্যক্রমে এখনও কেবলমাত্র দুটি "রক্ষণাবেক্ষণকারী" (আমি তাদের মধ্যে একজন।)

স্ট্যাটাসমডেলের মূলটি হল "উত্পাদন প্রস্তুত": লিনিয়ার মডেল, শক্তিশালী রৈখিক মডেল, সাধারণ রৈখিক মডেল এবং পৃথক মডেলগুলি বেশ কয়েক বছর ধরে রয়েছে এবং স্টাটা এবং আর এর বিপরীতে যাচাই করা হয় st ভিএআর (ভেক্টর অটোরেগ্রেসিভ) রিগ্রেশন, যা অন্য কোনও পাইথন প্যাকেজে পাওয়া যায় না।

স্কাইকিট-লারিতে মেশিন লার্নিং পদ্ধতির এবং স্ট্যাটাস মডেলগুলিতে পরিসংখ্যান এবং একনোমেট্রিক্স পদ্ধতির মধ্যে কিছু নির্দিষ্ট পার্থক্য দেখানোর জন্য কয়েকটি উদাহরণ:

সাধারণ লিনিয়ার রিগ্রেশন, -র প্যারামিটার, বহির্মুখী ব্যবস্থাগুলি এবং স্পেসিফিকেশন পরীক্ষার পরীক্ষাগুলি সহ OLSপ্রচুর পরিমাণে প্রাক-অনুমানের বিশ্লেষণ http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.linear_model.OLSResults.html রয়েছে : /statsmodels.sourceforge.net/devel/stats.html#residual-diagnostics-and-specification-tests

লজিস্টিক রিগ্রেশনটি স্ট্যাটাস Logitমডেলগুলিতে হয় বিযুক্তের মডেল হিসাবে অথবা সাধারণ রৈখিক মডেল হিসাবে পরিবার হিসাবে ( GLM) as http://statsmodels.sourceforge.net/devel/glm.html#module-reference

GLMস্বাভাবিক পরিবারের অন্তর্ভুক্ত, বিযুক্ত মডেলের ব্যতীত রয়েছে Logitএছাড়াও Probit, MULTINOMIAL এবং রিগ্রেশন গণনা।

Logit

ব্যবহার Logitকরা যেমন এই http://statsmodels.sourceforge.net/devel/example/generated/example_discrete.html হিসাবে সহজ

>>> import statsmodels.api as sm
>>> x = sm.add_constant(data.exog, prepend=False)
>>> y = data.endog

>>> res1 = sm.Logit(y, x).fit()
Optimization terminated successfully.
         Current function value: 0.402801
         Iterations 7
>>> print res1.summary()
                           Logit Regression Results                           
==============================================================================
Dep. Variable:                      y   No. Observations:                   32
Model:                          Logit   Df Residuals:                       28
Method:                           MLE   Df Model:                            3
Date:                Sat, 26 Jan 2013   Pseudo R-squ.:                  0.3740
Time:                        07:34:59   Log-Likelihood:                -12.890
converged:                       True   LL-Null:                       -20.592
                                        LLR p-value:                  0.001502
==============================================================================
                 coef    std err          z      P>|z|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
x1             2.8261      1.263      2.238      0.025         0.351     5.301
x2             0.0952      0.142      0.672      0.501        -0.182     0.373
x3             2.3787      1.065      2.234      0.025         0.292     4.465
const        -13.0213      4.931     -2.641      0.008       -22.687    -3.356
==============================================================================
>>> dir(res1)
...
>>> res1.predict(x.mean(0))
0.25282026208742708
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.