একটি পরিসংখ্যান ওয়ার্কবেঞ্চ হিসাবে পাইথন


355

প্রচুর লোকেরা তাদের পরিসংখ্যানের প্রয়োজনের জন্য এক্সেল বা অন্য স্প্রেডশিট, এসপিএসএস, স্টাটা বা আর এর মতো একটি প্রধান সরঞ্জাম ব্যবহার করে। তারা খুব বিশেষ প্রয়োজনের জন্য কিছু নির্দিষ্ট প্যাকেজের দিকে ফিরে যেতে পারে, তবে সাধারণ স্প্রেডশিট বা সাধারণ পরিসংখ্যান প্যাকেজ বা পরিসংখ্যান প্রোগ্রামিং পরিবেশের সাহায্যে অনেক কিছু করা যায়।

আমি সবসময় পাইথনকে একটি প্রোগ্রামিং ভাষা হিসাবে পছন্দ করেছি এবং সাধারণ প্রয়োজনের জন্য একটি ছোট প্রোগ্রাম লিখতে সহজ যা আমার যা প্রয়োজন তা গণনা করে। ম্যাটপ্ল্লিটিব আমাকে এটির প্লট করার অনুমতি দেয়।

আর কেউ কি পাইথন থেকে পুরোপুরি স্যুইচ করেছে? আর (বা অন্য কোনও পরিসংখ্যান প্যাকেজ) এর পরিসংখ্যানগুলির সাথে সম্পর্কিত অনেকগুলি কার্যকারিতা রয়েছে এবং এতে ডেটা স্ট্রাকচার রয়েছে যা আপনাকে যে পরিসংখ্যানগুলি সম্পাদন করতে চান সেগুলি সম্পর্কে চিন্তাভাবনা করার অনুমতি দেয় এবং আপনার ডেটার অভ্যন্তরীণ উপস্থাপনা সম্পর্কে কম। পাইথন (বা অন্য কোনও গতিশীল ভাষা) আমাকে একটি পরিচিত, উচ্চ-স্তরের ভাষায় প্রোগ্রাম করার অনুমতি দেওয়ার সুবিধা পেয়েছে এবং এটি আমাকে প্রোগ্রামিয়ালি বাস্তব-বিশ্বের সিস্টেমগুলির সাথে ইন্টারঅ্যাক্ট করতে দেয় যেখানে ডেটা থাকে বা আমি যেগুলি থেকে পরিমাপ করতে পারি। তবে আমি এমন কোনও পাইথন প্যাকেজ পাইনি যা আমাকে "পরিসংখ্যানগত পরিভাষা" দিয়ে প্রকাশ করতে দেয় - সহজ বর্ণনামূলক পরিসংখ্যান থেকে আরও জটিল বহুবিধ পদ্ধতিতে।

আমি আর, এসপিএস ইত্যাদি প্রতিস্থাপনের জন্য পাইথনটিকে "স্ট্যাটিস্টিকাস ওয়ার্কব্যাঞ্চ" হিসাবে ব্যবহার করতে চাইলে আপনি কী প্রস্তাব দিতে পারেন?

আপনার অভিজ্ঞতার ভিত্তিতে আমি কী অর্জন করব এবং হারাব?


5
এফওয়াইআই, একটি নতুন অজগর পরিসংখ্যান রয়েছে যা সাবরেডডিটটি
nnot101

কমান্ড লাইনে জিনিসগুলি যখন আপনার চারপাশে স্থানান্তরিত করার দরকার হয় তখন অজগর ( github.com/Russell91/pythonpy ) একটি দুর্দান্ত সরঞ্জাম।
রাসেল স্টাওয়ার্ট

উত্তর:


307

আর / সিআরএএন-তে উপলব্ধ পরিসংখ্যান প্যাকেজের সম্পদ উপেক্ষা করা শক্ত। এটি বলেছিল, আমি পাইথন জমিতে প্রচুর সময় ব্যয় করি এবং কখনই আমার মতো মজা করা থেকে কাউকে বিরত করব না। :) এখানে কিছু লাইব্রেরি / লিঙ্ক রয়েছে যা আপনি পরিসংখ্যানমূলক কাজের জন্য দরকারী মনে করতে পারেন।

  • নম্পপি / স্কিপি আপনি সম্ভবত এগুলি সম্পর্কে ইতিমধ্যে জানেন। তবে আমাকে কুকবুকের দিকে ইঙ্গিত করা যাক যেখানে আপনি ইতিমধ্যে উপলব্ধ অনেকগুলি পরিসংখ্যানগত সুবিধা এবং উদাহরণ তালিকা যা ফাংশনগুলির জন্য দুর্দান্ত রেফারেন্স (ডেটা ম্যানিপুলেশন এবং অন্যান্য ক্রিয়াকলাপ সহ) পড়তে পারেন । আরেকটি সহজ রেফারেন্স হ'ল স্কিপিতে জন কুকের বিতরণ

  • পান্ডাস এটি স্ট্যাটিস্টিকাল ডেটা - ট্যাবুলার ডেটা, টাইম সিরিজ, প্যানেল ডেটার সাথে কাজ করার জন্য একটি দুর্দান্ত লাইব্রেরি। ডেটা সংক্ষিপ্তকরণ, গোষ্ঠীকরণ / সমষ্টি, পাইভটিংয়ের জন্য অনেকগুলি অন্তর্নির্মিত ফাংশন অন্তর্ভুক্ত। এছাড়াও একটি পরিসংখ্যান / একনোমেট্রিক্স লাইব্রেরি রয়েছে।

  • ল্যামি লেবেলযুক্ত অ্যারে যা NumPy এর সাথে দুর্দান্ত খেলে। NumPy তে উপস্থিত না থাকা এবং ডেটা ম্যানিপুলেশনের জন্য ভাল পরিসংখ্যানমূলক ফাংশন সরবরাহ করে।

  • পাইথন-স্ট্যাটালিব একটি সাম্প্রতিক প্রচেষ্টা যা বেশ কয়েকটি বিক্ষিপ্ত পরিসংখ্যান লাইব্রেরিগুলিকে একত্রিত করেছে। আপনি যদি NumPy বা পান্ডা ব্যবহার না করেন তবে মৌলিক এবং বর্ণনামূলক পরিসংখ্যানগুলির জন্য দরকারী।

  • statsmodels লিনিয়ার মডেল, GLMs অন্যান্যের মধ্যে: পরিসংখ্যানগত মডেলিং।

  • scikits পরিসংখ্যানগত ও বৈজ্ঞানিক কম্পিউটিং প্যাকেজ - উল্লেখযোগ্য হল মসৃণকরণ, অপ্টিমাইজেশান এবং মেশিন লার্নিং।

  • পিএমসি আপনার বয়েসিয়ান / এমসিএমসি / শ্রেণিবদ্ধ মডেলিংয়ের জন্য। অত্যন্ত বাঞ্ছনীয়.

  • পাইমিক্স মিশ্রণ মডেল।

  • অজগরে আপনার জৈবিক ডেটা লোড করার জন্য বায়োপাইথন দরকারী এবং বিশ্লেষণের জন্য কিছু প্রাথমিক পরিসংখ্যান / মেশিন লার্নিং সরঞ্জাম সরবরাহ করে।

গতি যদি সমস্যা হয়ে দাঁড়ায় , থিয়েওন বিবেচনা করুন - গভীর শিক্ষার লোকেরা ভাল সাফল্যের সাথে ব্যবহার করেছেন।

সেখানে প্রচুর পরিমাণে অন্যান্য জিনিস রয়েছে, তবে আপনি উল্লেখ করেছেন এমন রেখাগুলি আমি সবচেয়ে দরকারী বলে মনে করি।


16
সমস্ত উত্তর উভয় সহায়ক এবং দরকারী ছিল, এবং সমস্ত গৃহীত হবে প্রাপ্য। তবে এই একটি প্রশ্নের উত্তরে খুব ভাল কাজ করেছে: পাইথনের সাথে, আপনাকে যা করতে চান তা করতে আপনাকে একসাথে প্রচুর টুকরো রাখতে হবে। এই পয়েন্টারগুলি সন্দেহ নেই যে কেউ পরিসংখ্যান / মডেলিং / ইত্যাদি করতে চান তাদের জন্য খুব কার্যকর হবে। পাইথনের সাথে সবাইকে ধন্যবাদ!
ফ্যাবিয়ান ফাগেরহোম

1
@ পিয়ার্স আপনি উইন্ডোজ দিয়ে পাইথন ব্যবহার করার সবচেয়ে ভাল উপায় কি জানেন?
স্টাফেন লরেন্ট

1
@ স্টাফেনলরেন্ট আমি সাধারণত বিভিন্ন টুকরো নিজেই ইনস্টল করি তবে দ্রুত শুরু / ইনস্টল করার জন্য আপনি বিবেচনা করতে পারেন: অজগর
Ars

এই স্ক্রিপ্টটি উপরে উদ্ধৃত অনেকগুলি লাইব্রেরি ইনস্টল করে: fonnesbeck.github.com/ScipySuperpack
Fr.

পাইথোন্সিটি দুর্দান্ত তবে আপনি যদি বৃহত গণনা করতে চান তবে এটি বিরক্তিকর হতে পারে কারণ এটি কেবল 32 বিটের জন্য উপলব্ধ। অনেক পাইথন প্যাকেজ ইনস্টল করার জন্য এখানে অফিশিয়াল বাইনারি রয়েছে। আপনি উইন্ডোগুলির নীচে কাজ করার সিদ্ধান্ত নিলে এগুলি বেশ কার্যকর হতে পারে। lfd.uci.edu/~gohlke/pythonlibs @ StéphaneLaurent
জেকুইয়া

140

সংখ্যার প্ল্যাটফর্ম এবং ম্যাটল্যাবের বিকল্প হিসাবে পাইথন কমপক্ষে ২-৩ বছর আগে পরিপক্কতায় পৌঁছেছিল এবং এখন অনেক দিক থেকে ম্যাটল্যাবের চেয়ে অনেক ভাল। আমি সেই সময় থেকে আর থেকে পাইথনে স্যুইচ করার চেষ্টা করেছি এবং খারাপভাবে ব্যর্থ হয়েছি। আমি প্রতিদিন প্রচুর পরিমাণে আর প্যাকেজ ব্যবহার করি যার পাইথন সমতুল্য নেই। Ggplot2 এর অনুপস্থিতি শোস্টোপার হওয়ার পক্ষে যথেষ্ট তবে আরও অনেক কিছু রয়েছে। এগুলি ছাড়াও, ডাটা বিশ্লেষণের জন্য আর এর আরও ভাল বাক্য গঠন রয়েছে। নিম্নলিখিত মৌলিক উদাহরণ বিবেচনা করুন:

পাইথন :

results = sm.OLS(y, X).fit()

আর :

results <- lm(y ~ x1 + x2 + x3, data=A)

আপনি কি আরও অভিব্যক্তি বিবেচনা? আর-তে, আপনি ভেরিয়েবলের বিবেচনায় ভাবতে পারেন, এবং সহজেই একটি মডেল প্রসারিত করতে, বলতে,

lm(y ~ x1 + x2 + x3 + x2:x3, data=A)

আর এর তুলনায় পাইথন মডেল বিল্ডিংয়ের জন্য একটি নিম্ন-স্তরের ভাষা।

যদি আমার কাছে উন্নত পরিসংখ্যান সংক্রান্ত ফাংশনগুলির জন্য কম প্রয়োজনীয়তা থাকে এবং ইতিমধ্যে একটি বৃহত প্রকল্পে পাইথন কোডিং করছিলাম তবে আমি পাইথনকে একজন ভাল প্রার্থী হিসাবে বিবেচনা করব। গতি সীমাবদ্ধতার কারণে, বা আর প্যাকেজগুলি কোনও প্রান্ত সরবরাহ করে না বলে যখন খালি-হাড়ের পদ্ধতির প্রয়োজন হয় তখন আমি এটিকেও বিবেচনা করব।

অপেক্ষাকৃত উন্নত পরিসংখ্যান করছেন তাদের জন্য ডান এখন , উত্তর একটি কোন- brainer হয়, এবং হয় কোন । আসলে, আমি বিশ্বাস করি পাইথন আপনার ডেটা বিশ্লেষণ সম্পর্কে যেভাবে ভাববে সীমাবদ্ধ করবে। ১০০ টি প্রয়োজনীয় আর প্যাকেজগুলির জন্য মডিউল প্রতিস্থাপন তৈরি করতে কয়েক বছর এবং বহু বছরব্যাপী প্রচেষ্টা লাগবে এবং তারপরেও পাইথন এমন একটি ভাষার মতো অনুভব করবে যার উপর ডেটা বিশ্লেষণের ক্ষমতা বোল্ট করা হয়েছে। যেহেতু আর ইতিমধ্যে বেশ কয়েকটি ক্ষেত্র জুড়ে প্রয়োগকৃত পরিসংখ্যানবিদদের বৃহত্তম আপেক্ষিক অংশটি ক্যাপচার করেছে, তাই আমি খুব শীঘ্রই এটি ঘটতে দেখছি না। এটি বলার পরে, এটি একটি মুক্ত দেশ, এবং আমি জানি যে লোকেরা এপিএল এবং সি-তে পরিসংখ্যান করে doing


9
সূত্র এবং এই জাতীয় ব্যবহার করে ডেটা নিয়ে কাজ করার জন্য আপনি একটি পরিসংখ্যানগত ভাষা হিসাবে আরকে যে জোর দিয়েছিলেন তার কারণে আমি এই প্রতিক্রিয়াটি পছন্দ করি। বলা হচ্ছে, আমি পাইথন সম্প্রদায়ের পান্ডাস (স্ট্যাটাসমডেলের সাথে মিলিত) এর দুর্দান্ত ইতিবাচক প্রভাব আশা করছি।
chl

28
পাইথন সম্প্রদায়ের মধ্যে প্যাটসি "ফর্মুলা" র প্রয়োজনের দিকে নজর দিচ্ছেন যা আপনি বর্ণনা করেছেন, যা সময়ে সময়ে আর কী অফার করে তার উন্নতি করে: patsy.readthedocs.org/en/v0.1.0/index.html পাইথনে যা সুন্দর তা এই সমস্ত দিকগুলি orthogonally পরিচালিত হয়। পান্ডাস সময়সীমা এবং ডেটাফ্রেম / সিরিজ উপস্থাপনা যত্ন নেবে। সূত্র জন্য patsy। অ্যারের উপস্থাপনা এবং ভেক্টরাইজেশনের জন্য অসাধারণ। স্ট্যাটাসমডেলস পরিসংখ্যান আলগোসকে মোড়ক করে। অপ্টিমাইজেশান এবং অন্যান্য সামগ্রীর একগুচ্ছ জন্য স্কিপি। ফলাফল ক্লিনার ইন্টারফেস। তুলনায় তুলনামূলকভাবে আর বেশি পরিপক্ক, তবে এটি একটি চুলের বল।
../

3
../ .. আমি মনে করি দীর্ঘমেয়াদে বাহিনী আরও বেশি করে পাইথন সংহতকরণের দিকে ঠেলে দেবে এবং আপনি দেখতে পাবেন এটি আর এর প্রতিযোগী হয়ে উঠবে আর আর তে ডেটা পরিষ্কার করা পাইথনের তুলনায় এমন একটি পিআইএ, এবং এটি কখনই কাজের ক্ষুদ্র অংশ নয়। - ব্লেইস
chl

9
আপডেট হিসাবে: স্ট্যাটস মডেলস ডকুমেন্টেশনের প্রথম উদাহরণটি এখন results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()। স্ট্যাটসমোডালস কভারেজের ক্ষেত্রে আর এর মতো অন্যান্য পরিসংখ্যান প্যাকেজের তুলনায় অনেক পিছনে, তবে অজস্র আরও কিছু জিনিস রয়েছে যা আপনি অন্য কোনও ভাষা বা পরিসংখ্যান প্যাকেজ গ্রহণ করার আগে করতে পারেন in (জিইই এবং মিশ্র পরবর্তী প্রকাশে হবে।)
জোসেফ

4
"পাইথনে যা সুন্দর তা হ'ল এই সমস্ত দিকগুলি অরথোগোনালি হ্যান্ডেল করা হয় ..."। আমি বেশ কয়েকটি বিষয় নিয়ে একমত নই। নম্পি, স্কিপি, স্ট্যাটাসমডেলের মধ্যে উল্লেখযোগ্য ওভারল্যাপ রয়েছে। আর এর নকশা অনেক বেশি মডুলার এবং অর্থনৈতিক। তদুপরি, তথ্য-ভিত্তিক ভাষাগুলিতে ধারণাগত উদ্ভাবনগুলির মধ্যে বেশিরভাগ ক্ষেত্রেই নয় (কেবল সূত্রগুলি নয়, ডেটা ফ্রেমগুলিও, গ্রাফিক্সের একটি ব্যাকরণ, মেডেলগুলির ব্যাকরণ হিসাবে নিখরচায়, নিট এবং ডিপি্লায়ারের ডেটার স্থির-বিকাশকারী ব্যাকরণ) আর.তে পাইথন সম্প্রদায়টি সর্বদা এক ধাপ পিছনে থেকে যায় এবং অত্যধিক কার্য সম্পাদনকে কেন্দ্র করে বলে মনে হয়।
gappy

95

প্রথমে, আমি বলতে চাই যে আমি জন ডি কুকের উত্তরের সাথে একমত: পাইথন আর এর মতো কোনও ডোমেন নির্দিষ্ট ভাষা নয় এবং তদনুসারে, আরও অনেক কিছু রয়েছে যা আপনি এটির সাথে আরও রাস্তায় করতে সক্ষম হবেন। অবশ্যই, আর ডিএসএল হওয়ার অর্থ জাসায় প্রকাশিত সর্বশেষ অ্যালগরিদমগুলি প্রায় অবশ্যই আরে হবে you আপনি যদি বেশিরভাগ অ্যাডহক কাজটি করে থাকেন এবং সর্বশেষতম লাসো রিগ্রেশন কৌশল নিয়ে পরীক্ষা করতে চান, বলুন, আর পরাজিত করা শক্ত। আপনি যদি আরও উত্পাদন বিশ্লেষণমূলক কাজ করছেন, বিদ্যমান সফ্টওয়্যার এবং পরিবেশের সাথে সংহত করছেন এবং গতি, এক্সটেনসিবিলিটি এবং রক্ষণাবেক্ষণ সম্পর্কে উদ্বিগ্ন হন, পাইথন আপনাকে আরও ভাল পরিবেশন করবে।

দ্বিতীয়ত, আরস ভাল লিঙ্কগুলির সাথে দুর্দান্ত উত্তর দিয়েছে। পাইথনের বিশ্লেষণমূলক কাজের জন্য আমি আরও কয়েকটি প্যাকেজ এটি অপরিহার্য হিসাবে দেখছি:

  • matplotlib সুন্দর, প্রকাশনার মান গ্রাফিক্স জন্য।
  • উন্নত, ইন্টারেক্টিভ পাইথন কনসোলের আইপিথন । গুরুত্বপূর্ণভাবে, আইপথন পাইথনে ইন্টারেক্টিভ, সমান্তরাল কম্পিউটিংয়ের জন্য একটি শক্তিশালী কাঠামো সরবরাহ করে।
  • পাইথনে সহজে সি এক্সটেনশান লেখার জন্য সিথন । এই প্যাকেজটি আপনাকে গণ্য নিবিড় পাইথন কোডের একটি অংশ নিতে এবং এটিকে সহজেই সি এক্সটেনশনে রূপান্তর করতে দেয়। এরপরে আপনি অন্য পাইথন মডিউলের মতো সি এক্সটেনশন লোড করতে সক্ষম হবেন তবে কোডটি সিতে থাকায় এটি খুব দ্রুত চলবে
  • পুরোপুরি নথিভুক্ত এবং সমর্থিত শত শত গাণিতিক এবং পরিসংখ্যান সংক্রান্ত অ্যালগোরিদমের সংকলনের জন্য পাইআইএমএসএল স্টুডিও । পাইথন এবং সি থেকে প্রায় একই এপিআই দিয়ে আপনি একই একই অ্যালগরিদমগুলিতে কল করতে পারেন এবং আপনি একই ফলাফল পাবেন। সম্পূর্ণ প্রকাশ: আমি এই পণ্যটিতে কাজ করি, তবে আমি এটিও প্রচুর ব্যবহার করি।
  • এক্সেল ফাইলগুলিতে সহজেই পড়ার জন্য xlrd

আপনি একটি আরো ম্যাটল্যাব মত ইন্টারেক্টিভ আইডিই / কনসোল চান, খুঁজে বার করো Spyder , অথবা PyDev জন্য প্লাগ-ইন অন্ধকার


15
আর শব্দটি স্বাভাবিক অর্থে ডিএসএল নয়। এটি একটি পূর্ণ, টিউরিং সম্পূর্ণ প্রোগ্রামিং ভাষা।
হ্যাডলি

4
@ হ্যাডলি: সম্ভবত আমি "ডিএসএল" খুব প্রচ্ছন্নভাবে ব্যবহার করছি, তবে এটির মূল্যের জন্য, ডিএসএল-তে উইকিপিডিয়া পৃষ্ঠাটি স্পষ্টভাবে ডিএসএল এবং পাইথনের উদাহরণ হিসাবে সাধারণ উদ্দেশ্য ভাষা হিসাবে তালিকাভুক্ত করেছে। En.wikedia.org/wiki/Domain- স্পেসিফিক_একটি ভাষা দেখুন । একই শিরাতে এসএএস টিউরিং-সম্পূর্ণ (কেবলমাত্র যদি আইএমএল ম্যাক্রো উপাদান ব্যবহার করা হয়) তবে আমি ব্যবহারিক দিক দিয়ে একে একে সম্পূর্ণ ভাষা বলব না। আমি আমার কাজের ক্ষেত্রে আর অমূল্য বলে মনে করি, তবে আমি আর (বা বিষয়টির জন্য এক্সেল) এর সমস্ত কিছু করার চেয়ে সাধারণ উদ্দেশ্যগুলির ভাষা যতটা সম্ভব ব্যবহার করে কোড করার চেষ্টা করি।
জোশ হেম্যান

16
আমি মনে করি যে উইকিপিডিয়ায় অন্য ভাষাগুলির মতো আর তালিকাকে একই তালিকায় অন্তর্ভুক্ত করা অন্যায় - এটি আরে আপনি করতে পারবেন না এমন কিছুই নেই যা আপনি পাইথনে করতে পারেন। অবশ্যই অনেকগুলি জিনিস রয়েছে যা অন্য প্রোগ্রামিং ভাষার সাথে আরও উপযুক্ত, তবে পাইথনের ক্ষেত্রেও এটি একই।
হ্যাডলি

6
আহ, হ্যাডলি ১৩ ই অক্টোবর, ২০১১ তারিখে উইকিপিডিয়া পৃষ্ঠা থেকে আর ও এস + কে সরিয়ে ফেলেছিল। সুতরাং, আমি প্রায়শই শুনি যে মন্ত্রটি "আর স্ট্যাটিস্টিস্টিয়ানদের দ্বারা বিকাশ করেছিলেন" এবং এর মূল শক্তি হিসাবে। দৃশ্যত, তবুও এটিকে এখন একটি সাধারণ উদ্দেশ্য ভাষা, অত্যন্ত ...
জোশ Hemann

5
আচ্ছা, আমি কি আর এর সাথে মাল্টি-থ্রেডেড কোড রাখতে পারি? নেটওয়ার্ক অ্যাসিঙ্ক্রোনাস আই / ও? বিশ্বাস করুন, এই ব্যবহারগুলি প্রকৃতপক্ষে বৈজ্ঞানিক কম্পিউটিংয়ে উত্থিত হয়। আর আমার মতে একটি ডিএসএল। এটি পরিসংখ্যানের ভিত্তিতে শক্তিশালী এবং বেশিরভাগ ক্ষেত্রে খারাপ।
গয়েল ভেরাকোয়াক্স

61

আমি মনে করি না যে ক্র্যান এবং বায়োকন্ডাক্টরের পরিসংখ্যান প্যাকেজের পরিসীমা অন্যান্য ভাষাগুলির অফারের তুলনায় যে কোনও কিছু ছাড়িয়ে গেছে, তবে এটি কেবল বিবেচনার বিষয় নয়।

আমার গবেষণায়, আমি যখন পারি তখন আর ব্যবহার করি তবে কখনও কখনও আর খুব ধীর হয়। উদাহরণস্বরূপ, একটি বড় MCMC চালান।

সম্প্রতি, আমি অজগর এবং সি সমন্বিত করে এই সমস্যাটি মোকাবেলা করেছি। সংক্ষিপ্তসার সংক্ষিপ্তসার: ~ 60 পরামিতি সহ একটি বৃহত স্টোকাস্টিক জনসংখ্যার মডেল ফিটিং করা এবং এমসিসিএম ব্যবহার করে প্রায় 150 টি সুপ্ত রাষ্ট্রগুলি অনুমান করা।

  1. অজগর তথ্য পড়ুন
  2. ব্যবহার পাইথন মধ্যে C ডাটা স্ট্রাকচার আঁকো ctypes
  3. পাইথন forলুপটি ব্যবহার করে , সি ফাংশনগুলিকে কল করুন যা প্যারামিটারগুলি আপডেট করে এবং সম্ভাবনাটি গণনা করে।

একটি দ্রুত গণনা দেখিয়েছে যে প্রোগ্রামটি 95% সি কার্যক্রমে ব্যয় করেছে। যাইহোক, ডেটাতে পড়তে বা সি ডেটা কাঠামো তৈরি করতে আমাকে বেদনাদায়ক সি কোড লিখতে হয়নি।


আমি জানি যে এখানে আরপিও রয়েছে , যেখানে পাইথন আর ফাংশনগুলি কল করতে পারে। এটি দরকারী হতে পারে, তবে আপনি যদি পরিসংখ্যানগুলি "ঠিক" করেন তবে আমি আর ব্যবহার করব।


29
আরসিপিপির জন্য নির্লজ্জ প্লাগ Inোকানো :)
ডার্ক এডেলবুয়েটেল

আপনি যদি পাইএমসি চেষ্টা করে থাকেন এবং কীভাবে আপনার মডেলগুলির জন্য পারফরম্যান্স (পাইথন / সি এর তুলনায়) তুলনা করেন তা আগ্রহী।
Ars

@ars: উপরের ক্ষেত্রে, প্রতিটি পুনরাবৃত্তি (10 ^ 8 পুনরাবৃত্তির) 5 টি ওডি সমাধান করতে জড়িত। এটি সত্যিই সিতে করতে হয়েছিল বাকী কোডটি মোটামুটি সহজ ছিল এবং তাই সি কোডটি সোজা ছিল। আমার অ্যাপ্লিকেশনটি মানসম্মত ছিল এবং তাই পাইএমসি প্রযোজ্য ছিল না - এটি 2 বছর আগেও ছিল।
csgillespie

40

নিম্নলিখিত স্ট্যাকওভারফ্লো আলোচনাগুলি দরকারী হতে পারে


এই সমস্ত আলোচনা মুছে ফেলা হয়েছে :-(। সম্ভবত এই উত্তরটিও সরিয়ে নেওয়া উচিত?
জনাথন

12
এটা দুঃখের. ওয়েবব্যাক মেশিনের অনুলিপিগুলিকে উল্লেখ করতে আমি লিঙ্কগুলি আপডেট করেছি।
জেরোমি অ্যাংলিম

36

আমি উপরের উত্তরগুলিতে স্পষ্টভাবে উল্লিখিত সাইকিট-শিখতে দেখিনি । পাইথনে মেশিন লার্নিংয়ের জন্য এটি পাইথন প্যাকেজ। এটি মোটামুটি অল্প বয়স্ক তবে অত্যন্ত দ্রুত বর্ধমান (অস্বীকৃতি: আমি একজন বিজ্ঞানী-শিখার বিকাশকারী)। এর লক্ষ্যগুলি হ'ল গতি, এবং ব্যবহারের যোগ্যতার উপর মনোযোগ কেন্দ্রীভূত ইন্টারফেসে স্ট্যান্ডার্ড মেশিন লার্নিং অ্যালগরিদমিক সরঞ্জাম সরবরাহ করা। যতদূর আমি জানি, আপনি মতলব তেমন কিছু খুঁজে পাচ্ছেন না। এটি শক্তিশালী পয়েন্টগুলি হ'ল:

  • অনেক উদাহরণ সহ একটি বিস্তারিত ডকুমেন্টেশন

  • উচ্চমানের স্ট্যান্ডার্ড তদারকি শেখা (রিগ্রেশন / শ্রেণিবিন্যাস) সরঞ্জাম tools বিশেষ করে:

  • একাধিক সিপিইউ ব্যবহার করে ক্রস-বৈধকরণের মাধ্যমে মডেল নির্বাচন সম্পাদন করার ক্ষমতা

  • ডেটা অন্বেষণ করতে বা প্রথম মাত্রিকতা হ্রাস করার জন্য আনসপারভাইসড লার্নিং , যা তদারকি করা শিক্ষায় সহজেই বেঁধে রাখা যায়।

  • ওপেন সোর্স, বিএসডি লাইসেন্স পেয়েছে। আপনি যদি নিখুঁত একাডেমিক পরিবেশে না থাকেন (রাজ্যে জাতীয় ল্যাব হবে কীভাবে আমি তা করি) কারণ মতলব ব্যয় তখন খুব বেশি, এবং আপনি আপনার কাজ থেকে পণ্যগুলি নেওয়ার কথা ভাবতে পারেন।

মতলব একটি দুর্দান্ত সরঞ্জাম, তবে আমার নিজের কাজে, স্কিপি + সাইকিট-শিখাই আমাকে মতলবকে একটি ধার দিতে শুরু করেছে কারণ পাইথন তার ভিউ মেকানিজমের কারণে মেমরির সাথে আরও ভাল কাজ করে (এবং আমার কাছে বড় ডেটা রয়েছে), এবং কারণ সাইকিট-লার্ন আমাকে খুব সহজেই বিভিন্ন পদ্ধতির তুলনা করতে সক্ষম করে।


29

পাইথনে যাওয়ার এক সুবিধা হ'ল এক ভাষায় আরও কাজ করার সম্ভাবনা। নম্বর ক্রাঞ্চিং, ওয়েব সাইটগুলি লেখার জন্য প্রশাসনিক স্ক্রিপ্টিং ইত্যাদির জন্য পাইথন একটি যুক্তিসঙ্গত পছন্দ So তাই আপনি যদি পাইথনে আপনার পরিসংখ্যানটি করেন তবে আপনাকে অন্যান্য প্রোগ্রামিংয়ের কাজগুলি করতে ভাষা পরিবর্তন করতে হবে না।

আপডেট: ২ January শে জানুয়ারী, ২০১১ মাইক্রোসফ্ট রিসার্চ শো -কে ডেটা বিশ্লেষণের জন্য একটি নতুন পাইথন-ভিত্তিক পরিবেশ ঘোষণা করেছে। আমি এখনও এটি চেষ্টা করার সুযোগ পাইনি, তবে পাইথন চালাতে এবং .NET গ্রন্থাগারগুলির সাথে ইন্টারেক্ট করতে চাইলে এটি একটি আকর্ষণীয় সম্ভাবনার মতো বলে মনে হচ্ছে।


4
আমি প্রচুর সংখ্যক ক্রাঞ্চিং, একটি ওয়েবসাইট এবং আর-তে কয়েকটি প্রশাসনিক স্ক্রিপ্ট করেছি এবং তারা বেশ সুন্দরভাবে কাজ করছে।

28

সম্ভবত এই উত্তরটি প্রতারণা করছে তবে এটি আশ্চর্যজনক বলে মনে হয় কেউ আরপি প্রকল্পের উল্লেখ করেনি , যা আর এবং পাইথনের মধ্যে একটি ইন্টারফেস সরবরাহ করে। (আমি আরও ভাল যুক্তি দেব) সিনট্যাক্স, ডেটা প্রসেসিং এবং কিছু ক্ষেত্রে পাইথনের গতি ধরে রাখার সময় আপনি বেশিরভাগ আর এর কার্যকারিতাতে পাইথোনিক এপি পান। আর পাইথন আর এর মতো অনেক রক্তস্রো প্রান্তের পরিসংখ্যানের সরঞ্জামগুলি পাবে না এটি কেবল অসম্ভব, কারণ আর ডিএসএল এবং সম্ভবত অন্য কোনও ভাষার তুলনায় পরিসংখ্যান সম্প্রদায় আর-তে বেশি বিনিয়োগ করে।

আমি এটিকে এসকিউএল এর সুবিধাগুলি উপার্জনের জন্য কোনও ওআরএম ব্যবহার করার সাথে সমান হিসাবে দেখছি, যখন পাইথনকে পাইথন এবং এসকিউএলকে এসকিউএল হতে দিই।

বিশেষত ডেটা স্ট্রাকচারের জন্য অন্যান্য দরকারী প্যাকেজগুলির মধ্যে রয়েছে:

  • পাইডাটাফ্রেম একটি ডেটা.ফ্রেমে প্রতিলিপি করে এবং আরপিএ দিয়ে ব্যবহার করা যায়। আপনাকে আর-মতো ফিল্টারিং এবং ক্রিয়াকলাপগুলি ব্যবহার করার অনুমতি দেয়।
  • পাইটাইবসগুলি দ্রুত এইচডিএফ 5 ডেটা ধরণের নীচে ব্যবহার করে যা প্রায় যুগে যুগে ছিল
  • h5py এছাড়াও এইচডিএফ 5 , তবে বিশেষভাবে নপীর সাথে আন্তঃসংযোগ স্থাপনের লক্ষ্য
  • পান্ডাস আর একটি প্রকল্প যা ডেটা.ফ্রেম ডেটার মতো পরিচালনা করে, আরপি, পাই টেবিল এবং নম্পির সাথে কাজ করে

1
আমি সবসময় কাজ করার জন্য আরপিপি আড়ম্বর খুঁজে পেয়েছি। উদাহরণস্বরূপ এটি কিছু সাধারণ ফাংশন সহ কোডের বড় লাইনগুলির প্রয়োজন।
নস্টোর

সম্ভবত আইপথনের জন্য rmagic এক্সটেনশন (@ কার্লস্মিথ দ্বারা চিহ্নিত হিসাবে) আরপিপি 2 দিয়ে কাজ করা আরও সহজ করে তুলতে পারে? Ipython.org/ipython-doc/dev/config/extensions/rmagic.html দেখুন ।
জোনাথন

26

আমি মূলত একটি আর শপ যা একটি বায়োস্ট্যাটিস্টিশিয়ান (f 80 জন লোক তাদের প্রাথমিক সরঞ্জাম হিসাবে আর ব্যবহার করে)। তবুও, আমি আমার প্রায় 3/4 সময় পাইথনে কাজ করার জন্য ব্যয় করি। আমি এটিকে মূলত এটিকে দায়ী করি যে আমার কাজটি পরিসংখ্যানগত মডেলিংয়ের জন্য বায়েশিয়ান এবং মেশিন লার্নিং পদ্ধতির অন্তর্ভুক্ত। পাইথন আর এর চেয়ে পারফরম্যান্স / উত্পাদনশীলতার মিষ্টি স্পটের খুব কাছাকাছি চলে আসে, অন্ততঃ পরিসংখ্যানগত পদ্ধতিগুলির জন্য যা পুনরাবৃত্তি বা সিমুলেশন-ভিত্তিক। যদি আমি আনোভাস, রিগ্রেশন এবং পরিসংখ্যানগত পরীক্ষা করছিলাম তবে আমি নিশ্চিত যে আমি প্রাথমিকভাবে আর ব্যবহার করতাম তবে আমার যা প্রয়োজন তার বেশিরভাগই ক্যানড আর প্যাকেজ হিসাবে পাওয়া যায় না।


5
আপনি কী পরিসংখ্যানের ক্ষেত্রে কাজ করছেন তা আলাদা করার জন্য +1 stat স্ট্যাটিস্টিকাল কম্পিউটিংয়ের ক্ষেত্রগুলি রয়েছে (উদাহরণস্বরূপ কাঠামোগত পাঠ্য বিশ্লেষণ এবং কম্পিউটার ভিশন) পাইথনে প্রচুর কার্যকারিতা বিদ্যমান এবং পাইথন সেই সাব-ডোমেনগুলিতে লিঙ্গুয়া ফ্রেঙ্ক বলে মনে হয়। আমি মনে করি পাইথন সম্প্রদায়টি যেখানে ক্লাসিকাল স্ট্যাটিস্টিকাল মডেলিংয়ের চারপাশে ডেটা স্ট্রাকচার এবং শব্দার্থবিজ্ঞানের উন্নতি করছে তা আর এর নকশাটি এত ভাল। সাইকিটস.স্ট্যাটস মডেলস বিকাশকারীরা সেই ফ্রন্টটিতে প্রচুর অগ্রগতি করছেন: scikits.appspot.com/statsmodels
জোশ হেম্যান

26

আমি বলতে চাই যে এমন কেউ যে আমার পরিসংখ্যানমূলক কাজের জন্য রৈখিক মডেলগুলিতে খুব বেশি নির্ভর করে এবং আমার কাজের অন্যান্য দিকের জন্য পাইথনকে ভালবাসে, তার দিক থেকে আমি মোটামুটি মৌলিক পরিসংখ্যান ব্যতীত পাইথনকে কিছু করার প্ল্যাটফর্ম হিসাবে খুব হতাশ করেছি।

আমি দেখতে পেয়েছি যে পরিসংখ্যানগত সম্প্রদায়ের কাছ থেকে আর এর আরও ভাল সমর্থন রয়েছে, লিনিয়ার মডেলগুলির আরও ভাল প্রয়োগ করা এবং বিষয়গুলির পরিসংখ্যানের দিক থেকে স্পষ্ট করে বলা, এমনকি এন্টাচোটের মতো দুর্দান্ত বিতরণ সহ পাইথন কিছুটা বন্য পশ্চিমের মতো অনুভব করে।

এবং যদি আপনি একক কাজ না করেন তবে আপনার পক্ষে এমন সহযোগী রয়েছে যারা এই সময়ে পরিসংখ্যানগুলির জন্য পাইথন ব্যবহার করেন, এটি বেশ পাতলা।


26

পাইথনের জন্য আর যাইহোক সত্যিই আর ছাড়ার দরকার নেই। আপনি যদি একটি সম্পূর্ণ স্ট্যাক সহ আইপিথন ব্যবহার করেন , আপনার আর, অ্যাকটাভ এবং সিথন এক্সটেনশন রয়েছে, যাতে আপনি আপনার আইপিথন নোটবুকের মধ্যে সেই ভাষাগুলি সহজে এবং পরিষ্কারভাবে ব্যবহার করতে পারেন। আপনার এবং পাইথন নেমস্পেসের মধ্যে মানগুলি পাস করার জন্য আপনারও সমর্থন রয়েছে। আপনি প্ল্যাট হিসাবে আপনার ডেটা আউটপুট করতে পারেন, ম্যাটপ্ল্লোব ব্যবহার করে এবং যথাযথভাবে রেন্ডার গাণিতিক এক্সপ্রেশন। অন্যান্য অনেকগুলি বৈশিষ্ট্য রয়েছে এবং আপনি আপনার ব্রাউজারে এটি করতে পারেন।

আইপিথন অনেক দূর এগিয়েছে :)


19

আপনি যা খুঁজছেন তাকে সেজ বলা হয়: http://www.sagemath.org/

এটি গণিতের জন্য পাইথন সরঞ্জামগুলির একটি সুনির্দিষ্ট সংমিশ্রণের জন্য একটি দুর্দান্ত অনলাইন ইন্টারফেস।


4
সেজ সম্পর্কে উজ্জ্বল অংশটি হ'ল এটি মূলত গণিত, পরিসংখ্যান, ডেটা বিশ্লেষণ ইত্যাদির জন্য প্রচুর দুর্দান্ত মুক্ত সরঞ্জামগুলির মিলন It এটি কেবল পাইথনের চেয়েও বেশি কিছু; এটিতে আর, ম্যাক্সিমা, জিএলপিকে, জিএসএল এবং আরও অনেক কিছুতে অ্যাক্সেস রয়েছে।
shabbychef

18

আরপিপি 2 - পাইথনে আর থাকার সাথে খেলুন ...

গুংয়ের অনুরোধ অনুসারে আরও বিশদ:

আরপিআই 2 ডকুমেন্টেশনটি http://rpy.sourceforge.net/rpy2/doc-dev/html/introduction.html এ পাওয়া যাবে

ডকুমেন্টেশন থেকে, আরপিপি 2-তে উচ্চ-স্তরের ইন্টারফেসটি পাইথন প্রোগ্রামারদের দ্বারা আর ব্যবহারের সুবিধার্থে ডিজাইন করা হয়েছে। আর অবজেক্টগুলি পাইথন-বাস্তবায়িত শ্রেণীর উদাহরণ হিসাবে প্রকাশিত হয়, আর কয়েকটি ক্ষেত্রে এই বিষয়গুলির আবদ্ধ পদ্ধতি হিসাবে আর ফাংশন রয়েছে with এই বিভাগে আর: ট্রেলিস (ল্যাটিস) প্লটগুলির পাশাপাশি গ্রাফিক্সের ব্যাকরণের পাশাপাশি গ্রাফিক্স 2 এ প্রয়োগ করা গ্রাফিক্সেরও একটি সংক্ষিপ্ত কোড লেখা জটিল এবং তথ্যমূলক প্লট তৈরি করা যাক, যখন অন্তর্নিহিত গ্রিড গ্রাফিকগুলি সমস্ত সম্ভাব্য কাস্টমাইজেশনকে রূপরেখার অনুমতি দেয়।

আমি কেন এটি পছন্দ করি:

আমি অজগরটির নমনীয়তা ব্যবহার করে আমার ডেটা প্রক্রিয়া করতে পারি, নাম্পি বা পান্ডা ব্যবহার করে এটিকে ম্যাট্রিক্সে পরিণত করতে এবং আর-তে গণনা করতে পারি, এবং পোস্ট প্রসেসিং করতে r বস্তুগুলি ফিরে পেতে পারি। আমি একনোমেট্রিক্স এবং পাইথনটি ব্যবহার করি কেবলমাত্র আর এর রক্তপাত প্রান্ত পরিসংখ্যান সরঞ্জাম থাকবে না And আর আর সম্ভবত অজগরটির মতো নমনীয় হবে। ভাগ্যক্রমে, এটির একটি সুন্দর বিকাশকারী সম্প্রদায় রয়েছে understand

আরপিআই 2 নিজেই ভাল সমর্থিত এবং এটি সমর্থনকারী ভদ্রলোক এসও ফোরামে ঘন ঘন। উইন্ডোজ ইনস্টলেশন সম্ভবত সামান্য ব্যথা হতে পারে - https://stackoverflow.com/questions/5068760/bizzarre-issue-trying-to-make-rpy2-2-1-9-work-with-r-2-12-1- ব্যবহার করে -Python-2-6-un? rq = 1 সাহায্য করতে পারে।


1
@PythOnometrist সাইটে আপনাকে স্বাগতম। আমি সন্দেহ করি এটি একটি সহায়ক অবদান। আপনি কি আরপিএ 2-এর একটি সংক্ষিপ্ত সংক্ষিপ্ত বিবরণ দেওয়ার বিষয়ে আপত্তি করবেন, তাই পাঠকরা সিদ্ধান্ত নিতে পারেন যে তারা কী খুঁজছেন?
গাং

17

আমি পরিসংখ্যান বিশ্লেষণ এবং পূর্বাভাসের জন্য পাইথন ব্যবহার করি। উপরের অন্যরা যেমন উল্লেখ করেছেন, নম্পি এবং ম্যাটপ্ল্লোলিব ভাল ওয়ার্কহর্স। আমি পিডিএফ আউটপুট উত্পাদন করার জন্য রিপোর্টল্যাব ব্যবহার করি।

আমি বর্তমানে রেজলভার এবং পাইস্প্রেড উভয়কেই দেখছি যা এক্সেল-এর মতো স্প্রেডশিট অ্যাপ্লিকেশন যা পাইথনের উপর ভিত্তি করে। রিসলভার একটি বাণিজ্যিক পণ্য তবে পাইস্প্রেড এখনও ওপেন সোর্স। (দুঃখিত, আমি কেবল একটি লিঙ্কে সীমাবদ্ধ)


1
আবার কিছু আকর্ষণীয় সরঞ্জাম। আমি নম্পি, ম্যাটপ্ল্লোব এবং রিপোর্টল্যাব সম্পর্কে জানতাম তবে পাইস্প্রেডটি একটি আকর্ষণীয় ধারণা বলে মনে হচ্ছে। কমপক্ষে আমি স্প্রেডশিট সেলগুলিতে পাইথন এক্সপ্রেশন লিখতে চাই। যদিও এটি সমস্ত সম্ভাব্য সমস্যাগুলি সমাধান করে না, এটি প্রোটোটাইপিং এবং ডেটা নিয়ে ঘুরে দেখার পক্ষে ভাল।
ফ্যাবিয়ান ফাগেরহোম

1
+1 বাহ অজগর স্প্রেডশিট! এখনও তাদের সম্পর্কে শুনিনি। আমি সর্বদা চাইতাম ওপেন অফিস / লিব্রেঅফিস সত্যই তাদের স্প্রেডশীট সফ্টওয়্যারটিতে পাইথন স্ক্রিপ্টিংটি আলিঙ্গন এবং সংহত করে
ব্যবহারকারী

15

এখনও অবধি দুর্দান্ত ওভারভিউ। আমি বিশ্ববিদ্যালয়ে 3 বছর কাজ করার পর থেকে মাতালব প্রতিস্থাপন হিসাবে পাইথন (বিশেষত স্কিপি + ম্যাটপ্লটলিব) ব্যবহার করছি। আমি মাঝে মাঝে এখনও ফিরে যাই কারণ আমি নির্দিষ্ট গ্রন্থাগারগুলির সাথে পরিচিত eg যেমন ম্যাটলাব তরঙ্গি প্যাকেজটি সম্পূর্ণ দুর্দান্ত।

আমি http://enthought.com/ পাইথন বিতরণ পছন্দ করি । এটি বাণিজ্যিক, তবুও একাডেমিক উদ্দেশ্যে বিনামূল্যে এবং যতদূর আমি জানি সম্পূর্ণ ওপেন সোর্স। যেহেতু আমি প্রচুর শিক্ষার্থীর সাথে কাজ করছি, প্রেরণামুক্ত ব্যবহারের আগে তাদের মাঝে মাঝে মাঝে ন্যাপি, স্কিপি, আইপথন ইত্যাদি ইনস্টল করা কষ্টকর হয়ে পড়েছিল এনথহট উইন্ডোজ, লিনাক্স এবং ম্যাকের জন্য একটি ইনস্টলার সরবরাহ করে।

উল্লেখযোগ্য আরও দুটি প্যাকেজ:

  1. আইপিথন (ইতিমধ্যে অন্তঃসত্ত্বা সঙ্গে আসে) দুর্দান্ত উন্নত শেল। শোডেমোতে একটি ভাল পরিচয় আছে http://showmedo.com/videotutorials/series?name=PythonIPythonSeries

  2. nltk - প্রাকৃতিক ভাষার টুলকিট http://www.nltk.org/ দুর্দান্ত প্যাকেজ যদি আপনি কোনও কর্পাসে কিছু পরিসংখ্যান / মেশিন লার্নিং করতে চান।


12

এটি দুর্দান্ত কিছু উত্তর সহ একটি আকর্ষণীয় প্রশ্ন।

রোজলাইন বিলিনার সাথে আমি লিখেছিলাম এমন একটি কাগজে আপনি কিছু দরকারী আলোচনা পেতে পারেন। চূড়ান্ত সংস্করণটি এখানে: http://www.enac.fr/recherche/leea/Steve%20Lawford/papers/python_paper_revised.pdf (এর পর থেকে প্রায় এই আকারে এটি প্রকাশিত হয়েছে, "একনোমেট্রিক্স এবং পরিসংখ্যানগুলিতে ইউনিফাইড গবেষণার জন্য পাইথন) হিসাবে ", একনোমেট্রিক পর্যালোচনা (2012), 31 (5), 558-591) এ রয়েছে।


10

সম্ভবত সরাসরি সম্পর্কিত নয়, তবে আর এর ইন্টারেক্টিভ সেশনগুলির জন্য একটি সুন্দর জিইউআই পরিবেশ রয়েছে (সম্পাদনা করুন: ম্যাক / উইন্ডোজে)। আইপিথন খুব ভাল তবে মতলবের কাছাকাছি পরিবেশের জন্য আপনি স্পাইডার বা আইইপি চেষ্টা করতে পারেন। আইইপি ব্যবহার করে দেরী করার আমার ভাগ্য ভাল, তবে স্পাইডার আরও আশাব্যঞ্জক বলে মনে হয়।

আইইপি: http://code.google.com/p/iep/

স্পাইডার: http://packages.python.org/spyder/

এবং আইইপি সাইটটিতে সম্পর্কিত সফ্টওয়্যারগুলির একটি সংক্ষিপ্ত তুলনা অন্তর্ভুক্ত রয়েছে: http://code.google.com/p/iep/wiki/Al متبادلs


9

আমি পান্ডার কাছে এখানে একটি দুর্দান্ত পরিচয় পেয়েছি যা আমি চেক আউট করার পরামর্শ দিই। পান্ডাস একটি আশ্চর্যজনক টুলসেট এবং পাইথনের বিস্তৃত গ্রন্থাগার এবং উত্পাদন মানের সহ আর এর উচ্চ স্তরের ডেটা বিশ্লেষণ ক্ষমতা সরবরাহ করে।

এই ব্লগ পোস্টটি সম্পূর্ণ শিক্ষানবিশ দৃষ্টিকোণ থেকে পান্ডাসকে দুর্দান্ত পরিচয় দেয়:

http://manishamde.github.com/blog/2013/03/07/pandas-and-python-top-10/


3
আপনি কী দয়া করে কোন গুণাবলীকে "দুর্দান্ত" তৈরি করে সে সম্পর্কে কয়েকটি শব্দ লিখতে পারেন যাতে পাঠকরা আগে থেকেই নির্ধারণ করতে পারে যে এটি দেখার পক্ষে তাদের পক্ষে উপযুক্ত হবে কিনা?
whuber

1
দুঃখিত। ঠিক বুঝতে পেরেছি যে আমি আমার মূল পোস্টে ভুল লিঙ্কটি সংযুক্ত করেছি।
পদাবন

8

আমার শো-এর জন্য চিৎকার করা উচিত, আয়রন পাইথনের উপর নির্মিত সংখ্যার কম্পিউটিং পরিবেশ environment আমি এখনই এটি স্ট্যানফোর্ড মেশিন লার্নিং ক্লাসের জন্য ব্যবহার করছি এবং এটি সত্যিই সহায়ক হয়েছে। এটি লিনিয়ার বীজগণিত প্যাকেজ এবং চার্টিংয়ের ক্ষমতাতে তৈরি হয়েছে। সত্তা। নেট # সি বা অন্য কোনও সাথে প্রসারিত করা সহজ N নেট ভাষা। উইন্ডোজ ব্যবহারকারী হয়ে স্ট্রাইথ পাইথন ও নুমপির চেয়ে আরম্ভ করা আমার পক্ষে খুব সহজ হয়েছে।


8

এর আগে কমলা সম্পর্কে কেউ উল্লেখ করেনি :

ভিজ্যুয়াল প্রোগ্রামিং বা পাইথন স্ক্রিপ্টিংয়ের মাধ্যমে ডেটা মাইনিং। মেশিন শেখার জন্য উপাদান। বায়োইনফরম্যাটিকস এবং পাঠ্য খনির জন্য অ্যাড-অনস। ডেটা বিশ্লেষণের জন্য বৈশিষ্ট্যযুক্ত।

আমি এটি দৈনিক ভিত্তিতে ব্যবহার করি না, তবে কমান্ড লাইন ইন্টারফেসের চেয়ে জিইআইআই পছন্দ করে এমন কাউকে এটি অবশ্যই দেখতে হবে।

আপনি যদি দ্বিতীয়টি পছন্দ করেন তবে অরেঞ্জ আপনার সাথে পরিচিত হওয়া ভাল you কারণ আপনি খুব সহজেই কমলা এর টুকরোটি পাইথন স্ক্রিপ্টগুলিতে আমদানি করতে পারেন যদি আপনার কিছু কার্যকারিতা প্রয়োজন হয়।


7

দ্রষ্টব্য যে এসপিএসএস পরিসংখ্যানগুলির একটি সমন্বিত পাইথন ইন্টারফেস রয়েছে (এছাড়াও আর)। সুতরাং আপনি পাইথন প্রোগ্রামগুলি লিখতে পারেন যা পরিসংখ্যান পদ্ধতি ব্যবহার করে এবং স্বাভাবিকভাবেই ফর্ম্যাট করা স্ট্যাটিস্টিকস আউটপুট উত্পাদন করতে পারে বা আরও প্রক্রিয়াজাতকরণের জন্য আপনার প্রোগ্রামে ফলাফলগুলি ফেরত দিতে পারে। অথবা আপনি পরিসংখ্যান কমান্ড প্রবাহে পাইথন প্রোগ্রামগুলি চালাতে পারেন। আপনার এখনও স্ট্যাটিস্টিকস কমান্ড ভাষাটি জানতে হবে, তবে আপনি পরিসংখ্যানগুলির পাশাপাশি পদ্ধতিগুলি সরবরাহ করে এমন সমস্ত ডেটা ম্যানেজমেন্ট, উপস্থাপনা আউটপুট ইত্যাদির সুবিধা নিতে পারেন।


7

ডেটা ক্যাম্পের সাম্প্রতিক তুলনাটি আর এবং পাইথন সম্পর্কে স্পষ্ট চিত্র সরবরাহ করে।

ডেটা বিশ্লেষণ ক্ষেত্রে এই দুটি ভাষার ব্যবহার। যখন ডেটা বিশ্লেষণের কার্যগুলি ওয়েব অ্যাপ্লিকেশনগুলির সাথে সংহত করা প্রয়োজন হয় বা যদি পরিসংখ্যান কোডটিকে একটি প্রোডাকশন ডাটাবেসে অন্তর্ভুক্ত করা দরকার হয় তখন পাইথনটি সাধারণত ব্যবহৃত হয়। R বিশিষ্টভাবে ব্যবহৃত হয় যখন ডেটা বিশ্লেষণের কার্যগুলিতে স্বতন্ত্র সার্ভারগুলিতে স্বতন্ত্র কম্পিউটিং বা বিশ্লেষণের প্রয়োজন হয়।

আমি এই ব্লগে এটি এত কার্যকর হিসাবে পেয়েছি এবং আশা করি এটি অন্যদেরও এই উভয় ভাষায় সাম্প্রতিক প্রবণতা বুঝতে সহায়তা করবে। জুলিয়াও এলাকায় উঠে আসছে। আশাকরি এটা সাহায্য করবে !


6

আমি বিশ্বাস করি পাইথন আমার ক্ষেত্রে একটি উচ্চতর ওয়ার্কবেঞ্চ। আমি প্রচুর স্ক্র্যাপিং, ডেটা র্যাংলিং, বড় ডেটা ওয়ার্ক, নেটওয়ার্ক এনালাইসিস, বায়েসিয়ান মডেলিং এবং সিমুলেশন করি। এই সমস্ত জিনিসের সাধারণত গতি এবং নমনীয়তা প্রয়োজন তাই আমি পাইথনকে এই ক্ষেত্রে আর এর চেয়ে আরও ভালভাবে কাজ করতে পারি। পাইথন সম্পর্কে আমার পছন্দ মতো কয়েকটি জিনিস এখানে রয়েছে (কিছু উপরে উল্লিখিত রয়েছে, অন্যান্য বিষয়গুলি নয়):

-ক্লেয়ার সিনট্যাক্স; আরও পঠনযোগ্য কোড। আমি বিশ্বাস করি পাইথন আরও আধুনিক এবং সিন্ট্যাক্টিক্যালি সামঞ্জস্যপূর্ণ ভাষা হতে পারে।

-পাইথনের কাছে নোটবুক, আইপথন এবং কোড ভাগ করে নেওয়া, সহযোগিতা, প্রকাশনা সম্পর্কিত অন্যান্য আশ্চর্যজনক সরঞ্জাম রয়েছে।

-iPython এর নোটবুকটি একজনকে পাইথন কোডে আর ব্যবহার করতে সক্ষম করে যাতে আরে ফিরে যাওয়া সর্বদা সম্ভব is

সিটিতে আশ্রয় না করেই দ্রুততর গতিযুক্ত সিথন, নুম্বা এবং সি সংহতকরণের অন্যান্য পদ্ধতিগুলি আপনার কোডকে খাঁটি সি এর সাথে তুলনীয় গতিতে রাখবে, আমি যতটা অবগত রয়েছি, আর এ আর অর্জন করা যায় না।

-প্যান্ডাস, নম্পি এবং স্কিপি স্ট্যান্ডার্ড আর থেকে জল বের করুন। হ্যাঁ, কয়েকটি জিনিস যা আর সি একটি লাইনে করতে পারে তবে পান্ডাস 3 বা 4 নেয় general সাধারণভাবে, তবে পান্ডস বড় ডেটা সেট পরিচালনা করতে পারে, এটি ব্যবহার করা সহজ, এবং অন্যান্য পাইথনের সাথে সংহতকরণের ক্ষেত্রে অবিশ্বাস্য নমনীয়তা সরবরাহ করে provides প্যাকেজ এবং পদ্ধতি।

-পাইথন আরও স্থিতিশীল। আরস্টুডিওতে 2 জিগের ডেটাসেট লোড করার চেষ্টা করুন।

-পথটি উল্লিখিত মনে হয় না যে একটি ঝরঝরে প্যাকেজ হ'ল পাইএমসি 3 - আপনার বেশিরভাগ বয়েসিয়ান মডেলিংয়ের জন্য দুর্দান্ত সাধারণ প্যাকেজ।

- কিছু, উপরে ggplot2 উল্লেখ করুন এবং পাইথন থেকে এর অনুপস্থিতি সম্পর্কে গ্রাব। যদি আপনি কখনও মাতালাবের গ্রাফিং কার্যকারিতা এবং / বা পাইথনে ম্যাটপ্লোটিলিব ব্যবহার করেন তবে আপনি জানতে পারবেন যে পরবর্তী বিকল্পগুলি ggplot2 এর চেয়ে সাধারণত অনেক বেশি সক্ষম।

তবে সম্ভবত আর শেখা সহজ এবং আমি মডেলিংয়ের পদ্ধতিগুলির সাথে এখনও খুব বেশি পরিচিত না এমন ক্ষেত্রে আমি প্রায়শই এটি ব্যবহার করি। সেক্ষেত্রে আর-অফ-শেল্ফের পরিসংখ্যান পাঠাগারগুলির গভীরতা অপরাজেয়। আদর্শভাবে, আমি প্রয়োজন অনুযায়ী ব্যবহার করতে সক্ষম হতে যথেষ্ট উভয়ই জানতে পারি।


5

যাদের উইন্ডোজের অধীনে কাজ করতে হয় তাদের জন্য অ্যানাকোন্ডা ( https://store.continuum.io/cshop/anaconda/ ) সত্যিই অনেক সাহায্য করে। উইন্ডোজ অধীনে প্যাকেজ ইনস্টল করা মাথা ব্যথা ছিল। অ্যানাকোন্ডা ইনস্টল করার পরে, আপনি ওয়ান-লাইনারের সাহায্যে ব্যবহারের জন্য প্রস্তুত তৈরি পরিবেশ নির্ধারণ করতে পারেন।

উদাহরণস্বরূপ, সাথে

conda create -n stats_env python pip numpy scipy matplotlib pandas

এই সমস্ত প্যাকেজগুলি আনা এবং স্বয়ংক্রিয়ভাবে ইনস্টল করা হবে।


5

আরটির সাথে তুলনা করার আগে পাইথনের অনেক দীর্ঘ পথ রয়েছে। এর তুলনায় আর এর চেয়ে কম প্যাকেজ রয়েছে এবং নিম্নমানের। যে সমস্ত লোকেরা বেসিকগুলিতে লেগে থাকে বা কেবল তাদের কাস্টম লাইব্রেরিতে নির্ভর করে তারা পাইথনে কেবল তাদের কাজটি করতে পারে তবে আপনি যদি আরও উন্নত পরিমাণগত সমাধানের প্রয়োজন হন তবে আমি সাহস করে বলতে পারি যে সেখানে আর কিছুতেই আসে না।

এটিও লক্ষ করা উচিত যে আজ অবধি পাইথনের আর-স্টুডিওর সাথে তুলনা করার মতো উপযুক্ত বৈজ্ঞানিক মতলব-স্টাইলের আইডিই নেই (দয়া করে স্পাইডারকে বলবেন না) এবং আপনার কনসোলে সমস্ত কিছু করা দরকার। সাধারণভাবে বলতে গেলে, পুরো পাইথন অভিজ্ঞতার জন্য বেশিরভাগ লোকের ঘাটতি এবং যত্ন নেই এমন "গিকনেস" প্রয়োজন।

আমাকে ভুল করবেন না, আমি পাইথনকে ভালবাসি, এটি আসলে আমার প্রিয় ভাষা যা আর এর মতো নয়, একটি বাস্তব প্রোগ্রামিং ভাষা। তবুও, যখন খাঁটি ডেটা বিশ্লেষণের বিষয়টি আসে তখন আমি আর এর উপর নির্ভরশীল যা এখন পর্যন্ত সর্বাধিক বিশেষায়িত এবং বিকাশযুক্ত সমাধান। যখন আমি সফ্টওয়্যার ইঞ্জিনিয়ারিংয়ের সাথে ডেটা বিশ্লেষণ একত্রিত করতে চাই তখন আমি পাইথন ব্যবহার করি, উদাহরণস্বরূপ এমন একটি সরঞ্জাম তৈরি করুন যা আমি প্রথমে নোংরা আর স্ক্রিপ্টে যে পদ্ধতিগুলিতে প্রোগ্রাম করেছি সেগুলিতে স্বয়ংক্রিয়করণ সম্পাদন করবে। অনেক ক্ষেত্রে আমি পাইথন থেকে আর কল করতে আরপিপি 2 ব্যবহার করি কারণ বেশিরভাগ ক্ষেত্রে আর প্যাকেজগুলি অনেক বেশি ভাল (বা পাইথনে কিছুতেই নেই)। এইভাবে আমি উভয় বিশ্বের সেরা পাওয়ার চেষ্টা করি।

আমি এখনও গাণিতিক-স্টাইলের সিনট্যাক্স এবং গতি পছন্দ করায় খাঁটি অ্যালগরিদম বিকাশের জন্য কিছু মতলব ব্যবহার করি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.