এই মুহুর্তে কয়েকটি মূল্যবান পরিসংখ্যান বিশ্লেষণ ওপেন সোর্স প্রকল্পগুলি কী কী উপলব্ধ?
সম্পাদনা করুন: শার্পির নির্দেশিত হিসাবে, মূল্যবান বলতে আপনাকে দ্রুত বা আরও সস্তাভাবে কাজ করতে সহায়তা করতে পারে।
এই মুহুর্তে কয়েকটি মূল্যবান পরিসংখ্যান বিশ্লেষণ ওপেন সোর্স প্রকল্পগুলি কী কী উপলব্ধ?
সম্পাদনা করুন: শার্পির নির্দেশিত হিসাবে, মূল্যবান বলতে আপনাকে দ্রুত বা আরও সস্তাভাবে কাজ করতে সহায়তা করতে পারে।
উত্তর:
আর-প্রকল্প
আর এটি মূল্যবান এবং তাৎপর্যপূর্ণ কারণ এটি বিগ-বাক্স প্যাকেজগুলির প্রথম সর্বজনস্বীকৃত মুক্ত-উত্স বিকল্প ছিল alternative এটি পরিপক্ক, ভাল সমর্থনযোগ্য এবং অনেক বৈজ্ঞানিক সম্প্রদায়ের মধ্যে একটি মান।
পাইথনে বিভিন্ন MCMC কাজ করার জন্য পাইমিসি রয়েছে , যা আমি বেশ কিছুটা কাজে লাগিয়েছি । আমি পিইএমসিতে যা করতে পারি না এমন আমি বুগসে করতে পারি এমন কোনও কিছুই আমি চালাইনি এবং আপনি যেভাবে মডেলগুলি নির্দিষ্ট করেন এবং ডেটা আনেন তা আমার কাছে অনেক বেশি স্বজ্ঞাত বলে মনে হয়।
এটি বিস্মৃত হতে পারে, তবে আমি খুশিতে বহু বছর ধরে মতলব ক্লোন অক্টাভ ব্যবহার করেছি। বিভিন্ন বিতরণ, পরিসংখ্যান পরীক্ষা ইত্যাদি থেকে এলোমেলো ভেরিয়েবলের উত্সার জন্য অষ্টাভ ফরজে মোটামুটি ভাল গ্রন্থাগার রয়েছে, যদিও স্পষ্টতই এটি আর দ্বারা বামন করা হয়েছে। আর এর উপর একটি সম্ভাব্য সুবিধা হ'ল মাতলাব / অষ্টভ হ'ল সংখ্যাতাত্ত্বিক বিশ্লেষক, অপ্টিমাইজেশন গবেষকদের মধ্যে লিঙ্গুয়া ফ্রেঞ্চ , এবং প্রয়োগকৃত গণিতবিদদের কিছু উপসেট (কমপক্ষে আমি যখন স্কুলে ছিলাম), যেখানে আমার বিভাগের কেউই আমার জ্ঞানের কাছে আর.কে আমার ক্ষতি ব্যবহার করেননি। সম্ভব হলে উভয়ই শিখুন!
দুটি প্রকল্প মনে মনে বসন্ত:
ডেটা মাইনিংয়ের জন্য ওয়েকা - জাভাতে অনেক শ্রেণিবিন্যাস এবং ক্লাস্টারিং অ্যালগোরিদম রয়েছে।
ggobi "উচ্চ-মাত্রিক ডেটা অন্বেষণের জন্য একটি ওপেন সোর্স ভিজ্যুয়ালাইজেশন প্রোগ্রাম" "
ম্যাট কেলসির গিগাবাইটের জন্য ভাল 5 মিনিটের ইন্ট্রো রয়েছে ।
ইনক্যান্টার পরিসংখ্যানগত কম্পিউটিং এবং গ্রাফিক্সের জন্য ক্লোজার-ভিত্তিক, আর-জাতীয় প্ল্যাটফর্ম (পরিবেশ + লাইব্রেরি)।
এফএসএফ দ্বারা শুরু করা বা জিএনইউ জেনারেল পাবলিক লাইসেন্সের অধীনে পুনরায় বিতরণ করা সেই প্রকল্পগুলিও রয়েছে:
এমন কি এমন অ্যাপ্লিকেশন রয়েছে যা জেএমল্টির মতো পাঠ্যপুস্তকের জন্য কেবল সহচর সফ্টওয়্যার হিসাবে প্রকাশিত হয়েছিল , তবে এখনও কিছু লোক ব্যবহার করছে।
আমি এখনও সঙ্গে খেলছি xlispstat , সময়ে সময়ে, যদিও পাতার মর্মর মূলত আর (উপর জানুয়ারী ডি Leeuw এর অবলোকন দেখতে দ্বারা বাতিল করা হয়েছে পাতার মর্মর বনাম আর মধ্যে পরিসংখ্যানগত সফটওয়্যার জার্নাল )। মজার বিষয় হল, আর ভাষার অন্যতম গুপ্তচর রস ইহাকা বিপরীতে যুক্তি দিয়েছিলেন যে পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারটির ভবিষ্যত ... লিস্প: ফিউচার টু ফিউচার: লিস্প একটি স্ট্যাটিস্টিকাল কম্পিউটিং সিস্টেমের ভিত্তি হিসাবে । @Alex ইতিমধ্যে Clojure ভিত্তিক পরিসংখ্যানগত পরিবেশ তীক্ষ্ন Incanter , তাই হয়তো আমরা অদূর ভবিষ্যতে পাতার মর্মর ভিত্তিক সফ্টওয়্যারের একটি রেনেসাঁ দেখতে পাবেন? :-)
ডেটা এবং পাঠ্য খনির জন্য র্যাপিডমিনার in
সবার আগে আমি আপনাকে বলি যে আমার মতে এখন পর্যন্ত সবার সেরা হাতিয়ারটি আর, যা এখানে প্রচুর গ্রন্থাগার এবং ইউটিলিটি রয়েছে যা আমি এখানে গণনা করতে যাচ্ছি না।
আমাকে ওয়েকা সম্পর্কে আলোচনা প্রসারিত করুন
আর এর জন্য একটি লাইব্রেরি রয়েছে, যাকে বলা হয় আরউইকা, যা আপনি সহজেই আর এ ইনস্টল করতে পারেন এবং এই দুর্দান্ত প্রোগ্রামটি থেকে আর এর মধ্যে অনেকগুলি কার্যকারিতা ব্যবহার করতে পারেন, আমি আপনাকে একটি সাধারণ সিদ্ধান্ত গাছ করার জন্য একটি কোড উদাহরণ দেই এই প্যাকেজটির সাথে উপস্থিত একটি স্ট্যান্ডার্ড ডাটাবেস থেকে পড়ুন (ফলস্বরূপ গাছ আঁকানো খুব সহজ তবে আমি কীভাবে এটি করতে পারি সে সম্পর্কে গবেষণাও আপনাকে করতে যাচ্ছি, যা আরউইকা ডকুমেন্টেশনে রয়েছে:
library(RWeka)
iris <- read.arff(system.file("arff", "iris.arff", package = "RWeka"))
classifier <- IBk(class ~., data = iris)
summary(classifier)
এটি করার জন্য বেশ কয়েকটি অজগর গ্রন্থাগার রয়েছে (অজগরটি শিখতে খুব সহজ)
প্রথমে আপনি যে প্যাকেজগুলি ব্যবহার করতে পারেন তা গণনা করতে দাও, আমি সেগুলি সম্পর্কে বিশদভাবে যাচ্ছি না; ওয়েকা (হ্যাঁ, অজগরটির জন্য আপনার কাছে একটি গ্রন্থাগার রয়েছে), এনএলকেটি (ডেটামিনিংয়ের পাশাপাশি পাঠ্য মেশিনিংয়ের জন্য সর্বাধিক বিখ্যাত ওপেন সোর্স প্যাকেজ), স্ট্যাটপি , সিগেটস এবং স্কিপি।
কমলাতেও রয়েছে যা দুর্দান্ত later
import orange, orngMySQL, orngTree
data = orange.ExampleTable("c:\\python26\\orange\\cmpart1.tab")
domain=data.domain
n=10
buck=len(data)/n
l2=[]
for i in range(n):
tmp=[]
if i==n-1:
tmp=data[n*buck:]
else:
tmp=data[buck*i:buck*(i+1)]
l2.append(tmp)
train=[]
test=[]
di={'yy':0,'yn':0,'ny':0,'nn':0}
for i in range(n):
train=[]
test=[]
for j in range(n):
if j==i:
test=l2[i]
else:
train.extend(l2[j])
print "-----"
trai=orange.Example(domain, train)
tree = orngTree.TreeLearner(train)
for ins in test:
d1= ins.getclass()
d2=tree(ins)
print d1
print d2
ind=str(d1)+str(d2)
di[ind]=di[ind]+1
print di
কিছু অন্যান্য প্যাকেজ ব্যবহার করে আমি আকর্ষণীয় বলে মনে করেছি found
কমলা : নবী এবং বিশেষজ্ঞদের জন্য ডেটা ভিজ্যুয়ালাইজেশন এবং বিশ্লেষণ। ভিজ্যুয়াল প্রোগ্রামিং বা পাইথন স্ক্রিপ্টিংয়ের মাধ্যমে ডেটা মাইনিং। মেশিন শেখার জন্য উপাদান। বায়োইনফরম্যাটিকস এবং পাঠ্য খনির জন্য এক্সটেনশন। (আমি ব্যক্তিগতভাবে এটির পুনঃসংশোধন করি, অজগরটিতে এটি সংহত করার জন্য আমি এটি প্রচুর পরিমাণে ব্যবহার করেছি এবং এটি দুর্দান্ত ছিল) আপনি যদি চান তবে আমি আপনাকে কিছু পাইথন কোড পাঠাতে পারি।
ROSETTA : রুট সেট তত্ত্বের কাঠামোর মধ্যে সারণী তথ্য বিশ্লেষণের জন্য টুলকিট। রোসেটটা সামগ্রিক ডেটা মাইনিং এবং জ্ঞান আবিষ্কারের প্রক্রিয়াটিকে সমর্থন করার জন্য ডিজাইন করা হয়েছে: প্রাথমিক ব্রাউজিং এবং ডেটা প্রিপ্রোসেসিং থেকে শুরু করে ন্যূনতম বৈশিষ্ট্য সেটগুলির গণনা এবং প্রযোজনীয় নিয়ম বা নিদর্শনগুলির বৈধতা এবং বিশ্লেষণে । (এটি আমি খুব ব্যবহার করে উপভোগ করেছি)
কেইএল : রিগ্রেশন, শ্রেণিবিন্যাস, ক্লাস্টারিং, প্যাটার্ন মাইনিং সহ ডেটা মাইনিং সমস্যার জন্য বিবর্তনীয় অ্যালগরিদমগুলি মূল্যায়ন করুন। এটি আমাদের তুলনামূলকভাবে স্ট্যাটিস্টিকাল টেস্ট মডিউল সহ বিদ্যমান বিদ্যমানগুলির সাথে তুলনা করে যে কোনও শিক্ষণ মডেলের সম্পূর্ণ বিশ্লেষণ করতে সহায়তা করে।
ডেটাপ্লট : বৈজ্ঞানিক দৃশ্যায়ন, পরিসংখ্যান বিশ্লেষণ এবং অ-লিনিয়ার মডেলিংয়ের জন্য। লক্ষ্য ডেটাপ্লট ব্যবহারকারী হলেন গবেষক এবং বিশ্লেষক যা বৈজ্ঞানিক ও প্রকৌশল প্রক্রিয়াগুলির বৈশিষ্ট্য, মডেলিং, দৃশ্যায়ন, বিশ্লেষণ, পর্যবেক্ষণ এবং অপ্টিমাইজেশনে নিযুক্ত হন।
ওপেনস্ট্যাটস : একটি পরিসংখ্যান এবং পরিমাপ প্রাইমার, বর্ণনামূলক পরিসংখ্যান, সরল তুলনা, বৈকল্পিক বিশ্লেষণ, সংশোধন, একাধিক রিগ্রেশন, বিঘ্নিত সময় সিরিজ, মাল্টিভারিয়েট পরিসংখ্যান, নন-প্যারাম্যাট্রিক পরিসংখ্যান, পরিমাপ, পরিসংখ্যান প্রক্রিয়া নিয়ন্ত্রণ, আর্থিক পদ্ধতি, স্নায়ুতাল নেটওয়ার্ক, সিমুলেশন অন্তর্ভুক্ত
কলিন গিলেস্পি বিজিএস-এর কথা উল্লেখ করেছেন, তবে গিবস স্যাম্পলিং ইত্যাদির জন্য আরও ভাল বিকল্প হ'ল জেএজিএস ।
আপনি যা করতে চান তা যদি আরিমা হয় তবে আপনি এক্স 12-আরআইএমএকে পরাজিত করতে পারবেন না , যা ক্ষেত্র এবং মুক্ত উত্সের সোনার মান। এটি সত্যিকারের গ্রাফগুলি করে না (এটি করার জন্য আমি আর ব্যবহার করি), তবে ডায়াগনস্টিকগুলি তাদের নিজেরাই একটি পাঠ।
আমি সম্প্রতি আবিষ্কার করেছি এমন কিছুটির থেকে খানিকটা দূরে অভিযোজন এবং সবেমাত্র শিখতে শুরু করেছি ...
এডিএমবি (এডি মডেল বিল্ডার), যা এমসিএমসি এবং অন্যান্য কয়েকটি বৈশিষ্ট্য সহ অটোডিআইএফ লাইব্রেরির উপর ভিত্তি করে অ লিনিয়ার মডেলিং করে It এডিএমবি প্রকল্পে আর, এমএটিএলবি ইত্যাদি বাস্তবায়িত সমমানের মডেলগুলির চেয়ে দ্রুত গতিযুক্ত বলে মনে করা হচ্ছে
এটি শুরু হয়ে গেছে এবং এখনও মৎস্য বিশ্বে সবচেয়ে জনপ্রিয়, তবে অন্যান্য উদ্দেশ্যে এটি বেশ আকর্ষণীয় দেখায় looks এটিতে গ্রাফিং বা আর এর অন্যান্য বৈশিষ্ট্য নেই, এবং সম্ভবত আর এর সাথে একত্রে ব্যবহৃত হবে would
আপনি যদি কোনও জিইআইতে বায়েশিয়ান নেটওয়ার্কগুলির সাথে কাজ করতে চান: সামিয়াম একটি দুর্দান্ত সরঞ্জাম। আর এর বেশ কয়েকটি প্যাকেজ রয়েছে যা এটিও করে, তবে সামিয়াম খুব সুন্দর।
আপনারা যারা সি / সি ++ এ প্রোগ্রাম করতে চান তাদের জন্য জিএসএল একটি মূল্যবান সংস্থান কারণ এটি র্যান্ডম জেনারেটর, লিনিয়ার বীজগণিত ইত্যাদির জন্য বেশ কয়েকটি রুটিন সরবরাহ করে থাকে, যদিও জিএসএল প্রাথমিকভাবে লিনাক্সের জন্য উপলব্ধ উইন্ডোজের জন্য বন্দর রয়েছে। (দেখুন: http://gladman.plushost.co.uk/oldsite/computing/gnu_scitec_library.php এবং http://david.geldreich.free.fr/dev.html )
সিগন্যাল এবং ব্যাকগ্রাউন্ড বিতরণ এবং টিএমভিএর জন্য কিছু মূল স্ট্যান্ডার্ড সরঞ্জাম (যেমন জেনেটিক অ্যালগরিদম এবং নিউরাল নেটওয়ার্কগুলিও বিডিটিগুলি করে) যেমন মাল্টিভারিয়েট সমস্যাগুলির মডেলিংয়ের জন্য সিগন্যাল এবং ব্যাকগ্রাউন্ড বিতরণ এবং টিএমভিএর জন্য উপযুক্ত যথাযথ ফিটিংয়ের জন্য আমি সত্যিই রুফিটের সাথে কাজ করা উপভোগ করি । তারা উভয় অংশ রুট সি ++ লাইব্রেরি যা যদিও কণা পদার্থবিজ্ঞানের সমস্যার প্রতি একটি প্রশংসনীয় ভারী পক্ষপাত আছে।
ইতিমধ্যে উল্লিখিত শীর্ষে আরও কয়েকটি:
এবং স্থানিক দৃষ্টিকোণ থেকে:
আমি দ্বিতীয় যে জে। আর কেন মূল্যবান? কারণগুলির একটি সংক্ষিপ্ত তালিকা এখানে। http://www.inside-r.org/why-use-r । এছাড়াও ggplot2 দেখুন - আর এর জন্য খুব সুন্দর একটি গ্রাফিক্স প্যাকেজ Some কিছু সুন্দর টিউটোরিয়াল এখানে ।
এটি 'পরিসংখ্যান বিশ্লেষণের' বাইরের সীমাতে পড়ে, তবে ইউরেকা জেনেটিক প্রোগ্রামিংয়ের মাধ্যমে ডেটাতে ডেটা মাইনিং- লাইন সম্পর্কিত সম্পর্কের জন্য খুব ব্যবহারকারী বান্ধব প্রোগ্রাম। ইউরেকা সাধারণ উদ্দেশ্য হিসাবে নয়, তবে এটি যা ভালভাবে কাজ করে তা করে এবং জিইউআই যথেষ্ট স্বজ্ঞাত। এটি ইউরেকা সার্ভারের মাধ্যমে উপলভ্য কম্পিউটিং পাওয়ারের সুবিধাও নিতে পারে।
মেটা.নুমারিকস একটি পরিসংখ্যান বিশ্লেষণের জন্য ভাল সমর্থন সহ একটি নেট। লাইব্রেরি।
আর (একটি এস ক্লোন) এবং অক্টাভা (একটি মতলব ক্লোন) এর বিপরীতে এটির "সামনের প্রান্ত" নেই। এটি জিএসএল এর মতো, এটি একটি লাইব্রেরি যা আপনি নিজের সাথে যুক্ত যখন আপনি নিজের অ্যাপ্লিকেশন লিখছেন যা স্ট্যাটিস্টিকাল বিশ্লেষণ করা দরকার link সি # এবং ভিজ্যুয়াল বেসিক লাইন অফ বিজনেস অ্যাপ্লিকেশনগুলির জন্য সি / সি ++ এর চেয়ে বেশি সাধারণ প্রোগ্রামিং ল্যাঙ্গুয়েজ এবং মেটা.সংখ্যায় জিএসএল-এর চেয়ে পরিসংখ্যানিক গঠন এবং পরীক্ষার জন্য আরও বিস্তৃত সমর্থন রয়েছে।
সিম্বলিক গণিত সফ্টওয়্যারও পরিসংখ্যানগুলির জন্য একটি ভাল সমর্থন হতে পারে। এখানে আমি সময়ে সময়ে কয়েকটি জিপিএল ব্যবহার করি:
তিনটিই সক্রিয় বিকাশে রয়েছে।