বড় ডেটাসেটগুলি মোকাবেলার জন্য পরিসংখ্যান এবং ডেটা মাইনিং সফটওয়্যার সরঞ্জাম


27

বর্তমানে আমাকে প্রায় 20 এম রেকর্ড বিশ্লেষণ করতে হবে এবং পূর্বাভাসের মডেলগুলি তৈরি করতে হবে। এখনও অবধি আমি স্টাটিস্টিকা, এসপিএসএস, র‌্যাপিডমিনার এবং আর চেষ্টা করেছি এই স্ট্যাটিস্টিকাকে ডেটা মাইনিংয়ের সাথে মোকাবিলা করার পক্ষে সবচেয়ে উপযুক্ত বলে মনে হয় এবং র‌্যাপিডমিনার ইউজার ইন্টারফেসও খুব সহজ তবে এটি মনে হয় যে স্ট্যাটিস্টিকা, র‌্যাপিডমিনার এবং এসপিএসএস কেবলমাত্র ছোট ডাটাবেসের জন্য উপযুক্ত ।

বড় ডেটাসেটের জন্য কেউ কি কোনও ভাল সরঞ্জামের প্রস্তাব দিতে পারেন?

তোমাকে ধন্যবাদ!


6
আপনি কি আরও কিছু নির্দিষ্ট হতে পারেন? আপনি ডেটা মাইনে আসলে কী চান এবং এটি কীভাবে করার পরিকল্পনা করছেন? আমি আপনার মতো অনুরূপ আকারের রেকর্ড বিশ্লেষণ করতে আর ব্যবহার করেছি এবং এটি কোনও খারাপ অভিজ্ঞতা ছিল না।
সানকুলসু

এই প্রশ্নটি দ্রুত তারিখ হতে চলেছে। এই জাতীয় সরঞ্জামগুলিতে সর্বশেষের জন্য একটি আধা-বার্ষিক রাউন্ডআপ (উইকি) রাখা ভাল হতে পারে।
Iterator

উত্তর:


19

আমি @ সানকুলসু মন্তব্য দ্বিতীয় করব: আপনার ডেটা সেটের মাত্রিকতা কেবলমাত্র একটি নির্দিষ্ট মাপদণ্ড নয় যা আপনাকে নির্দিষ্ট সফ্টওয়্যারটির দিকে চালিত করে। উদাহরণস্বরূপ, আপনি যদি কেবল অকার্যকর ক্লাস্টারিং করতে বা পিসিএ ব্যবহার করার পরিকল্পনা করছেন, তবে এমন বেশ কয়েকটি উত্সর্গীকৃত সরঞ্জাম রয়েছে যা জেনোমিক স্টাডিতে সাধারণত দেখা যায় এমন বিশাল ডেটা সেটগুলির সাথে লড়াই করে।

এখন, আর (b৪ বিট) বড় ডেটা হ্যান্ডেল করে, এবং আপনার কাছে র‌্যাম অ্যাক্সেসের পরিবর্তে ডিস্ক স্টোরেজ ব্যবহার করার বিকল্প রয়েছে তবে সিআরএএন টাস্ক ভিউ উচ্চ-পারফরম্যান্স এবং আর এর সাথে সমান্তরাল কম্পিউটিং দেখুন । স্ট্যান্ডার্ড জিএলএম সহজেই 20,000 ডলারের সমন্বয় করবে। (তবে স্পিডগ্লিমও দেখুন ) নীচের মতো দেখানো হয়েছে:

> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
   user  system  elapsed
  0.361   0.018    0.379

আরও দৃ concrete় চিত্র দেওয়ার জন্য, আমি বড় জিনগত তথ্য প্রক্রিয়াকরণ এবং বিশ্লেষণ করতে আর ব্যবহার করেছি (800 ব্যক্তি এক্স 800 কে এসএনপি , যেখানে প্রধান পরিসংখ্যানের মডেলটি ছিল বেশ কয়েকটি কোভরিয়েট (2 মিনিট) সহ একটি স্তরিত জিএলএম; দক্ষ আর এর জন্য এটি সম্ভব ধন্যবাদ তৈরি করা হয়েছিল এবং স্ন্যাপম্যাট্রিক্স প্যাকেজে সি কোডগুলি পাওয়া যায় (তুলনায়, একই ধরণের মডেল একটি ডেডিকেটেড সি ++ সফটওয়্যার ( প্লিংক ) ব্যবহার করে প্রায় 8 মিনিট সময় নিয়েছিল I আমি একটি ক্লিনিকাল স্টাডিতেও কাজ করেছি (12 কে রোগীদের এক্স 50 ভেরিয়েবল) এবং আর আমার প্রয়োজন মাপসই করে অবশেষে, যতদূর আমি জানি, lme4 প্যাকেজটি হ'ল একমাত্র সফ্টওয়্যার যা ভারসাম্যহীন এবং বৃহত ডেটা সেটগুলির সাথে মিশ্রিত-প্রভাব মডেলগুলিকে ফিট করতে দেয় (বড় আকারের শিক্ষাগত মূল্যায়নের ক্ষেত্রে এটি রয়েছে)।

স্টাটা / এসই হ'ল আরও একটি সফ্টওয়্যার যা বড় ডেটা সেট হ্যান্ডেল করতে পারে । এসএএস এবং এসপিএসগুলি ফাইল ভিত্তিক সফ্টওয়্যার, তাই তারা প্রচুর পরিমাণে ডেটা পরিচালনা করবে। ডেটা মাইনিংয়ের জন্য সফ্টওয়্যারটির তুলনামূলক পর্যালোচনা ডেটা মাইনিং সরঞ্জামগুলিতে পাওয়া যায়: সিআরএমের জন্য কোনটি সেরা । দেখার জন্য, প্রচুর বিকল্প রয়েছে; হয়তো ভালো শুরু বৃহৎ ডেটাসেট এর গ্রাফিক্স: একটি মিলিয়ন visualizing ( পর্যালোচনা পি Murrell দ্বারা জনসংহতি মধ্যে), এবং এই সাইটের সব সংশ্লিষ্ট থ্রেড।


@ সিএইচএল: আপনি এখনও 64৪-বিট আর এর জন্য কার্যকর সমান্তরাল কম্পিউটিং সমাধান খুঁজে পেয়েছেন? যখন আমি সর্বশেষ দেখেছি (এই গ্রীষ্মের শেষের দিকে) কেবলমাত্র অ-বাণিজ্যিক লোকেরা কেবল 32-বিট আর-তে কাজ করতে দেখা গেছে
শুক্রবার

1
@ শুভ নাহ বৃহত জেনেটিক ডেটা সেটগুলি পরিচালনা করতে আমাকে গত বছর b৪ বিটের দিকে যেতে হয়েছিল, তবে আমরা যে পরিসংখ্যানের মডেলগুলি ব্যবহার করেছি সেগুলি সমান্তরালকরণের জন্য কল দেয় না (যতদূর আমি জানি)। আমি ভেবেছিলাম আর এর জন্য ওপেনএমপি বাইন্ডিং রয়েছে তবে এটি আরও তদন্ত করে নি। আমি জানি বিপ্লব বিশ্লেষণগুলি এই অর্থে চেষ্টা করেছে ( j.mp/d7dFb5 ), তবে এখনও 32 বিটে (এটি সম্ভবত আপনি উল্লেখ করেছেন)। এর মধ্যে আমি আর / প্যারালাল ( rparallel.org ) পেয়েছি , তবে এটি কতটা নির্ভরযোগ্য / পরিণত তা আমি জানি না।
chl

@ সিএইচএল আমি এগুলি সব চেষ্টা করেছিলাম কিন্তু তাদের কোনওরই কাজ করতে পারি নি।
হোবার

@ শুবার: আপনি উইন্ডোতে বা একটি * নিক্স বাক্সে (ম্যাক, লিনাক্স, ...)
ইউজার 603

2
আমি আপনাকে উবুন্টু (গুগল 'ডাউনলোড উবুন্টু') ইনস্টল করতে এবং ভার্চুয়ালবক্সের মাধ্যমে আপনার উইন্ডো-কেবল অ্যাপ্লিকেশনগুলি চালানোর পরামর্শ দিচ্ছি ( youtube.com/watch?v=KXgKnd-u2R4 )। আর ও ল্যাটেক্স সম্পাদকরা কবজির মতো উবুন্টুতে চালিত হন।
ব্যবহারকারী 60

8

উচ্চ-মাত্রিক ডেটা সহ, অ্যাপাচি মাহাউট স্কেলের বেশিরভাগ অ্যালগরিদম এমনকি 20 এম রেকর্ডের বাইরেও। যদি আপনার কেবলমাত্র ভবিষ্যদ্বাণী মডেল তৈরি করতে হয় তবে ভোপাল ওয়াবিট (http://hunch.net/~vw/) এর মতো নির্দিষ্ট সরঞ্জাম রয়েছে যা সহজেই একটি একক মেশিনে বিলিয়ন বিলিয়ন রেকর্ড স্কেল করতে পারে।


দুর্দান্ত ... আমি সে সম্পর্কে অবগত ছিলাম না!
chl

7

নেই RHIPE প্যাকেজ (আর-Hadoop এর ইন্টিগ্রেশন)। এটি আর-তে প্রচুর পরিমাণে ডেটা বিশ্লেষণ করা খুব সহজ (ব্যতিক্রম সহ) করতে পারে।


এটি দিয়ে আপনার সাফল্য আছে? যদি হ্যাঁ, তবে কী ধরনের প্রয়োগের জন্য?
chl

হ্যাঁ, RHIPE দুর্দান্ত। আমার কিছু বন্ধু এটি ইন্টারনেট ট্র্যাফিক ডেটা বিশ্লেষণ করতে ব্যবহার করে। তাদের লক্ষ্যগুলির মধ্যে একটি হ'ল ব্রেক-ইন চেষ্টার মডেল। এ জাতীয় ক্ষেত্রে ডেটা বিশাল, পেটাবাইট সাধারণ!
সানকুলসু

4

কী ধরণের মডেল আপনার মনে রয়েছে তা না জেনে কোনও ভাল উত্তর দেওয়া শক্ত।

লিনিয়ার রিগ্রেশন এর জন্য আমি আর- তে সফলভাবে বিগলম প্যাকেজটি ব্যবহার করেছি


4

যেহেতু আপনি বড় ডেটাসেট থেকে ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করছেন আপনি গুগলের বিগকুয়েরি থেকে উপকৃত হতে পারেন (ড্রেমেলের সাথে বিশাল ডেটাসেট বিশ্লেষণে গুগলের গবেষণা কাগজ থেকে প্রযুক্তির একটি হোস্ট সংস্করণ) benefit উদাহরণস্বরূপ, ভবিষ্যদ্বাণীমূলক শ্রেণিবদ্ধে অন্তর্ভুক্তির জন্য আপনি সিএসভি হিসাবে ক্যোয়ারির ফলাফলগুলি রফতানি করতে পারেন।

বিগকুয়ারিতে একটি ওয়েবউআই রয়েছে যা আপনাকে ক্যোয়ারী চালাতে এবং ফলাফল রফতানি করার অনুমতি দেয়। বিগকোয়ারির বিটা (ভি 1) সংস্করণটিতে একটি আর ক্লায়েন্ট বৈশিষ্ট্যযুক্ত, এবং উত্পাদন সংস্করণ (v2) অবশেষে একটি আর ক্লায়েন্টও থাকবে।


3

আমরা ইসি 2 ইভেন্টে 32 গিগাবাইট র‌্যাম এবং 4 টি কোর সহ M৪ বিট আর ব্যবহার করে M.৫ এম পর্যবেক্ষণ এবং 44 টি বৈশিষ্ট্য প্রশিক্ষণ দিয়েছি। আমরা এলোমেলো বন ব্যবহার করেছি এবং এটি ভাল কাজ করেছে। নোট করুন যে প্রশিক্ষণের আগে আমাদের ডেটা প্রিপ্রসেস / হেরফের করতে হয়েছিল।


3

এসএএস এন্টারপ্রাইজ মাইনার সংস্করণ 6.2 ​​এ 20 মিলিয়ন পর্যবেক্ষণ এবং বিভিন্ন পরিস্থিতিতে বিভিন্ন মডেল যা আপনার পরিস্থিতির সাথে খাপ খাইয়ে নিতে পারে তাতে কোনও সমস্যা হবে না have এসএএসের সাথে ইস্যুটি সাধারণত ব্যয় হয়। এসএএস ইএম কী করতে পারে তার এখানে একটি সংক্ষিপ্তসার রয়েছে: এসএএস ইএম 6.2: নতুন কী


0

আপনি ScaVis ( http://jwork.org/scavis ) তাকান? আমি 20 এম এর দিকে তাকাতে পারি নি তবে আপনি এটি পরীক্ষা করার চেষ্টা করতে পারেন।


0

RHIPE একটি দুর্দান্ত সমাধান, এবং এই সমস্যাটি থাকলে আমি সম্ভবত এটি বেছে নেব! তবে আপনি এনসিএসএস বিবেচনা করেছেন? আমি যতদূর জানি, নতুন সংস্করণ 10 এই মডেলগুলি তৈরি করতে পারে। সম্পূর্ণ ভার। খুব ব্যয়বহুল, তবে বেশ কয়েকটি রিমোট ডেস্কটপ পরিষেবাগুলিতে আপনি কেবলমাত্র একটি সামান্য পারিশ্রমিকের জন্য অ্যাপটি চালাতে পারবেন তবে আমি চাই না .. বরং এটি পরীক্ষা করে দেখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.