আমি @ সানকুলসু মন্তব্য দ্বিতীয় করব: আপনার ডেটা সেটের মাত্রিকতা কেবলমাত্র একটি নির্দিষ্ট মাপদণ্ড নয় যা আপনাকে নির্দিষ্ট সফ্টওয়্যারটির দিকে চালিত করে। উদাহরণস্বরূপ, আপনি যদি কেবল অকার্যকর ক্লাস্টারিং করতে বা পিসিএ ব্যবহার করার পরিকল্পনা করছেন, তবে এমন বেশ কয়েকটি উত্সর্গীকৃত সরঞ্জাম রয়েছে যা জেনোমিক স্টাডিতে সাধারণত দেখা যায় এমন বিশাল ডেটা সেটগুলির সাথে লড়াই করে।
এখন, আর (b৪ বিট) বড় ডেটা হ্যান্ডেল করে, এবং আপনার কাছে র্যাম অ্যাক্সেসের পরিবর্তে ডিস্ক স্টোরেজ ব্যবহার করার বিকল্প রয়েছে তবে সিআরএএন টাস্ক ভিউ উচ্চ-পারফরম্যান্স এবং আর এর সাথে সমান্তরাল কম্পিউটিং দেখুন । স্ট্যান্ডার্ড জিএলএম সহজেই 20,000 ডলারের সমন্বয় করবে। (তবে স্পিডগ্লিমও দেখুন ) নীচের মতো দেখানো হয়েছে:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
আরও দৃ concrete় চিত্র দেওয়ার জন্য, আমি বড় জিনগত তথ্য প্রক্রিয়াকরণ এবং বিশ্লেষণ করতে আর ব্যবহার করেছি (800 ব্যক্তি এক্স 800 কে এসএনপি , যেখানে প্রধান পরিসংখ্যানের মডেলটি ছিল বেশ কয়েকটি কোভরিয়েট (2 মিনিট) সহ একটি স্তরিত জিএলএম; দক্ষ আর এর জন্য এটি সম্ভব ধন্যবাদ তৈরি করা হয়েছিল এবং স্ন্যাপম্যাট্রিক্স প্যাকেজে সি কোডগুলি পাওয়া যায় (তুলনায়, একই ধরণের মডেল একটি ডেডিকেটেড সি ++ সফটওয়্যার ( প্লিংক ) ব্যবহার করে প্রায় 8 মিনিট সময় নিয়েছিল I আমি একটি ক্লিনিকাল স্টাডিতেও কাজ করেছি (12 কে রোগীদের এক্স 50 ভেরিয়েবল) এবং আর আমার প্রয়োজন মাপসই করে অবশেষে, যতদূর আমি জানি, lme4 প্যাকেজটি হ'ল একমাত্র সফ্টওয়্যার যা ভারসাম্যহীন এবং বৃহত ডেটা সেটগুলির সাথে মিশ্রিত-প্রভাব মডেলগুলিকে ফিট করতে দেয় (বড় আকারের শিক্ষাগত মূল্যায়নের ক্ষেত্রে এটি রয়েছে)।
স্টাটা / এসই হ'ল আরও একটি সফ্টওয়্যার যা বড় ডেটা সেট হ্যান্ডেল করতে পারে । এসএএস এবং এসপিএসগুলি ফাইল ভিত্তিক সফ্টওয়্যার, তাই তারা প্রচুর পরিমাণে ডেটা পরিচালনা করবে। ডেটা মাইনিংয়ের জন্য সফ্টওয়্যারটির তুলনামূলক পর্যালোচনা ডেটা মাইনিং সরঞ্জামগুলিতে পাওয়া যায়: সিআরএমের জন্য কোনটি সেরা । দেখার জন্য, প্রচুর বিকল্প রয়েছে; হয়তো ভালো শুরু বৃহৎ ডেটাসেট এর গ্রাফিক্স: একটি মিলিয়ন visualizing ( পর্যালোচনা পি Murrell দ্বারা জনসংহতি মধ্যে), এবং এই সাইটের সব সংশ্লিষ্ট থ্রেড।