আমি প্রায় 5 বছর ধরে পেশাগতভাবে এসএএস ব্যবহার করছি। আমি এটি আমার ল্যাপটপে ইনস্টল করেছি এবং প্রায়শই 1,000-2,000 ভেরিয়েবল এবং কয়েক লক্ষ লক্ষ পর্যবেক্ষণ সহ ডেটাসেটগুলি বিশ্লেষণ করতে হয়।
আমি এসএএস এর বিকল্পগুলি সন্ধান করছি যা আমাকে অনুরূপ আকারের ডেটা সেটগুলিতে বিশ্লেষণ পরিচালনা করতে দেয়। অন্যান্য ব্যক্তিরা এ জাতীয় পরিস্থিতিতে কী ব্যবহার করে তা আমি আগ্রহী। এটি অবশ্যই আজকের পদ্ধতিতে "বিগ ডেটা" নয়। বা আমার ডেটাসেটগুলি স্মৃতিতে ধরে রাখতে যথেষ্ট ছোট নয়। আমার একটি সমাধান দরকার যা হার্ড ড্রাইভে থাকা ডেটাতে অ্যালগরিদম প্রয়োগ করতে পারে। এগুলি আমি তদন্ত করে লাভ করি নি:
- আর - বিগমেমরি মেমরি থেকে সঞ্চিত ম্যাট্রিক তৈরি করতে পারে তবে উপাদানগুলি একই মোডে থাকতে হবে। আমি এমন ডেটা নিয়ে কাজ করি যা চরিত্র এবং সংখ্যাগুলির মধ্যে প্রায় 50/50 বিভক্ত। এফএফ প্যাকেজটি আমার যা প্রয়োজন প্রয়োজন তার কাছাকাছি চলে যায়, তবে কোন পদ্ধতিটি এর সাথে সামঞ্জস্যপূর্ণ তা আমি পুরোপুরি বুঝতে পারি না। আমি মনে করি সমর্থন কিছুটা সীমাবদ্ধ।
- পান্ডস - আমি আর এর পাইথোনিক বিকল্পটি নিয়ে খুব আগ্রহী ছিলাম, তবে এটিও সমস্ত ডেটা মেমরির মধ্যে ধারণ করে।
- বিপ্লব আর - এই এক প্রতিশ্রুতি বেশ খানিকটা দেখায়। আমার বাড়ির কম্পিউটারে আমার একটি অনুলিপি রয়েছে (আপনি যদি কাগলের জন্য সাইন আপ করেন তবে বিনামূল্যে) এবং এটিকে এসএএসের কার্যকর বিকল্প হিসাবে পরীক্ষা করতে পারিনি। এসএএস বিকল্প হিসাবে বিপ্লব আর-এর মন্তব্যগুলি অনেক প্রশংসিত।
ধন্যবাদ
আপডেট 1
যুক্ত করতে সম্পাদনা করা হচ্ছে যে আমি বাস্তব-জীবন, ব্যবহারিক সমাধানগুলি সন্ধান করছি যা লোকেরা সফলভাবে ব্যবহার করেছে। বেশিরভাগ ক্ষেত্রে, এসএএস আমাকে মেমরির সীমাবদ্ধতাগুলি সম্পর্কে কিছুটা চিন্তা না করে বড় ফাইলগুলিতে চাগতে দেয়। তবে এসএএস বাস্তবায়িত হয়েছে, কীভাবে ব্যবহারকারীর কাছে মেমরির পরিচালনা স্বচ্ছ করা যায় তা তারা নির্ণয় করেছিলেন। তবে, এটি ভারী হৃদয়ের সাথে যে আমি আমার কাজের জন্য এসএএস ব্যবহার করেছি (আমাকে করতে হবে) এবং একটি ফস বিকল্প পছন্দ করতে চাই যা আমাকে "বৃহত" ডেটাতে কাজ করতে দেয় যেখানে ডেটা কোথায় রয়েছে তা সম্পর্কে খুব কঠোর চিন্তা না করেই নির্দিষ্ট সময় (স্মৃতিতে বা ডিস্কে)
নিকটতম যে জিনিসগুলি আমি এসেছি সেগুলি হ'ল আর এর এফএফ প্যাকেজ এবং পাইথনের দিগন্তের কিছু যা ব্লেজ নামে পরিচিত । এবং তবুও, এই সমস্যাগুলি বহু বছর ধরে রয়েছে তাই বিশ্লেষকরা এই সময়ে কী করছেন? কীভাবে তারা স্মৃতি সীমাতে এই একই সমস্যাগুলি পরিচালনা করছে? অফারের বেশিরভাগ সমাধানগুলি মনে হয়:
- আরও বেশি র্যাম পান - এটি কোনও ভাল সমাধান নয় im এমন কোনও ডেটাসেট সন্ধান করা সহজ যা র্যামকে অতিক্রম করতে পারে তবে এখনও একটি হার্ড-ড্রাইভে ফিট হয়। তদ্ব্যতীত, কাজের প্রবাহকে অনুসন্ধানের তথ্য বিশ্লেষণের সময় তৈরি হওয়া সমস্ত কাঠামোর সমন্বয় করতে হবে।
- ডেটা সাবসেট করুন - এটি অনুসন্ধানের জন্য ঠিক আছে তবে ফলাফল চূড়ান্ত করতে এবং প্রতিবেদন করার জন্য নয়। অবশেষে, একটি সাবসেটে যা কিছু প্রক্রিয়া বিকাশ করা হয়েছে তা পুরো ডেটাসেটে প্রয়োগ করতে হবে (আমার ক্ষেত্রে, যাইহোক)।
- ডেটা বিভক্ত করুন - এই লোকদের কাছ থেকে যারা এই কাজের প্রবাহটি বাস্তবায়িত করেন তাদের কাছ থেকে আমি আরও জানতে চাই। এটা কিভাবে সম্পন্ন করা হয়? কি সরঞ্জাম দিয়ে? এটি কি এমনভাবে করা যেতে পারে যা ব্যবহারকারীর কাছে স্বচ্ছ? (উদাহরণস্বরূপ, কিছু অন ডিস্ক ডেটা কাঠামো তৈরি করুন এবং ফ্রেম-ওয়ার হুডের নীচে ছাঁটাইয়ের যত্ন নেয়)।