সর্বনিম্ন মেমরি ব্যবহার করে প্রশিক্ষণের ডেটা সবচেয়ে কার্যকর উপায় কি?


10

এটি আমার প্রশিক্ষণের ডেটা: 200,000 উদাহরণ x 10,000 বৈশিষ্ট্য। সুতরাং আমার প্রশিক্ষণের ডেটা ম্যাট্রিক্স হ'ল - 200,000 x 10,000।

আমি প্রতিটি উদাহরণস্বরূপ বৈশিষ্ট্য উত্পন্ন করার সাথে সাথে প্রতিটি ডাট্যাসেটকে একে একে একের পর এক সংরক্ষণ করে মেমরি সমস্যা না করে একটি ফ্ল্যাট ফাইলে সংরক্ষণ করতে সক্ষম হয়েছি।

তবে, এখন আমি যখন দুধ , এসভিএম লাইট বা অন্য কোনও মেশিন লার্নিং অ্যালগরিদম ব্যবহার করি তখন সমস্ত কিছু একে একে প্রশিক্ষণের পরিবর্তে পুরো প্রশিক্ষণের ডেটা মেমরিতে লোড করার চেষ্টা করে। তবে আমার সবেমাত্র 8 জিবি র‌্যাম রয়েছে, তাই আমি এইভাবে এগিয়ে যেতে পারছি না।

আপনি কি জানেন যে কোনওভাবেই আমি অ্যালগরিদমকে একটি ডেটাसेट দ্বারা একটি ডেটাসেট প্রশিক্ষণ দিতে পারি? অর্থাত্, যাতে কোনও তাত্ক্ষণিক সময়ে আমি কেবল একটি প্রশিক্ষণ নেওয়ার সময় মেমরিতে লোড করি dat


1
"প্রতিটি ডাটাসেটকে একে একে সংরক্ষণ করুন" বলতে কী বোঝ? আপনি কি "ডেটার প্রতিটি লাইন" বলতে চান? আপনার যদি একাধিক ডেটাসেট থাকে, যা আপনি একে একে সংরক্ষণ করেন, কেন সেগুলি একে একে লোড করবেন না এবং প্রতিটিটির সাথে অ্যালগরিদম ফিট করবেন না কেন?
জাচ

1
"এক উপাত্তের দ্বারা একটি ডেটাসেট" কি লাইন দ্বারা লাইন বোঝায়? অর্থাত্ একটি ডেটাসেট = 10000 বৈশিষ্ট্য? যদি এটি হয় তবে অনলাইন অ্যালগরিদমগুলি এমন কিছু হতে পারে যা আপনি সন্ধান করছেন, দেখুন: en.wikedia.org/wiki/Online_algorithm এবং en.wikedia.org/wiki/Online_machine_learning । অনেকগুলি মেশিনের ধারক অ্যালগরিদমগুলির জন্য অনলাইন সংস্করণ বিদ্যমান রয়েছে, উদাহরণস্বরূপ এসভিএম এবং এলোমেলো বন।
হেরা হু

ধন্যবাদ .. জ্যাচ এবং হেরা। আমি আরও স্পষ্টভাবে একের পর এক সংজ্ঞা দেওয়ার জন্য প্রশ্নটি সম্পাদনা করেছি। এবং হ্যাঁ, আমি অনলাইন লার্নিংয়ের কথা ভাবছিলাম কিন্তু কখনও কখনও অনলাইন অ্যালগরিদমগুলি সম্পর্কে ভাবি নি, আমাকে এটি পড়তে দিন এবং এটি ব্যবহার করে দেখতে দিন।
ম্যাডকোড

উত্তর:


4

আমি বিশ্বাস করি লার্নিং এই ধরনের শব্দ আউট-অফ-কোর লার্নিং। একটি পরামর্শ হ'ল স্বল ওয়াব্বিট , এতে একটি সুবিধাজনক আর লাইব্রেরি রয়েছে , পাশাপাশি অন্যান্য অনেক ভাষার লাইব্রেরি রয়েছে।


এটি ইনস্টল করার সময় আমার নির্ভরতার সমস্যা রয়েছে। আমি কেন এটি পেয়েছি সে সম্পর্কে আপনার কোনও ধারণা আছে? bit.ly/L939DO
ম্যাডকোড

@ এমডকোড আমি বাস্তবে কখনও স্বরযুক্ত ওয়াববিট ব্যবহার করি নি, তাই এটি ইনস্টল করতে আমি আপনাকে সহায়তা করতে পারি না। আমি শুনেছি তাদের মেলিং তালিকাটি দুর্দান্ত, এবং আমি নিশ্চিত যে এটি স্থাপনের জন্য আপনি সেখানে সহায়তা পেতে পারেন।
জাচ

Hey..Zach। এটা ভাল কাজ করে। আমি এটি ইনস্টল পেয়েছি এবং এমনকি আমার পূর্বাভাসও দিয়েছি। ধন্যবাদ :-)
ম্যাডকোড

1

আমি আন্তরিকভাবে দ্বিতীয় জাচের পরামর্শ। স্বরযুক্ত ওয়াব্বিট একটি দুর্দান্ত বিকল্প, এবং আপনি এর গতিতে অবাক হবেন। 200k বাই 10 কে ডেটা-সেটটি ভোপাল ওয়াব্বিটের নিয়মগুলির দ্বারা বড় হিসাবে বিবেচিত হয় না।

vowpal_wabbit ( উবুন্টু মহাবিশ্বের একটি স্ট্যান্ডার্ড প্যাকেজ হিসাবে https://github.com/JohnLangford/vowpal_wabbit এর মাধ্যমে উত্স আকারে উপলভ্য) খুব নমনীয় ইনপুট সহ একটি দ্রুত অনলাইন রৈখিক + বিলাইনার লার্নার। আপনি বাইনারি এবং সংখ্যাযুক্ত-মূল্যবান বৈশিষ্ট্যগুলি মিশ্রিত করতে পারেন। পরিবর্তনশীল নামগুলি "যেমন আছে" তেমন কাজ করবে বলে বৈশিষ্ট্যগুলি সংখ্যায়িত করার দরকার নেই। এটিতে প্রচুর বিকল্প, অ্যালগরিদম, হ্রাস, হ্রাস-কার্যকারিতা এবং সর্বোপরি দুর্দান্ত নমনীয়তা রয়েছে। আপনি মেলিং তালিকায় যোগ দিতে পারেন (গিথুবের মাধ্যমে এটি সন্ধান করুন) এবং কোনও প্রশ্ন জিজ্ঞাসা করতে পারেন। সম্প্রদায়টি খুব জ্ঞাত এবং সমর্থক।


1

আমি অনুরূপ প্রশ্নের উত্তর এখানে । পয়েন্ট হ'ল মেশিন লার্নিং / ডেটা মাইনিং অ্যালগরিদমগুলি ব্যাচ শিখার যে তারা সমস্ত ডেটা মেমোরিতে লোড করে। অতএব আপনার মতো খুব বড় ডেটা সেটগুলির জন্য আপনার বিভিন্ন সরঞ্জামের প্রয়োজন। প্রশ্নগুলির সরঞ্জামগুলিও দেখুন।

অ্যালগরিদমের মেমরির পদচিহ্ন হ্রাস করার একটি উপায় হল অনলাইন লার্নিং।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.