আমি আমার পাঠ্য ডেটাতে শ্রেণিবদ্ধকরণ করতে চাই। আমার কাছে 300 classesপ্রতি ক্লাসে 200 টি প্রশিক্ষণ দলিল রয়েছে (তাই 60000 documents in total) এবং এর ফলে খুব উচ্চ মাত্রিক ডেটা হতে পারে (আমরা সম্ভবত 1 মিলিয়ন মাত্রার চেয়ে বেশি খুঁজছি )।
আমি পাইপলাইনে নিম্নলিখিত পদক্ষেপগুলি সম্পাদন করতে চাই (কেবলমাত্র আমার প্রয়োজনীয়তাগুলি কী তা আপনাকে বোঝাতে):
- প্রতিটি নথি বৈশিষ্ট্য ভেক্টরে রূপান্তর করা (
tf-idfবাvector space model) Feature selection(Mutual Informationঅগ্রাধিকার ভিত্তিতে বা অন্য কোনও মানক ভিত্তিতে)- ক্লাসিফায়ার প্রশিক্ষণ (
SVM,Naive Bayes,Logistic RegressionবাRandom Forest) - প্রশিক্ষিত শ্রেণিবদ্ধ মডেলের উপর ভিত্তি করে অদেখা তথ্যের পূর্বাভাস।
সুতরাং প্রশ্নটি হ'ল আমি এ জাতীয় উচ্চ মাত্রিক ডেটা পরিচালনা করার জন্য কোন সরঞ্জামগুলি / কাঠামো ব্যবহার করি? আমি সাধারণ সন্দেহভাজন (আর, ডব্লিউইকিএ ...) সম্পর্কে সচেতন তবে আমার জ্ঞান যতদূর যায় (আমি ভুল হতে পারি) সম্ভবত তাদের কেউই এই বৃহত ডেটা পরিচালনা করতে পারে না। শেল্ফ সরঞ্জামটি বন্ধ করে দেওয়া অন্য কোনও কি আছে যা আমি দেখতে পেলাম?
যদি আমাকে এর সমান্তরাল করতে হয় তবে আমি কি আপাচি মাহাউটের দিকে তাকিয়ে থাকব ? দেখে মনে হচ্ছে এটি এখনও আমার প্রয়োজনীয় কার্যকারিতা সরবরাহ করতে পারে না।
সকলকে আগাম ধন্যবাদ।
আপডেট: আমি এই ওয়েবসাইটটি , আর মেলিংয়ের তালিকা এবং সাধারণভাবে ইন্টারনেট ঘুরে দেখেছি । আমার কাছে মনে হচ্ছে নিম্নলিখিত পরিস্থিতিতে আমার পরিস্থিতিতে উত্থাপিত হতে পারে:
(1) আর ( বিশেষত টিএম প্যাকেজ) ব্যবহার করে আমার ডেটা প্রেরোসেসিং অযৌক্তিক হতে পারে , যেহেতু নিষিদ্ধভাবেtm ধীর হবে।
(২) যেহেতু আমার আর প্যাকেজগুলির একটি সংকলন (প্রাক প্রসেসিং, স্পার্স ম্যাট্রিক্স, শ্রেণিবদ্ধ ইত্যাদি) ব্যবহার করা দরকার প্যাকেজগুলির মধ্যে আন্তঃব্যবযোগিতা একটি সমস্যা হয়ে উঠতে পারে এবং ডেটা এক ফর্ম্যাট থেকে অন্য রূপান্তর করার ক্ষেত্রে আমি অতিরিক্ত ওভারহেড নিতে পারি may । উদাহরণস্বরূপ, আমি যদি আমার প্রাক-প্রক্রিয়াকরণটি tm(বা ডাব্লুইএইচএর মতো বাহ্যিক সরঞ্জাম) ব্যবহার করে করি তবে আমার এই ডেটাটিকে এমন ফর্মের মধ্যে রূপান্তর করার একটি উপায় বের করতে হবে যা আর এইচপিসি লাইব্রেরি পড়তে পারে। এবং আবার এটি আমার কাছে পরিষ্কার নয় যে শ্রেণিবদ্ধ প্যাকেজগুলি এইচপিসি লাইব্রেরি দ্বারা সরবরাহিত ডেটা সরাসরি গ্রহণ করবে কিনা।
আমি কি সঠিক পথে রয়েছি? এবং আরও গুরুত্বপূর্ণ, আমি কি বোধগম্য করছি?
foreachআর এ লাইব্রেরি সমান্তরাল কোড লেখার জন্য ব্যবহার করতে পারেন This এটি এলোমেলো বনগুলির সাথে মিলিতভাবে বিশেষত ভাল কাজ করে যা অন্তর্নিহিত সমান্তরালভাবে সহজ।