আমি আমার পাঠ্য ডেটাতে শ্রেণিবদ্ধকরণ করতে চাই। আমার কাছে 300 classes
প্রতি ক্লাসে 200 টি প্রশিক্ষণ দলিল রয়েছে (তাই 60000 documents in total
) এবং এর ফলে খুব উচ্চ মাত্রিক ডেটা হতে পারে (আমরা সম্ভবত 1 মিলিয়ন মাত্রার চেয়ে বেশি খুঁজছি )।
আমি পাইপলাইনে নিম্নলিখিত পদক্ষেপগুলি সম্পাদন করতে চাই (কেবলমাত্র আমার প্রয়োজনীয়তাগুলি কী তা আপনাকে বোঝাতে):
- প্রতিটি নথি বৈশিষ্ট্য ভেক্টরে রূপান্তর করা (
tf-idf
বাvector space model
) Feature selection
(Mutual Information
অগ্রাধিকার ভিত্তিতে বা অন্য কোনও মানক ভিত্তিতে)- ক্লাসিফায়ার প্রশিক্ষণ (
SVM
,Naive Bayes
,Logistic Regression
বাRandom Forest
) - প্রশিক্ষিত শ্রেণিবদ্ধ মডেলের উপর ভিত্তি করে অদেখা তথ্যের পূর্বাভাস।
সুতরাং প্রশ্নটি হ'ল আমি এ জাতীয় উচ্চ মাত্রিক ডেটা পরিচালনা করার জন্য কোন সরঞ্জামগুলি / কাঠামো ব্যবহার করি? আমি সাধারণ সন্দেহভাজন (আর, ডব্লিউইকিএ ...) সম্পর্কে সচেতন তবে আমার জ্ঞান যতদূর যায় (আমি ভুল হতে পারি) সম্ভবত তাদের কেউই এই বৃহত ডেটা পরিচালনা করতে পারে না। শেল্ফ সরঞ্জামটি বন্ধ করে দেওয়া অন্য কোনও কি আছে যা আমি দেখতে পেলাম?
যদি আমাকে এর সমান্তরাল করতে হয় তবে আমি কি আপাচি মাহাউটের দিকে তাকিয়ে থাকব ? দেখে মনে হচ্ছে এটি এখনও আমার প্রয়োজনীয় কার্যকারিতা সরবরাহ করতে পারে না।
সকলকে আগাম ধন্যবাদ।
আপডেট: আমি এই ওয়েবসাইটটি , আর মেলিংয়ের তালিকা এবং সাধারণভাবে ইন্টারনেট ঘুরে দেখেছি । আমার কাছে মনে হচ্ছে নিম্নলিখিত পরিস্থিতিতে আমার পরিস্থিতিতে উত্থাপিত হতে পারে:
(1) আর ( বিশেষত টিএম প্যাকেজ) ব্যবহার করে আমার ডেটা প্রেরোসেসিং অযৌক্তিক হতে পারে , যেহেতু নিষিদ্ধভাবেtm
ধীর হবে।
(২) যেহেতু আমার আর প্যাকেজগুলির একটি সংকলন (প্রাক প্রসেসিং, স্পার্স ম্যাট্রিক্স, শ্রেণিবদ্ধ ইত্যাদি) ব্যবহার করা দরকার প্যাকেজগুলির মধ্যে আন্তঃব্যবযোগিতা একটি সমস্যা হয়ে উঠতে পারে এবং ডেটা এক ফর্ম্যাট থেকে অন্য রূপান্তর করার ক্ষেত্রে আমি অতিরিক্ত ওভারহেড নিতে পারি may । উদাহরণস্বরূপ, আমি যদি আমার প্রাক-প্রক্রিয়াকরণটি tm
(বা ডাব্লুইএইচএর মতো বাহ্যিক সরঞ্জাম) ব্যবহার করে করি তবে আমার এই ডেটাটিকে এমন ফর্মের মধ্যে রূপান্তর করার একটি উপায় বের করতে হবে যা আর এইচপিসি লাইব্রেরি পড়তে পারে। এবং আবার এটি আমার কাছে পরিষ্কার নয় যে শ্রেণিবদ্ধ প্যাকেজগুলি এইচপিসি লাইব্রেরি দ্বারা সরবরাহিত ডেটা সরাসরি গ্রহণ করবে কিনা।
আমি কি সঠিক পথে রয়েছি? এবং আরও গুরুত্বপূর্ণ, আমি কি বোধগম্য করছি?
foreach
আর এ লাইব্রেরি সমান্তরাল কোড লেখার জন্য ব্যবহার করতে পারেন This এটি এলোমেলো বনগুলির সাথে মিলিতভাবে বিশেষত ভাল কাজ করে যা অন্তর্নিহিত সমান্তরালভাবে সহজ।