আমি আর এর সাথে গতি অর্জনের চেষ্টা করছি eventually আমি শেষ পর্যন্ত পাঠ্য শ্রেণিবদ্ধকরণের জন্য আর লাইব্রেরিটি ব্যবহার করতে চাই। আমি যখন কেবল পাঠ্য শ্রেণিবদ্ধকরণ করার কথা বলি তখন আর এর স্কেল্যাবিলিটি সম্পর্কিত লোকদের অভিজ্ঞতাগুলি কী তা আমি ভাবছিলাম।
আমি উচ্চ মাত্রিক ডেটা (k 300k মাত্রা) চালানোর সম্ভবত। আমি বিশেষত শ্রেণিবদ্ধকরণ অ্যালগরিদম হিসাবে এসভিএম এবং র্যান্ডম ফরেস্ট ব্যবহার করে দেখছি।
আমার গ্রন্থাগারগুলি কি আমার সমস্যার আকারে স্কেল করবে?
ধন্যবাদ।
সম্পাদনা 1: কেবলমাত্র স্পষ্ট করার জন্য, আমার ডেটা সেটে 1000-3000 সারি (সম্ভবত কিছুটা আরও) এবং 10 ক্লাসের সম্ভাবনা রয়েছে।
সম্পাদনা 2: যেহেতু আমি আরে খুব নতুন, আমি পোস্টারগুলিকে যেখানে সম্ভব সেখানে আরও সুনির্দিষ্ট হওয়ার জন্য অনুরোধ করব। উদাহরণস্বরূপ, আপনি যদি কোনও ওয়ার্কফ্লো / পাইপলাইনের পরামর্শ দিচ্ছেন, দয়া করে যদি সম্ভব হয় তবে প্রতিটি পদক্ষেপের সাথে জড়িত আর গ্রন্থাগারগুলি উল্লেখ করার বিষয়ে নিশ্চিত হন। কিছু অতিরিক্ত পয়েন্টার (উদাহরণস্বরূপ, নমুনা কোড ইত্যাদি) কেকের সাথে আইসিং দিবে।
সম্পাদনা 3: প্রথমে, আপনার মন্তব্যের জন্য সবাইকে ধন্যবাদ। এবং দ্বিতীয়ত, আমি ক্ষমাপ্রার্থী, সম্ভবত আমার সমস্যার আরও প্রসঙ্গ দেওয়া উচিত ছিল। আমি আর এ নতুন কিন্তু পাঠ্য শ্রেণিবিন্যাসে তেমন কিছু নই। আমি ইতিমধ্যে টিএম ব্যবহার করে আমার ডেটার কিছু অংশে প্রাক-প্রসেসিং (স্টেমিং, স্টপওয়ার্ড অপসারণ, টিএফ-আইডিএফ রূপান্তর ইত্যাদি) করেছি প্যাকেজপ্রায় 200 ডক্সে টি এম এমনকি এত ধীর ছিল যে আমি স্কেলেবিলিটি সম্পর্কে উদ্বিগ্ন হয়েছি। তারপরে আমি এফ-সিলেক্টরের সাথে খেলতে শুরু করেছি এবং এটি আসলেই ধীর ছিল। এবং এটাই যে আমি আমার ওপি তৈরি করেছি।
সম্পাদনা 4: এটি কেবলমাত্র আমার কাছে এসেছিল যে আমার কাছে 10 ক্লাস এবং প্রতি ক্লাসে প্রায় 300 ডলার প্রশিক্ষণ নথি রয়েছে এবং আমি সত্যই পুরো উচ্চ প্রশিক্ষণের সেটটির বাইরে এক্সডোক ম্যাট্রিক্স শব্দটি তৈরি করছি যার ফলশ্রুতি খুব উচ্চ মাত্রিক হয়। তবে কীভাবে প্রতি 1-আউট-কে-ক্লাসিফিকেশন সমস্যাটিকে সিরিজের বাইনারি শ্রেণিবদ্ধকরণের সমস্যা হ্রাস করা যায়? এটি প্রতিটি কে -1 পদক্ষেপে প্রশিক্ষণ নথির সংখ্যা (এবং ত্রৈমিতিক) যথেষ্ট পরিমাণে হ্রাস করবে, তাই না? সুতরাং এই পদ্ধতির একটি ভাল? এটি সাধারণ বহু-শ্রেণীর প্রয়োগের সাথে নির্ভুলতার সাথে কীভাবে তুলনা করে?