আমি আরবিতে জিবিএম প্যাকেজটি ব্যবহার করে কিছু বড় ডেটা সেট নিয়ে কাজ করছি my আমার ভবিষ্যদ্বাণীকারী ম্যাট্রিক্স এবং আমার প্রতিক্রিয়া ভেক্টর উভয়ই বেশ বিরল (যেমন বেশিরভাগ এন্ট্রি শূন্য)। আমি আশা করছিলাম যে এখানে সিদ্ধান্ত নেওয়া হয়েছে এমন অ্যালগরিদম ব্যবহার করে সিদ্ধান্ত গাছগুলি তৈরি করব যা এখানে হয়েছিল । সেই কাগজে যেমন আমার পরিস্থিতি হিসাবে রয়েছে, বেশিরভাগ আইটেমের অনেকগুলি সম্ভাব্য বৈশিষ্ট্যগুলির মধ্যে কয়েকটি মাত্র থাকে, তাই তারা এটিকে ধরে রেখে প্রচুর অপচয়যোগ্য গণনা এড়াতে সক্ষম হয়েছিল যে ডেটা স্পষ্টভাবে অন্যথায় বলা না হলে তাদের আইটেমগুলির একটি নির্দিষ্ট বৈশিষ্ট্যের অভাব রয়েছে। আমার আশা আমি এই ধরণের অ্যালগরিদম ব্যবহার করে (এবং তারপরে আমার ভবিষ্যদ্বাণীক নির্ভুলতার উন্নতি করার জন্য এটির আশেপাশে একটি উত্সাহী অ্যালগরিদম মোড়ানো) একই ধরণের গতি অর্জন করতে পারব।
যেহেতু তারা তাদের কোড প্রকাশ করেছে বলে মনে হচ্ছিল না, তাই আমি ভাবছিলাম যে কোনও ওপেন-সোর্স প্যাকেজ বা লাইব্রেরি আছে (যে কোনও ভাষায়) এই ক্ষেত্রে উপযুক্ত হয়েছে। আদর্শভাবে, আমি এমন কিছু চাই যা সরাসরি আর এর Matrix
প্যাকেজ থেকে স্পার্স ম্যাট্রিক্স নিতে পারে তবে আমি যা পাব তা আমি গ্রহণ করব।
আমি চারপাশে দেখেছি এবং মনে হচ্ছে এই ধরণের জিনিসটি বাইরে থাকা উচিত:
রসায়নবিদরা এই বিষয়টি অনেকটা চালিত বলে মনে হচ্ছে (আমি উপরে উল্লিখিত কাগজটি নতুন ওষুধের যৌগগুলি সন্ধান করার বিষয়ে ছিল) তবে আমি যে বাস্তবায়নগুলি খুঁজে পেতে পারি তা হয় মালিকানাধীন বা রাসায়নিক বিশ্লেষণের জন্য অত্যন্ত বিশেষায়িত। যদিও এর মধ্যে একটির পক্ষে পুনরায় পরিকল্পনা করা যেতে পারে।
নথির শ্রেণিবদ্ধকরণ এমন একটি অঞ্চল বলে মনে হয় যেখানে বিচ্ছিন্ন বৈশিষ্ট্য শূণ্যস্থানগুলি থেকে শেখা দরকারী (বেশিরভাগ নথিতে বেশিরভাগ শব্দ থাকে না)। উদাহরণস্বরূপ, এই কাগজে C4.5 (একটি কর্ট-এর মতো অ্যালগরিদম) এর বিচ্ছিন্ন বাস্তবায়নের একটি তির্যক উল্লেখ রয়েছে , তবে কোনও কোড নেই।
মেলিংয়ের তালিকা অনুসারে , ডব্লিউইএপিএ অসম্পূর্ণ তথ্য গ্রহণ করতে পারে, তবে আমি উপরে উল্লিখিত কাগজে থাকা পদ্ধতির বিপরীতে, ওয়েকা সিপিইউ চক্র এড়ানোর ক্ষেত্রে এটিকে প্রকৃতপক্ষে গ্রহণ করতে অনুকূলিত নয়।
আগাম ধন্যবাদ!
glmnet
এবং এবং e1071::svm
উভয়ই বিচ্ছিন্ন Matrix
বস্তুকে সমর্থন করে। GAMboost
এবং GLMboost
(প্যাকেজ থেকে GAMboost
) এছাড়াও হতে পারে।