আমি আরবিতে জিবিএম প্যাকেজটি ব্যবহার করে কিছু বড় ডেটা সেট নিয়ে কাজ করছি my আমার ভবিষ্যদ্বাণীকারী ম্যাট্রিক্স এবং আমার প্রতিক্রিয়া ভেক্টর উভয়ই বেশ বিরল (যেমন বেশিরভাগ এন্ট্রি শূন্য)। আমি আশা করছিলাম যে এখানে সিদ্ধান্ত নেওয়া হয়েছে এমন অ্যালগরিদম ব্যবহার করে সিদ্ধান্ত গাছগুলি তৈরি করব যা এখানে হয়েছিল । সেই কাগজে যেমন আমার পরিস্থিতি হিসাবে রয়েছে, বেশিরভাগ আইটেমের অনেকগুলি সম্ভাব্য বৈশিষ্ট্যগুলির মধ্যে কয়েকটি মাত্র থাকে, তাই তারা এটিকে ধরে রেখে প্রচুর অপচয়যোগ্য গণনা এড়াতে সক্ষম হয়েছিল যে ডেটা স্পষ্টভাবে অন্যথায় বলা না হলে তাদের আইটেমগুলির একটি নির্দিষ্ট বৈশিষ্ট্যের অভাব রয়েছে। আমার আশা আমি এই ধরণের অ্যালগরিদম ব্যবহার করে (এবং তারপরে আমার ভবিষ্যদ্বাণীক নির্ভুলতার উন্নতি করার জন্য এটির আশেপাশে একটি উত্সাহী অ্যালগরিদম মোড়ানো) একই ধরণের গতি অর্জন করতে পারব।
যেহেতু তারা তাদের কোড প্রকাশ করেছে বলে মনে হচ্ছিল না, তাই আমি ভাবছিলাম যে কোনও ওপেন-সোর্স প্যাকেজ বা লাইব্রেরি আছে (যে কোনও ভাষায়) এই ক্ষেত্রে উপযুক্ত হয়েছে। আদর্শভাবে, আমি এমন কিছু চাই যা সরাসরি আর এর Matrixপ্যাকেজ থেকে স্পার্স ম্যাট্রিক্স নিতে পারে তবে আমি যা পাব তা আমি গ্রহণ করব।
আমি চারপাশে দেখেছি এবং মনে হচ্ছে এই ধরণের জিনিসটি বাইরে থাকা উচিত:
রসায়নবিদরা এই বিষয়টি অনেকটা চালিত বলে মনে হচ্ছে (আমি উপরে উল্লিখিত কাগজটি নতুন ওষুধের যৌগগুলি সন্ধান করার বিষয়ে ছিল) তবে আমি যে বাস্তবায়নগুলি খুঁজে পেতে পারি তা হয় মালিকানাধীন বা রাসায়নিক বিশ্লেষণের জন্য অত্যন্ত বিশেষায়িত। যদিও এর মধ্যে একটির পক্ষে পুনরায় পরিকল্পনা করা যেতে পারে।
নথির শ্রেণিবদ্ধকরণ এমন একটি অঞ্চল বলে মনে হয় যেখানে বিচ্ছিন্ন বৈশিষ্ট্য শূণ্যস্থানগুলি থেকে শেখা দরকারী (বেশিরভাগ নথিতে বেশিরভাগ শব্দ থাকে না)। উদাহরণস্বরূপ, এই কাগজে C4.5 (একটি কর্ট-এর মতো অ্যালগরিদম) এর বিচ্ছিন্ন বাস্তবায়নের একটি তির্যক উল্লেখ রয়েছে , তবে কোনও কোড নেই।
মেলিংয়ের তালিকা অনুসারে , ডব্লিউইএপিএ অসম্পূর্ণ তথ্য গ্রহণ করতে পারে, তবে আমি উপরে উল্লিখিত কাগজে থাকা পদ্ধতির বিপরীতে, ওয়েকা সিপিইউ চক্র এড়ানোর ক্ষেত্রে এটিকে প্রকৃতপক্ষে গ্রহণ করতে অনুকূলিত নয়।
আগাম ধন্যবাদ!
glmnetএবং এবং e1071::svmউভয়ই বিচ্ছিন্ন Matrixবস্তুকে সমর্থন করে। GAMboostএবং GLMboost(প্যাকেজ থেকে GAMboost) এছাড়াও হতে পারে।