স্পার প্রেডেক্টর এবং প্রতিক্রিয়াগুলি ব্যবহার করে কার্ট-জাতীয় পদ্ধতির জন্য এমন কোনও গ্রন্থাগার রয়েছে কি?


11

আমি আরবিতে জিবিএম প্যাকেজটি ব্যবহার করে কিছু বড় ডেটা সেট নিয়ে কাজ করছি my আমার ভবিষ্যদ্বাণীকারী ম্যাট্রিক্স এবং আমার প্রতিক্রিয়া ভেক্টর উভয়ই বেশ বিরল (যেমন বেশিরভাগ এন্ট্রি শূন্য)। আমি আশা করছিলাম যে এখানে সিদ্ধান্ত নেওয়া হয়েছে এমন অ্যালগরিদম ব্যবহার করে সিদ্ধান্ত গাছগুলি তৈরি করব যা এখানে হয়েছিল । সেই কাগজে যেমন আমার পরিস্থিতি হিসাবে রয়েছে, বেশিরভাগ আইটেমের অনেকগুলি সম্ভাব্য বৈশিষ্ট্যগুলির মধ্যে কয়েকটি মাত্র থাকে, তাই তারা এটিকে ধরে রেখে প্রচুর অপচয়যোগ্য গণনা এড়াতে সক্ষম হয়েছিল যে ডেটা স্পষ্টভাবে অন্যথায় বলা না হলে তাদের আইটেমগুলির একটি নির্দিষ্ট বৈশিষ্ট্যের অভাব রয়েছে। আমার আশা আমি এই ধরণের অ্যালগরিদম ব্যবহার করে (এবং তারপরে আমার ভবিষ্যদ্বাণীক নির্ভুলতার উন্নতি করার জন্য এটির আশেপাশে একটি উত্সাহী অ্যালগরিদম মোড়ানো) একই ধরণের গতি অর্জন করতে পারব।

যেহেতু তারা তাদের কোড প্রকাশ করেছে বলে মনে হচ্ছিল না, তাই আমি ভাবছিলাম যে কোনও ওপেন-সোর্স প্যাকেজ বা লাইব্রেরি আছে (যে কোনও ভাষায়) এই ক্ষেত্রে উপযুক্ত হয়েছে। আদর্শভাবে, আমি এমন কিছু চাই যা সরাসরি আর এর Matrixপ্যাকেজ থেকে স্পার্স ম্যাট্রিক্স নিতে পারে তবে আমি যা পাব তা আমি গ্রহণ করব।

আমি চারপাশে দেখেছি এবং মনে হচ্ছে এই ধরণের জিনিসটি বাইরে থাকা উচিত:

  • রসায়নবিদরা এই বিষয়টি অনেকটা চালিত বলে মনে হচ্ছে (আমি উপরে উল্লিখিত কাগজটি নতুন ওষুধের যৌগগুলি সন্ধান করার বিষয়ে ছিল) তবে আমি যে বাস্তবায়নগুলি খুঁজে পেতে পারি তা হয় মালিকানাধীন বা রাসায়নিক বিশ্লেষণের জন্য অত্যন্ত বিশেষায়িত। যদিও এর মধ্যে একটির পক্ষে পুনরায় পরিকল্পনা করা যেতে পারে।

  • নথির শ্রেণিবদ্ধকরণ এমন একটি অঞ্চল বলে মনে হয় যেখানে বিচ্ছিন্ন বৈশিষ্ট্য শূণ্যস্থানগুলি থেকে শেখা দরকারী (বেশিরভাগ নথিতে বেশিরভাগ শব্দ থাকে না)। উদাহরণস্বরূপ, এই কাগজে C4.5 (একটি কর্ট-এর মতো অ্যালগরিদম) এর বিচ্ছিন্ন বাস্তবায়নের একটি তির্যক উল্লেখ রয়েছে , তবে কোনও কোড নেই।

  • মেলিংয়ের তালিকা অনুসারে , ডব্লিউইএপিএ অসম্পূর্ণ তথ্য গ্রহণ করতে পারে, তবে আমি উপরে উল্লিখিত কাগজে থাকা পদ্ধতির বিপরীতে, ওয়েকা সিপিইউ চক্র এড়ানোর ক্ষেত্রে এটিকে প্রকৃতপক্ষে গ্রহণ করতে অনুকূলিত নয়।

আগাম ধন্যবাদ!


2
আর নয়, পাইথন সাইকিটস এলার্নের স্পার্স ম্যাট্রিক্সের জন্য কিছুটা বর্ধমান সমর্থন রয়েছে।
chl

@ চি 1 ধন্যবাদ দেখে মনে হচ্ছে তারা এখনও গাছের পদ্ধতি যুক্ত করেনি। কেউ বাস্তবায়নে কাজ করছেন , তবে আমি নিশ্চিত নই যে এটি স্পারযুক্ত ডেটা ব্যবহার করতে সক্ষম হবে কিনা I'm আমি স্পষ্টভাবে এসভিএম পদ্ধতিগুলি মনে রাখবো, যদিও!
ডেভিড জে হ্যারিস

আপনি যখন "কার্টের মত" বলছেন আপনি বিশেষত সিদ্ধান্ত গাছ বা কোনও ধরণের ভবিষ্যদ্বাণীপূর্ণ মডেল চান?
মাইকেল ম্যাকগোয়ান

@ মিশেল - আমি গাছ চাই, যেহেতু আমি তাদের একটি উত্সাহদান পদ্ধতিতে খাওয়াচ্ছি এবং তাদের উচ্চতর বৈচিত্র রয়েছে।
ডেভিড জে হ্যারিস

2
আমি কোনও বৃক্ষের মডেলগুলি জানি না, glmnetএবং এবং e1071::svmউভয়ই বিচ্ছিন্ন Matrixবস্তুকে সমর্থন করে। GAMboostএবং GLMboost(প্যাকেজ থেকে GAMboost) এছাড়াও হতে পারে।
Zach

উত্তর:


2

আমি আরএফ-এর ব্যবহৃত আধুনিক কার্ট বাস্তবায়নের বিরুদ্ধে তাদের স্পার্স বাস্তবায়নের একটি মাপদণ্ড দেখতে চাই। এই কাগজটি এই ক্ষেত্রে অগ্রগতির দিক থেকে বেশ পুরানো এবং এটি এখনও যদি উল্লেখযোগ্য গতি সরবরাহ করে তবে আমি অবাক হব।

কারণটির অংশটি হ'ল স্প্লিট অনুসন্ধানে কুইকোর্টের মতো চালাক বাছাই করা অ্যালগরিদম ব্যবহার করা নিকটবর্তী ধ্রুবক বৈশিষ্ট্যগুলির জন্য (স্পার্সগুলি সহ) ও (এন) পারফরম্যান্সের কাছে সরবরাহ করতে পারে। কোনও গাছের শাখার মধ্যে কোনও বৈশিষ্ট্য স্থির হয়ে ওঠে এবং এর পরে আর পরীক্ষা করা উচিত হয় না এমন দ্রুত বাস্তবায়নগুলিও ট্র্যাক করে। ঘন বৈশিষ্ট্য উপস্থাপনাগুলি সিপিইউ ক্যাশে বন্ধুত্বপূর্ণ ফ্যাশনে দ্রুত চেহারা সরবরাহ করে যাতে আপনার সিপিইউ চক্রগুলিতে বিজয়ী হওয়ার জন্য সত্যিকারের চালাক স্পর্শ উপস্থাপনা দরকার।

এটি এখানে , এখানে , এখানে আলোচনা করা হয় ।

আমি আমার আরএফ প্যাকেজ ক্লাউডফরেস্টের এক পর্যায়ে ডেটার বিচ্ছিন্ন উপাত্ত উপস্থাপনাকে বাস্তবায়িত করেছি তবে এটি ধীর হয়ে গেছে তখন ডেটাটির ঘন উপস্থাপনা হয়ে গেছে এবং এটি কিছুটা মেমরির সুবিধা দিলেও তা পরিত্যাগ করে aband

আমার সুপারিশটি হ'ল বিজ্ঞান শিখতে বা ক্লাউড ফরেস্ট স্টাফ উত্সাহে নির্মিত এবং এটি যথেষ্ট দ্রুত কিনা তা দেখুন। আপনি যদি মানহীন কিছু করতে চান তবে উভয়ই কাস্টম বুস্টিং মানদণ্ডের সাথে বাড়ানো যেতে পারে। (আমি আসলে ক্লাউডফরেস্টটি মূলত বৃহত্তর, উচ্চ মাত্রিক জেনেটিক ডেটা সেটগুলির সাথে কাজ করার জন্য লিখেছিলাম যা আপনি বর্ণনা করছেন তার সাথে খুব মিল)।


1

সম্ভবত কোনও কোডের জন্য সামান্য সুযোগ রয়েছে যা এর সুবিধা নেবে - আপনার নিজের চেয়ে নিজের কিছু লিখতে হবে।
তবে অপর বিকল্পটি হ'ল অপ্রয়োজনীয় তথ্য অপসারণের জন্য আপনার ডেটার আকার হ্রাস করতে আপনার ডেটা রুপান্তর করা। আপনার ডেটা সম্পর্কে তথ্য ছাড়াই কীভাবে বলা শক্ত, তবে সম্ভবত আপনি এমন কিছু বৈশিষ্ট্যগুলি মার্জ করতে পারেন যা আপনি জানেন যা এর ওভারল্যাপ হয় না, এর পিসিএ অংশগুলি বা কিছু বর্ণনাকারীর উপস্থাপনা পরিবর্তন করে না? এছাড়াও, যদি আপনি বলেন যে আপনার প্রতিক্রিয়াটিও খুব কম, তবে প্রতিক্রিয়াতে 0 সহ অবজেক্টগুলি ডাউনসাম্পাল করা কি যুক্তিসঙ্গত?


জবাবের জন্য ধন্যবাদ. ডাউনস্যাম্পলিং শোনার একটি আকর্ষণীয় ধারণা বলে মনে হচ্ছে। বর্তমানে, আমি আছি তৌল অন্যান্য কারণে কিছু ডেটা দিক, কিন্তু খুব যে একটা ভাল ধারণা হতে পারে। তবে আপনি কেন বলেন কেন এর জন্য কোডের অস্তিত্বের সম্ভাবনা নেই? আমি 12 বছর আগে একটি কাগজের সাথে লিঙ্ক করেছি যা মনে হয় একই সমস্যাটিকে মোকাবেলা করেছে।
ডেভিড জে হ্যারিস

@ ডেভিড সংক্ষেপে, আমি মনে করি এটির কোনও অর্থ নেই - এটি একটি "ভুল প্রশ্ন" সমস্যা। স্বচ্ছলতা দেখায় যে ডেটা অত্যন্ত suboptimal ফর্ম হয়, এবং আরও কার্যকর পদ্ধতির রূপান্তর করার চেষ্টা করা হয়। আপনার লিঙ্ক করা কাগজটি কিছুটা অন্য সমস্যা।

আমি ভয় করছি আপনি কি বলছেন তা বুঝতে পারছেন না। ডেটা ফর্মটি রূপান্তর করা হ'ল আমি যা করতে চাই তা হ'ল এবং যতদূর আমি বলতে পারি এটি ঠিক এই পেপারটি করে। তারা প্রতিটি রাসায়নিকের ঘাটতি সমস্ত বৈশিষ্ট্য তালিকাভুক্ত করতে চায় নি, কেবল এটি ছিল। এটি তাদের পরিস্থিতিতে উপলব্ধি করেছে কারণ বেশিরভাগ রাসায়নিকের বেশিরভাগ বৈশিষ্ট্যের অভাব রয়েছে, ঠিক যেমন আমার ক্ষেত্রে। সুতরাং তারা তাদের বৈশিষ্ট্যগুলিকে একটি বিচ্ছুরিত ম্যাট্রিক্সে রূপান্তরিত করে এবং তারপরে সরাসরি সেই বিচ্ছুরিত ম্যাট্রিক্সে তাদের পুনরাবৃত্ত বিভাজন অ্যালগরিদমকে। আমি আমার ডেটা দিয়ে একই জিনিস করার জন্য ওপেন সোর্স উপায়গুলি খুঁজছি। আমি কী মিস করছি? ধন্যবাদ
ডেভিড জে হ্যারিস

@ ডেভিড, আমি মনে করি এমবিকিউ'র বক্তব্যটি হ'ল একটি বড় 1-অফ-এন কোডিং (উদাহরণস্বরূপ ওয়েব সাইট / গ্রাহক ইত্যাদি সনাক্তকারী) বা উপস্থিত রাসায়নিকের তালিকা) প্রায়শই শেখার পক্ষে খুব খারাপ প্রতিনিধিত্ব করে। আপনি "বৈশিষ্ট্যগুলিতে" পরিবর্তন করা আরও ভাল, যেমন কোনও ওয়েবসাইটের জন্য এটি শ্রেণিবদ্ধকরণ হতে পারে: শপ / নিউজ / ব্লগ খেলা / প্রযুক্তি ইত্যাদি
seanv507

1

আপনি কি caretপ্যাকেজের দিকে নজর রেখেছেন? এটি এমন একটি ইন্টারফেস সরবরাহ করে যা বিভিন্ন মডেলগুলি ব্যবহার করা সহজ করে, যেমন কয়েকটি rpart, ctreeএবং যেমন পুনরাবৃত্তির জন্য পার্টিশনের জন্য ctree2


আমি সেই প্যাকেজগুলি / ফাংশনগুলির সাথে পরিচিত এবং এগুলির মধ্যে কোনওটিই আমি যতদূর বলতে পারি, সেখানে বিরল ডেটাতে কাজ করে না।
ডেভিড জে হ্যারিস

1
Matrixঅবজেক্টগুলির জন্য ক্যারেট সমর্থনটি আশ্চর্যজনক হবে তবে এটি বর্তমানে বিদ্যমান নেই। সবকিছু একটি ডেটা.ফ্রেমে জোর করে।
Zach

আপনি বিকাশকারীকে ইমেল করার এবং তাকে এ সম্পর্কে জিজ্ঞাসা করার চেষ্টা করতে পারেন। আমি তাকে অন্য কিছুতে ইমেল করেছিলাম এবং তিনি একটি সহায়ক উত্তর দিয়েছেন - ম্যাক্স.কুহন [এ] পিফাইজার.কম
পল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.