কর্মক্ষমতা উন্নত করতে মেশিন লার্নিংগুলিতে স্পারস এবং ঘন ডেটা একত্রিত করা


17

আমার স্পর্স বৈশিষ্ট্য রয়েছে যা ভবিষ্যদ্বাণীমূলক, এছাড়াও আমার কাছে কিছু ঘন বৈশিষ্ট্য রয়েছে যা ভবিষ্যদ্বাণীমূলক। শ্রেণিবদ্ধের সামগ্রিক কর্মক্ষমতা উন্নত করতে আমার এই বৈশিষ্ট্যগুলি একত্রিত করতে হবে।

এখন, জিনিসটি যখন আমি এগুলি একত্রিত করার চেষ্টা করি তখন ঘন বৈশিষ্ট্যগুলি বিচ্ছিন্ন বৈশিষ্ট্যগুলির চেয়ে বেশি আধিপত্য বয়ে থাকে, সুতরাং কেবল ঘন বৈশিষ্ট্যযুক্ত মডেলের তুলনায় এটিউতে কেবল 1% উন্নতি দেয়।

কেউ কি একই রকম সমস্যা নিয়ে এসেছেন? প্রকৃতপক্ষে ইনপুটগুলির প্রশংসা করুন, একরকম আটকে। আমি ইতিমধ্যে বিভিন্ন শ্রেণিবদ্ধকারী, শ্রেণিবদ্ধের সংমিশ্রণ, বৈশিষ্ট্য রূপান্তরকরণ এবং বিভিন্ন অ্যালগরিদমের সাথে প্রক্রিয়াজাতকরণের চেষ্টা করেছি।

সাহায্যের জন্য আগাম ধন্যবাদ।

সম্পাদনা করুন :

আমি ইতিমধ্যে মন্তব্যগুলিতে দেওয়া পরামর্শগুলি চেষ্টা করেছি। আমি যা পর্যবেক্ষণ করেছি তা হল প্রায় 45% উপাত্তের জন্য, স্পার্স বৈশিষ্ট্যগুলি খুব ভাল সম্পাদন করে, আমি কেবল প্রায় বিরল বৈশিষ্ট্য সহ 0.9 এর কাছাকাছি এর এউসি পাই, তবে বাকীগুলিগুলির জন্য ঘন বৈশিষ্ট্যগুলি প্রায় 0.75 এর এউসি দিয়ে ভাল সম্পাদন করে। আমি এই ডেটাসেটগুলি আলাদা করার চেষ্টা করেছি, তবে আমি 0.6 এর এউসি পাই, সুতরাং, আমি কেবল কোনও মডেলকে প্রশিক্ষণ দিতে পারি না এবং কোন বৈশিষ্ট্যগুলি ব্যবহার করব তা সিদ্ধান্ত নিতে পারি না।

কোড স্নিপেট সম্পর্কে, আমি অনেকগুলি চেষ্টা করে দেখেছি, ঠিক কী ভাগ করবেন তা আমি নিশ্চিত নই :(


আপনার বৈশিষ্ট্যগুলি কতটা বিরল? তারা কি 1% ভরাট বা তারও কম?
জোও আলমেইদা

2
এছাড়াও আপনার লক্ষণীয় হওয়া উচিত যে আপনার বৈশিষ্ট্যগুলি অপেক্ষাকৃত কম হলে তাদের কেবল আপনার ডেটাसेटের একটি ছোট অংশকে শ্রেণিবদ্ধকরণে সহায়তা করা উচিত, যার অর্থ সামগ্রিকভাবে নির্ভুলতা উল্লেখযোগ্যভাবে পরিবর্তন করা উচিত নয়। এটি এক ধরণের অনুমান, কারণ আপনার ডেটাসেটের বৈশিষ্ট্যগুলি কী কী তা আমি জানি না।
জোও আলমেইদা

@ JoãoAlmeida তারা তেমন বিরল নয়। তারা প্রায় 5% ভরাট হয়। সমস্যাটি যখন আমি দুটি মডেলের পূর্বাভাসের পার্থক্যের দিকে লক্ষ্য করি, যেখানে পূর্বাভাসগুলি পৃথক হয়, স্পার্স বৈশিষ্ট্যযুক্ত মডেল আরও ভাল পারফরম্যান্সের প্রবণতা দেখায়, এ কারণেই আমি যখন এটি ঘন বৈশিষ্ট্যের সাথে একত্রিত করি তখন আমি এটি এওসি তেও উত্সাহ লাভের আশা করতাম । আমি একটি উত্সাহ পাচ্ছি, কিন্তু খুব কম বলে মনে হচ্ছে।
সাগর ওয়াঘমোড

হুম ... তখন আপনার জন্য আমার কোনও ধারণা নেই
জোও আলমেডা

আমি একই সমস্যার মুখোমুখি হয়েছি, সম্ভবত একক মডেলটিতে ঘন এবং বিরল বৈশিষ্ট্যটি রাখা ভাল পছন্দ নয়। সম্ভবত আপনি প্রশস্ত এবং গভীর মডেল চেষ্টা করতে পারেন। বিরল বৈশিষ্ট্যগুলির জন্য প্রশস্ত এবং ঘন বৈশিষ্ট্যের জন্য গভীর, আপনি যদি এই পদ্ধতিটি ব্যবহার করে থাকেন তবে দয়া করে আমাকে উত্তরটি বলুন।
Jianye জি

উত্তর:


6

এটি প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণের জন্য একটি কাজের মতো বলে মনে হচ্ছে। সাইকিতটিতে পিসিএ ভালভাবে প্রয়োগ হয়েছে এবং এটি আমাকে বহুবার সহায়তা করেছিল।

পিসিএ, একটি নির্দিষ্ট উপায়ে আপনার বৈশিষ্ট্যগুলিকে একত্রিত করে। উপাদানগুলির সংখ্যা সীমাবদ্ধ করে, আপনি আপনার মডেলটি শব্দ-কম ডেটা (সেরা ক্ষেত্রে) নিয়ে আসেন। কারণ আপনার মডেল আপনার ডেটা হিসাবে ভাল।

একটি সাধারণ উদাহরণ নীচে বিবেচনা করুন।

from sklearn.pipeline import Pipeline
pipe_rf = Pipeline([('pca', PCA(n_components=80)),
                    ('clf',RandomForestClassifier(n_estimators=100))])
pipe_rf.fit(X_train_s,y_train_s)

pred = pipe_rf.predict(X_test)

আমি কেন 80 বাছাই করেছি? যখন আমি संचयी বৈকল্পিকের পরিকল্পনা করি তখন আমি এটি নীচে পেয়েছিলাম, যা আমাকে বলে যে ~ 80 উপাদান দিয়ে আমি প্রায় সমস্ত বৈকল্পিকের কাছে পৌঁছায়। संचयी বৈকল্পিকতা

সুতরাং আমি বলব এটি ব্যবহার করে দেখুন, এটি আপনার মডেলগুলিতে ব্যবহার করুন। এটি সাহায্য করা উচিত।


4

বৈশিষ্ট্যগুলিকে একত্রিত করার সর্বোত্তম উপায় হ'ল নকশা করা পদ্ধতিগুলির মাধ্যমে। মূলত তিনটি পৃথক পদ্ধতি রয়েছে: ব্যাগিং, বুস্টিং এবং স্ট্যাকিং। আপনি হয় অ্যাডাববস্ট বৈশিষ্ট্য নির্বাচনের সাথে সংযোজন করতে পারেন (এটিতে উভয় দাগ এবং ঘন বৈশিষ্ট্য বিবেচনা করুন) বা স্ট্যাকিং ভিত্তিক (এলোমেলো বৈশিষ্ট্য - এলোমেলো উপস্পেস) আমি দ্বিতীয় বিকল্পটি পছন্দ করি যা আপনি এলোমেলোভাবে ব্যবহার করে বেস শিখার একটি সেট (সিদ্ধান্ত। গাছ) সেট করতে পারেন উপগ্রহ এবং এলোমেলো বৈশিষ্ট্য (আপনি বৈশিষ্ট্যগুলির পুরো সেটটি কভার না করা পর্যন্ত প্রশিক্ষণ বেস শিখুন) পরবর্তী পদক্ষেপটি হ'ল মেটা ডেটা উত্পন্ন করার জন্য প্রশিক্ষণ সেটটি পরীক্ষা করা। একটি মেটা শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য এই মেটা ডেটা ব্যবহার করুন। কোন বৈশিষ্ট্যটি আরও গুরুত্বপূর্ণ এবং কোন ধরণের সম্পর্ক ব্যবহার করা উচিত তা মেটা শ্রেণিবদ্ধকারী সনাক্ত করবে


আপনি কি দয়া করে প্রাসঙ্গিক ডকুমেন্টেশন ভাগ করে নিতে পারেন? আপনি যা বলতে চেয়েছিলেন তা হুবহু বুঝতে পারলেন না?
সাগর ওয়াঘমোড

স্ট্যাকিংসি সম্পর্কে "স্ট্যাকিং কৌশলগুলির মধ্যে সমস্যাগুলি, 1999" স্ট্যাকিং সম্পর্কে একটি নিবন্ধ পড়তে পারেন। এটি জানা খুব গুরুত্বপূর্ণ যে আমি পুরো ভেক্টরটির (যেমন হোগের ক্ষেত্রে 1x36) একটি বৈশিষ্ট্য হিসাবে কথা বলছি, তবে এর মধ্যে মাত্রা নয় dimen কোন বেস লার্নারের সাথে কোন বৈশিষ্ট্যটি ব্যবহার করা হবে তা আপনাকে ট্র্যাক করতে হবে। ওভারফিটিং সমস্যা সম্পর্কে সতর্ক থাকুন
বাশার হাদাদ

আপনি যদি ডাটাবেস, ক্লাসের সংখ্যা, নমুনার সংখ্যা, কোড, আপনি কী চেষ্টা করেছেন, কোন জিনিসগুলি লক্ষ্য করেছেন, সে সম্পর্কে আরও বিশদ বিবরণ দেন, আপনার কি ডেটা ভারসাম্যহীন সমস্যা, গোলমালপূর্ণ নমুনা, ... ইত্যাদি রয়েছে। এই সমস্ত বিবরণ গুরুত্বপূর্ণ এবং সেরা পদ্ধতি নির্বাচন করতে সহায়তা করতে পারে। যদি ঠিক আছে তবে আমি আরও বিশদ দিন এবং আমি আরও ভাল উপায়ে সহায়তা করতে পারি
বাশার হাদাদ

1

পরিবর্তনশীল গোষ্ঠীগুলি বহুবিধ লাইনযুক্ত হতে পারে বা বিরল এবং ঘন মধ্যে রূপান্তর ভুল হতে পারে। আপনি কি ভোটিং ক্লাসিফায়ার / পোশাকের শ্রেণিবদ্ধকরণ ব্যবহার করার বিষয়ে চিন্তা করেছেন? http://scikit-learn.org/stable/modules/ensemble.html এইভাবে আপনি উপরের উভয় সমস্যার মোকাবিলা করতে পারেন।


আমি ইতিমধ্যে জোটবদ্ধ কৌশলগুলি পাশাপাশি ভোটিং শ্রেণিবদ্ধদের চেষ্টা করেছি। এখনও ভাগ্য নেই।
সাগর ওয়াঘমোড

সুতরাং আপনি দুটি ডেটাসেটের পূর্বাভাসের মধ্যে অনেকটা ওভারল্যাপ দেখতে পাচ্ছেন? সত্যিই কোনও নতুন তথ্য থাকতে পারে? অর্থাত ডেটা একই গল্প বলে।
দিয়েগো

হ্যাঁ, আমি ঠিক তাই করেছি। যদিও পূর্বাভাসগুলি সম্পূর্ণ পৃথক নয়, তথ্যের তুলনায় পূর্বাভাসের যে নমুনাগুলি পৃথক হয় সেগুলির সংখ্যা বেশ বেশি (প্রায় 15-20%)। এই নমুনাগুলির জন্য বিরল বৈশিষ্ট্যযুক্ত মডেলগুলি ঘন বৈশিষ্ট্যযুক্ত মডেলের চেয়ে ভাল সম্পাদন করে। আমার বক্তব্য হ'ল বিরল বৈশিষ্ট্যগুলি যদি আরও ভাল পারফর্ম করে তবে আমি এতক্ষণ যে মডেলগুলির চেষ্টা করেছি সেগুলি কেন তারা গুরুত্বপূর্ণ বৈশিষ্ট্য হিসাবে আসে না।
সাগর ওয়াঘমোড

আপনি কোন ভবিষ্যদ্বাণীকারী অ্যালগরিদম ব্যবহার করেন?
দিয়েগো

আমি বেশ কয়েকটি অ্যালগরিদম চেষ্টা করেছি এবং গ্রেডিয়েন্ট বুস্টেড মডেলটিতে স্থির হয়েছি, এছাড়াও আমি আমার সমস্যার জন্য এলোমেলো বন ব্যবহার করি।
সাগর ওয়াঘমোড

1

উপরের কয়েকটি পরামর্শ ছাড়াও, আমি দ্বি-পদক্ষেপের মডেলিং পদ্ধতির ব্যবহারের পরামর্শ দেব ।

  1. প্রথমে বিরল বৈশিষ্ট্য ব্যবহার করুন এবং সেরা মডেলটি বিকাশ করুন।
  2. সেই মডেল থেকে পূর্বাভাসের সম্ভাবনা গণনা করুন।
  3. দ্বিতীয় মডেলটিতে একটি সম্ভাব্যতা অনুমানের ফিড দিন (ইনপুট বৈশিষ্ট্য হিসাবে), যা ঘন বৈশিষ্ট্যগুলিকে অন্তর্ভুক্ত করবে। অন্য কথায়, সমস্ত ঘন বৈশিষ্ট্য এবং দ্বিতীয় মডেল তৈরির জন্য সম্ভাবনার অনুমান ব্যবহার করুন।
  4. চূড়ান্ত শ্রেণিবিন্যাস তখন দ্বিতীয় মডেলের উপর ভিত্তি করে করা হবে।

0

কেবল বিরল বৈশিষ্ট্যগুলিতে পিসিএ চেষ্টা করুন এবং পিসিএ আউটপুটকে ঘন বৈশিষ্ট্যগুলির সাথে একত্রিত করুন।

সুতরাং আপনি (মূল) বৈশিষ্ট্যগুলির ঘন সেট + বৈশিষ্ট্যগুলির ঘন সেট (যা মূলত ছড়িয়ে ছিটিয়ে ছিল) পাবেন।

প্রশ্নের জন্য +1। ফলাফল সঙ্গে আমাদের আপডেট করুন।


বাহ, এটি আসলে এওসি নামিয়েছে :( নিশ্চিত নয়, এর অর্থ কী, তার বৈশিষ্ট্যটির গুরুত্ব এবং সমস্ত যাচাই করা দরকার But তবে আমার দর্শনটি প্রায় ২.৩ কে স্পার্স বৈশিষ্ট্যগুলির মধ্যে, আমি 1 কে বৈশিষ্ট্যগুলি ব্যবহার করেছি যা 0.97 বৈকল্পিক অনুপাতের ব্যাখ্যা দিচ্ছিল, তথ্য এই হারের নিচে AUC আনা হয়ে থাকতে পারে।
সাগর Waghmode

মজাদার. ভাগ করে নেওয়ার জন্য ধন্যবাদ. আমাদের কাছে আপনার সাথে খুব একই রকম ডেটাসেট রয়েছে (1k-2k স্পার্স বৈশিষ্ট্য)। কৌতূহলের বাইরে, আপনি কতটি মূল প্রতিবেদন তৈরি করেছেন? যদি এই সংখ্যাটি খুব কম হয় তবে এটি ব্যাখ্যা করতে পারে কেন এটিসি নেমে গেছে।
তাগর

আমি ইতিমধ্যে বলেছি, আমি 1 কে মূল উপাদান তৈরি করেছি যা 0.97 বৈকল্পিকতার ব্যাখ্যা দিচ্ছিল।
সাগর ওয়াঘমোড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.