মিশ্রণ মেশিন লার্নিং মডেলগুলি


20

আমি ডেটামাইনিং / মেশিন লার্নিং / ইত্যাদি ক্ষেত্রে একরকম নতুন এবং পূর্বাভাস উন্নত করতে একই মডেলের একাধিক মডেল এবং রানগুলি একত্রিত করার কয়েকটি উপায় সম্পর্কে পড়ছেন।

দু'টি কাগজপত্র পড়ার থেকে আমার ধারণা (যা প্রায়শই আকর্ষণীয় এবং তাত্ত্বিক এবং গ্রীক বর্ণগুলিতে দুর্দান্ত তবে কোড এবং প্রকৃত উদাহরণগুলির সাথে সংক্ষিপ্ত) হয় যে এটি এরকম হওয়ার কথা:

আমি একটি মডেল নিই ( knn, RFইত্যাদি) এবং 0 এবং 1 এর মধ্যে শ্রেণিবদ্ধের একটি তালিকা পাই আমার প্রশ্নটি হল শ্রেণিবদ্ধদের এই তালিকাগুলির প্রত্যেকটি কীভাবে সংযুক্ত করবেন? আমি কি আমার প্রশিক্ষণ সংস্থায় একই মডেলগুলি চালিত করি যাতে চূড়ান্ত মডেলটিতে কলামগুলির সংখ্যা একই হয় বা অন্য কোনও কৌশল আছে?

কোনও পরামর্শ / উদাহরণে আর কোড অন্তর্ভুক্ত থাকলে এটি দুর্দান্ত হবে।

দ্রষ্টব্য: এটি প্রশিক্ষণের সেটে w / 100k লাইন এবং পরীক্ষার সেটে 70 ক এবং 10 কলামে ডেটা সেট করার জন্য।

উত্তর:


21

এটি আসলে "3 বি" কৌশলগুলির মধ্যে একটিতে সিদ্ধ হয়: ব্যাগিং, উত্সাহ দেওয়া বা মিশ্রণ।

ব্যাগিংয়ের ক্ষেত্রে, আপনি বস্তুর বিভিন্ন উপগ্রহে প্রচুর শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিন এবং শ্রেণিবিন্যাসের জন্য ভোটদানের জন্য রেগ্রেশন এবং ভোটদানের জন্য গড় উত্তর দিয়ে সংমিশ্রণ করুন (আরও জটিল পরিস্থিতিগুলির জন্য আরও কিছু বিকল্প রয়েছে, তবে আমি এড়িয়ে যাব)। পৃথক শ্রেণিবদ্ধকারীরা সাধারণত স্বতন্ত্র বলে বিবেচিত হওয়ায় ভোটের অনুপাত / প্রকরণটি ত্রুটি অনুমান হিসাবে ব্যাখ্যা করা যায়। আরএফ আসলে ব্যাগিংয়ের নকশা se

বুস্টিং পদ্ধতিগুলির একটি বিস্তৃত পরিবার, তবে তাদের মূল বক্তব্য হ'ল আপনি প্রাক্তনের অবশিষ্টাংশের উপর পরবর্তী শ্রেণিবদ্ধকারী তৈরি করেন, এইভাবে (তত্ত্ব অনুসারে) আরও এবং আরও সূক্ষ্ম মিথস্ক্রিয়াকে হাইলাইট করে ধীরে ধীরে নির্ভুলতা বাড়িয়ে তোলেন। পূর্বাভাসগুলি সাধারণত সেগুলি সংশ্লেষ করে একত্রিত করা হয়, এক্স এর জন্য তার টেলর সিরিজের মূল উপাদানগুলির x এর জন্য সংখ্যার যোগ করে x এর মধ্যে একটি ফাংশনের মান গণনার মতো something
সর্বাধিক জনপ্রিয় সংস্করণগুলি হ'ল (স্টোকাস্টিক) গ্রেডিয়েন্ট বুস্টিং (দুর্দান্ত গাণিতিক ভিত্তি সহ) এবং অ্যাডাবোস্ট (সুপরিচিত, আসলে জিবিটির একটি নির্দিষ্ট ক্ষেত্রে)। সামগ্রিক দৃষ্টিকোণ থেকে, সিদ্ধান্ত গাছ তুচ্ছ পিভট শ্রেণিবদ্ধীদের উত্সাহ দেয়।

মিশ্রণ হ'ল বাসা বাঁধার একটি ধারণা, অর্থাত্ অন্যান্য শ্রেণিবদ্ধদের পূর্বাভাস দিয়ে তৈরি একটি তথ্য সিস্টেমে একটি শ্রেণিবদ্ধ চালানো। সুতরাং, এটি একটি খুব পরিবর্তনশীল পদ্ধতি এবং অবশ্যই একটি সংজ্ঞায়িত অ্যালগরিদম নয়; প্রচুর পরিমাণে অবজেক্টের প্রয়োজন হতে পারে (বেশিরভাগ ক্ষেত্রে "ব্লেন্ডার" শ্রেণিবদ্ধকারীকে অবশ্যই অবজেক্টের সেটগুলিতে প্রশিক্ষণ দিতে হবে যা বিব্রতকর ওভারফিট এড়ানোর জন্য আংশিক শ্রেণিবদ্ধকারী তৈরি করতে ব্যবহৃত হয়নি)।
আংশিক শ্রেণিবদ্ধদের ভবিষ্যদ্বাণীগুলি স্পষ্টতই একটি তথ্য সিস্টেমে মেল্ড করে মিলিত হয় যা ব্লেন্ডার দ্বারা পূর্বাভাস দেওয়া হয়।


7

"মডেলগুলির সংমিশ্রণ" প্রকাশটি অস্পষ্ট, তবে আমার অনুমান যে আপনি জড়ো শেখার পদ্ধতিগুলি সম্পর্কে জিজ্ঞাসা করছেন are তাদের সম্পর্কে সবচেয়ে ভাল উল্লেখ সম্ভবত রিচ কারুয়ানার কাগজপত্র:

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf

এই কাগজে কোনও আসল কোড নেই, তবে অ্যালগরিদমটি স্পষ্টভাবে বর্ণিত হয়েছে, সুতরাং আপনার পছন্দের কোনও ভাষায় কোডিং করতে আপনার কোনও সমস্যা হওয়া উচিত নয়।


2

উপরের উত্তরগুলির সাহায্যে কিছুটা সন্ধান করার পরে আমি বুঝতে পারি আমার সমস্যাটি কী। আমি অন্যান্য মডেলগুলির পূর্বাভাসগুলি একই মডেলের ভবিষ্যদ্বাণী হিসাবে ব্যবহার করার চেষ্টা করেছি। অন্য কথায়, আমি যখন kNNমডেলটি চালাতাম তখন আমার 5 টি ভেরিয়েবল থাকত, আমি kNNযখন র্যান্ডম ফরেস্ট মডেলটি চালাতাম তখন আমি মডেলের পূর্বাভাসগুলির সাথে একটি নতুন ভেরিয়েবল যুক্ত করতাম এবং 6 ভেরিয়েবল যুক্ত একটি মডেল তৈরি করতাম। আমি দেখতে পেয়েছি যে পরিবর্তে মডেলগুলির ফলাফলগুলি ভাগ করা উচিত এবং পৃথক মডেল হিসাবে চালানো উচিত। তাই আমি বিভিন্ন মডেলের (থেকে ভবিষ্যৎবাণী তৈরি চাই knn, RF, svd, ইত্যাদি) তারপর কি ভবিষ্যদ্বাণী করা যেমন ভেরিয়েবল শুধু ভবিষ্যদ্বাণী এবং শ্রেণীবিভাগেরও ব্যবহার করে একটি পৃথক মিশ্রন / মিশ্রণ / সারিবদ্ধ মডেল চালানো।

আমার মনে হয় আমার কিছু সমস্যা হ'ল ভবিষ্যদ্বাণীগুলি অন্যান্য ভেরিয়েবলের সাথে একত্রিত করার ক্ষেত্রে কিছুটা অত্যধিক মানসিকতা বা বহুবিধ লাইন থাকতে পারে তবে আমি নিশ্চিত নই not আমি যে ভুল করছি সে সম্পর্কে অন্য কেউ হয়তো আরও ভাল করে তুলতে সক্ষম হবেন। যাইহোক তাদের সহায়তার জন্য প্রত্যেককে ধন্যবাদ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.