ডিপ লার্নিং বনাম গ্রেডিয়েন্ট বুস্টিং: কখন কী ব্যবহার করবেন?


30

বড় ডেটাসেট নিয়ে আমার বড় ডেটা সমস্যা রয়েছে (উদাহরণস্বরূপ 50 মিলিয়ন সারি এবং 200 কলাম) take ডেটাসেটটিতে প্রায় 100 সংখ্যার কলাম এবং 100 শ্রেণীবদ্ধ কলাম এবং একটি প্রতিক্রিয়া কলাম থাকে যা বাইনারি শ্রেণীর সমস্যা উপস্থাপন করে। প্রতিটি শ্রেণীবদ্ধ কলামের কার্ডিনালিটি 50 এরও কম।

আমি গভীর শিক্ষা গ্রহণ পদ্ধতি বা বৃক্ষভিত্তিক পদ্ধতির (উদাহরণস্বরূপ গ্রেডিয়েন্ট বুস্টিং, অ্যাডাবুস্ট বা এলোমেলো অরণ্যসমূহ) জড়ো করা উচিত কিনা সে বিষয়ে আমি একটি অগ্রাধিকার জানতে চাই। এমন কিছু অনুসন্ধানের তথ্য বিশ্লেষণ বা অন্য কিছু কৌশল রয়েছে যা আমাকে অন্য পদ্ধতির চেয়ে একটি পদ্ধতির সিদ্ধান্ত নিতে সহায়তা করতে পারে?


2
আমি মনে করি যদি ডেটা সম্পর্কিত বৈশিষ্ট্যগুলি সম্পর্কে আপনার কিছু ভাল ধারণা না পাওয়া যায় তবে আপনি উভয় বিকল্প (সম্ভবত 500,000 সারিগুলিতে) সন্ধান করবেন এবং ক্রস-বৈধতা দিন। তবে সম্ভবত ভিজ্যুয়ালাইজেশন বা অন্যান্য বিশ্লেষণ রয়েছে যা আপনাকে সেই স্বজ্ঞাততা পেতে সহায়তা করতে পারে।
নিল স্লেটার

1
আমি এই সপ্তাহে সত্যিকারের ডেটা সম্পর্কে আমার নিজের গবেষণার জন্য একটি বড় মডেল তুলনা করার পরিকল্পনা করছি। আমি ফলাফলগুলি কিছুটা সাফ করে এখানে পোস্ট করব। এছাড়াও কমপক্ষে একজন সিএস শিক্ষার্থী প্রশ্নটি অধ্যয়ন করেছেন: একাডেমিয়া.ইডু
3526056/…

1
@ নীলস্ল্যাটার আইডি একটি উত্তর দেখতে চাইবে যে অন্তর্দৃষ্টিটি কী হতে পারে / কী হতে পারে
শ্যাডোটালকার

1
আপনার মূল প্রশ্নটিতে একটি সংক্ষিপ্ত মন্তব্য দেওয়ার মতো আমার এখনও যথেষ্ট খ্যাতি নেই এবং এটি আসলে কোনও উত্তর নয়। যাই হোক না কেন, আমি বলতে চেয়েছিলাম যে আমি মনে করি যে এই কাগজটি এই সমস্যার সাথে বেশ প্রাসঙ্গিক: ফার্নান্দেজ-দেলগাদো, এম।, কর্ণাডাস, ই।, ব্যারো, এস, এবং আমোরিম, ডি (২০১৪)। বাস্তব বিশ্ব শ্রেণিবদ্ধকরণ সমস্যাগুলি সমাধান করতে আমাদের কি কয়েকশ শ্রেণিবদ্ধ দরকার? জার্নাল অফ মেশিন লার্নিং রিসার্চ, 15, 3133–3181। Dl.acm.org/citation.cfm?id=2697065
জোসে মারিয়া মাতোস

এমন কিছু অনুসন্ধানের তথ্য বিশ্লেষণ বা অন্য কিছু কৌশল রয়েছে যা আমাকে অন্য পদ্ধতির চেয়ে একটি পদ্ধতির সিদ্ধান্ত নিতে সহায়তা করতে পারে? সাধারণ ক্ষেত্রে না, 'কোনও নিখরচায় মধ্যাহ্নভুক্ত উপপাদ্য' এটি প্রমাণ করে। তবে এমন হিরিওস্টিক্স
সাইমন 19

উত্তর:


32

কেন এই দুটি পদ্ধতির মধ্যে নিজেকে সীমাবদ্ধ রাখুন? কারণ তারা দুর্দান্ত? আমি সর্বদা একটি সরল রৈখিক শ্রেণিবদ্ধ \ রেজিস্ট্রার দিয়ে শুরু করব। সুতরাং এক্ষেত্রে একটি লিনিয়ার এসভিএম বা লজিস্টিক রিগ্রেশন, সাধারণত অ্যালগরিদম প্রয়োগের সাথে যা ডেটার আকারের কারণে স্পারসিটির সুবিধা নিতে পারে। সেই ডেটাসেটে একটি ডিএল অ্যালগরিদম চালাতে অনেক দিন সময় লাগবে এবং আমি সাধারণত বিশেষজ্ঞের সমস্যাগুলির বিষয়ে গভীর জ্ঞান অর্জনের চেষ্টা করতাম যেখানে ডেটাগুলিতে যেমন চিত্র বা পাঠ্যগুলির মতো কিছু শ্রেণিবিন্যাস রয়েছে। প্রচুর সহজ শেখার সমস্যার জন্য এটি ওভারকিল, এবং শিখতে অনেক সময় এবং দক্ষতা নেয় এবং ডিএল অ্যালগরিদমগুলি প্রশিক্ষণ করতে খুব ধীর হয়। অতিরিক্তভাবে, কেবল আপনার 50M সারি রয়েছে এর অর্থ এই নয় যে ভাল ফলাফল পেতে আপনাকে পুরো ডেটাसेट ব্যবহার করতে হবে। তথ্য উপর নির্ভর করে, আপনি কয়েকটি 100,000 সারি বা কয়েক মিলিয়ন এর নমুনা সহ ভাল ফলাফল পেতে পারেন। আমি একটি ছোট নমুনা এবং লিনিয়ার শ্রেণিবদ্ধের সাথে সহজ শুরু করব এবং ফলাফল সন্তোষজনক না হলে সেখান থেকে আরও জটিল হয়ে উঠব। কমপক্ষে সেই পথে আপনি একটি বেসলাইন পাবেন। বেশিরভাগ কাজগুলিতে আরও পরিশীলিত মডেলগুলি সম্পাদন করার জন্য আমরা প্রায়শই সাধারণ লিনিয়ার মডেলগুলি পেয়েছি, যাতে আপনি সর্বদা সেখানে শুরু করতে চান।


4
একটি সাধারণ মডেল এবং উপ-নমুনা দিয়ে শুরু করার জন্য +1
ম্যাট

আমি স্পার্স ডেটার জন্য এসএমএম ব্যবহারের সাথে একমত হই তবে আপনি কি ভাবেন না যে এসএমএম এত বিশাল মাত্রিক ডেটাসেট প্রশিক্ষণ দিতে খুব বেশি সময় নেবে!
blitu12345

না, বিশেষত না যদি এটি বিরল হয় এবং লিনিয়ার কার্নেল ব্যবহার করে। তবে তাদের প্রচুর সংখ্যক সারি নিয়ে সমস্যা থাকতে পারে। এটি কোনওভাবেই কোনও ডিএল মডেলের চেয়ে অনেক দ্রুত নরক হবে। তবে মনে রাখবেন যে আমি লজিস্টিক রিগ্রেশনকেও সুপারিশ করেছি।
সাইমন

আমার মূল বিষয়টি হ'ল একটি সাধারণ লিনিয়ার মডেল দিয়ে শুরু করা, এবং এমনকি পুরো ডেটাসেট ব্যবহার না করা, কারণ ভাল পারফরম্যান্স পেতে আপনার পুরো ডেটাসেটের প্রয়োজন নেই। আমি সন্দেহ করি 100 ক সারি এবং কয়েক মিলিয়ন ব্যবহারের মধ্যে নির্ভুলতার মধ্যে অনেক পার্থক্য রয়েছে।
সাইমন

বিশেষজ্ঞের সমস্যাগুলির উপর গভীর শিক্ষার চেষ্টা করার জন্য +1 যেখানে ডেটাতে কিছু শ্রেণিবদ্ধ কাঠামো রয়েছে
এরিক 2323223

4

অন্যান্য উত্তরের পাশাপাশি (এবং মন্তব্যে কিছু ভাল লিঙ্ক রয়েছে) সমস্যাটি কী বা আপনি কী ধরণের প্রশ্নের উত্তর দিতে চান তা নির্ভর করে। যেহেতু আমি কেবল আমার নিজের অভিজ্ঞতার ভিত্তিতে পরামর্শ দিতে পারি, তবে শ্রেণিবিন্যাস কার্যের ক্ষেত্রে, ডেটাসেটের শ্রেণিকালীন ভারসাম্যের ভিত্তিতে সম্ভাব্য পদ্ধতিগুলি গুরুতরভাবে সীমাবদ্ধ করা যেতে পারে।

একবার আপনি প্রায় 1:10 শ্রেণির ভারসাম্যহীনতার চেয়ে বড়তে যান, তবে বেশিরভাগ শ্রেণিবদ্ধকরণ পদ্ধতিগুলি কেবল কাজ করা বন্ধ করে দেয়। এলোমেলো বন এবং সম্ভবত স্নায়ু জাল (এখনও চেষ্টা করেন নি) এর উপর ভিত্তি করে আপনাকে পদ্ধতিগুলি ছেড়ে দেওয়া হবে। আমি ক্লাস ব্যালেন্সের সাথে 1: 500 থেকে 1: 1000 এর পরিসরে কাজ করি এবং দেখেছি যে ডাউন বা আপসাম্পলিং কাজ করে না। ভাগ্যক্রমে আমার ডেটাসেটটি 200 ভেরিয়েবল দ্বারা 6 মাইল পর্যবেক্ষণ "কেবল" এবং আমি যুক্তিসঙ্গত সময়ে পুরো সেটটিতে বর্ধিত গাছ চালাতে সক্ষম হয়েছি।

সুতরাং আপনার প্রশ্নের সরাসরি উত্তর দিতে:

  • আপনি উত্তর দিতে চান এমন একটি গোছা প্রশ্নাবলীর সাথে উপস্থিত হওয়া উচিত এবং শ্রেণিবিন্যাসের ক্ষেত্রে টার্গেট ভেরিয়েবলের ক্লাস ব্যালেন্স পরীক্ষা করে দেখুন।

  • আপনার সমস্ত তথ্যতে অনুপস্থিত মানগুলির বন্টন (গাণিতিক অর্থে নয়) পরীক্ষা করা উচিত এবং যা সন্ধান করেন তা নথিভুক্ত করা উচিত। কিছু এমএল পদ্ধতি নিখোঁজ মানগুলির সাথে সূক্ষ্ম হয় যখন অন্যগুলি না থাকে এবং আপনাকে ডেটা ইমপুটেশনটি দেখতে হবে (যার নিজস্ব নিয়ম এবং নির্দেশিকা এবং সমস্যাগুলির সেট রয়েছে)।


1
ক্লাস_ওয়েট = "ভারসাম্যযুক্ত" দিয়ে স্কেলনার থেকে এসজিডি শ্রেণিবদ্ধকারী চেষ্টা করুন
ডিয়েগো

4

আমার দৃষ্টিকোণ থেকে, 5 মিলিয়ন দৃষ্টান্তের জন্য আপনার ভাল জেনারালাইজেশন বাঁধতে (প্রচলিত শব্দটির একটি ভাল মডেল) পেতে প্রচুর গাছের প্রয়োজন। এটি যদি সমস্যা না হয় তবে এর জন্য যান, এমনকি সঠিক উত্তরটি আপনার সমস্যার প্রকৃতির উপর নির্ভর করে। GBT হ'ল একটি ভাল পদ্ধতি বিশেষত আপনার যদি শ্রেণীবদ্ধ, সংখ্যাসূচক এবং এর মতো মিশ্র বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য থাকে। তদ্ব্যতীত, নিউরাল নেটওয়ার্কগুলির সাথে তুলনায় এটিতে হাইপারপ্যারামিটারগুলির সংখ্যা কম রয়েছে। অতএব, সেরা সেটিংয়ের মডেলটি দ্রুততর। আরও একটি বিষয় সমান্তরাল প্রশিক্ষণের বিকল্প। আপনি ভাল সিপিইউ দিয়ে একই সাথে একাধিক গাছ প্রশিক্ষণ দিতে পারেন। আপনি যদি ফলাফলগুলি নিয়ে সন্তুষ্ট না হন তবে নিউরাল নেটগুলির জন্য যান কারণ এর অর্থ আপনার মডেলটি আরও বেশি প্রসারিত হওয়া উচিত এবং আপনার ডেটার মাধ্যমে উচ্চতর অর্ডার সংক্রান্ত তথ্য শিখতে হবে। অন্যান্য লার্নিং অ্যালগরিদমের তুলনায় এটি এনএনগুলির কারণে।


4

@ সিমন ইতিমধ্যে যা বলেছে তার আদলে:

  1. দৃষ্টি, বক্তৃতা এবং ভাষা মডেলিংয়ে ফিচার ইঞ্জিনিয়ারিংটি জটিল এবং প্রচুর প্রচেষ্টা গ্রহণের ক্ষেত্রে সমস্যা সমাধানে গভীর শেখার পদ্ধতিগুলি বিশেষভাবে কার্যকর।
  2. আপনার অ্যাপ্লিকেশনটির ক্ষেত্রে এমনটি মনে হচ্ছে না যেহেতু আপনার নির্দিষ্ট বৈশিষ্ট্যগুলি রয়েছে এবং কেবলমাত্র বৈশিষ্ট্য সম্পর্কিত কথোপকথন ইত্যাদি প্রয়োজনীয়।
  3. প্রদত্ত যে গভীর শেখার মডেলগুলিকে কোডিংয়ের ক্ষেত্রে বর্তমানে প্রচুর পরিমাণে কম্পিউটিং সংস্থান এবং বিজ্ঞানীর সময় প্রয়োজন আমি একটি অ-গভীর শিখন পদ্ধতির জন্য বেছে নেওয়ার পরামর্শ দেব।

আপনার সমস্যার জন্য প্রচেষ্টা বনাম বেনিফিট ট্রেড অফ গভীর শিক্ষার পক্ষে বলে মনে হচ্ছে না। ডিএল ওভারকিল হবে


1

যখন আপনার কাছে এত বড় ডেটা সেট থাকে আপনি কোনও পরিসংখ্যান এবং মেশিন লার্নিং মডেলিং কৌশলগুলির সাথে খেলতে পারেন এবং এটি অত্যন্ত উত্সাহিত হয়। অন্যরা যেমন পরামর্শ দিয়েছে আমিও ডেটা থেকে কয়েক মিলিয়ন এলোমেলো নমুনা নেওয়ার পরামর্শ দিয়েছি with যেহেতু এটি একটি শ্রেণিবিন্যাসের সমস্যা তাই আমি প্রথমে সাধারণ শ্রেণিবদ্ধকরণ কৌশলগুলি অনুসরণ করব এবং তারপরে আরও জটিল বিষয়গুলি নিয়ে চলব। লজিস্টিক রিগ্রেশন শুরু দিয়ে দুর্দান্ত।

আমি যুক্ত করতে চেয়েছিলাম যে জেনারেটাল মডেলগুলিও চেষ্টা করে দেখতে হবে। নাইভ বায়েস শ্রেণিবদ্ধকারী হ'ল একটি সহজ সম্ভাব্য শ্রেণিবদ্ধকারী এবং এটি অনেকগুলি কার্যবিধিতে সাপোর্ট ভেক্টর মেশিনের মতো জটিল পদ্ধতিকে ছাড়িয়ে যায়। আপনি তাকান করতে পারেন এই বিশেষ দ্রষ্টব্য এবং একটি সহজ বাস্তবায়ন এই রিগ্রেশনকে NB এর তুলনা করার জন্য লিঙ্কটি দেখতে পারেন।

বেসিক মডেল হিসাবে কেউ নাইভ বেইস (এনবি) শ্রেণিবদ্ধ তৈরি করতে পারে এবং তারপরে সাপোর্ট ভেক্টর মেশিনস (এসভিএম) বা মাল্টিলেয়ার পারসেপ্ট্রনস (এমএলপি) এর মতো যেকোন মেশিন লার্নিং টেকনিক গ্রহণ করতে পারে। এখানে একটি বাণিজ্য হ'ল এনবি এমএলপির তুলনায় কমপক্ষে কম ব্যয়বহুল তাই এমএলপি থেকে আরও ভাল পারফরম্যান্স কাঙ্ক্ষিত।

আপনার যথাযথ ক্যোয়ারিতে আসছেন: গভীর শেখা এবং গ্রেডিয়েন্ট ট্রি বুস্টিং অত্যন্ত শক্তিশালী কৌশল যা ডেটাগুলির মধ্যে যে কোনও সম্পর্কের মডেল করতে পারে। তবে আপনার ক্ষেত্রে যদি কোনও সাধারণ লজিস্টিক রিগ্রেশন বা এনবি পছন্দসই নির্ভুলতা দিচ্ছে। তাই প্রথমে সহজ কৌশলগুলি চেষ্টা করে দেখতে এবং একটি বেসলাইন পারফরম্যান্স করা সর্বদা ভাল। তারপরে কেউ জটিল মডেলগুলির জন্য যেতে পারে এবং বেসলাইনের সাথে তুলনা করতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.