উপযুক্ত মেশিন লার্নিং অ্যালগরিদম চয়ন করতে কীভাবে অনুসন্ধানের ডেটা বিশ্লেষণ করবেন


16

আমরা মেশিন লার্নিংয়ের মাধ্যমে মেশিন লার্নিং অধ্যয়ন করছি: একটি সম্ভাব্য দৃষ্টিভঙ্গি (কেভিন মারফি)। যদিও পাঠ্যটি প্রতিটি অ্যালগরিদমের তাত্ত্বিক ভিত্তি ব্যাখ্যা করে, এটি খুব কমই বলে যে কোন ক্ষেত্রে কোন অ্যালগরিদম ভাল, এবং যখন এটি হয়, তবে আমি বলব না যে আমি কোন ক্ষেত্রে আছি tell

উদাহরণস্বরূপ, কার্নেল নির্বাচনের জন্য, আমাকে বলা হয়েছে যে আমার ডেটা কতটা জটিল au সাধারণ 2 মাত্রিক ডেটাতে, আমি একটি লিনিয়ার বা রেডিয়াল কার্নেল উপযুক্ত কিনা তা প্লট করে দেখতে পারি। তবে উচ্চ মাত্রায় কী করবেন?

আরও সাধারণভাবে, লোকেরা যখন অ্যালগোরিদম বাছাইয়ের আগে "আপনার ডেটাটি জানুন" বলে তখন কী বোঝায়? এখনই আমি কেবল শ্রেণিবিন্যাস বনাম রিগ্রেশন অ্যালগরিদম এবং লিনিয়ার বনাম নন-লিনিয়ার অ্যালগোরিদম (যা আমি পরীক্ষা করতে পারি না) পার্থক্য করতে পারি।

সম্পাদনা: যদিও আমার মূল প্রশ্নটি সর্বদা সর্বজোটের নিয়ম সম্পর্কে, তবে আমাকে আমার বিশেষ সমস্যা সম্পর্কে আরও তথ্য সরবরাহ করতে বলা হয়েছে।

ডেটা: প্রতিটি সারিতে একটি প্যানেল একটি দেশ-মাস (মোট ~ 30,000 সারি, 15 বছরেরও বেশি সময় ধরে ~ 165 দেশকে কভার করে) being

প্রতিক্রিয়া: 5 টি বাইনারি সুদের আগ্রহ (যেমন প্রতিবাদ / অভ্যুত্থান / সংকট ইত্যাদি যে মাসে হয়)।

বৈশিষ্ট্যগুলি: previous 400 ভেরিয়েবল (একটানা, শ্রেণিবদ্ধ, বাইনারি মিশ্রণ) 2 পূর্ববর্তী দেশ-মাসের বৈশিষ্ট্যগুলির একগুচ্ছ বিশদ বিবরণ (দীর্ঘতর ব্যবধান তৈরি করা যেতে পারে)। লক্ষ্যটি পূর্বাভাস হওয়ায় আমরা কেবল লেগড ভেরিয়েবল ব্যবহার করি।

উদাহরণগুলির মধ্যে রয়েছে, বিনিময় হার, জিডিপি প্রবৃদ্ধি (ধারাবাহিক), মুক্ত প্রেসের স্তর (শ্রেণিবদ্ধ), গণতন্ত্র, প্রতিবেশী দ্বন্দ্ব রয়েছে কিনা (বাইনারি)। নোট করুন যে এই 400 টি বৈশিষ্ট্যগুলির মধ্যে অনেকগুলি ভেরিয়েবলের চেয়ে পিছিয়ে রয়েছে।

উত্তর:


15

এটি একটি সহজ উত্তর ছাড়া বিস্তৃত প্রশ্ন। সিএমইউতে আমি এই বিষয়টিতে একটি 3 মাসের কোর্স শিখিয়েছি । এটি যেমন বিষয়গুলি কভার করে:

  1. ভেরিয়েবল এবং সামগ্রিক বিতরণ কাঠামোর মধ্যে পারস্পরিক সম্পর্ক বুঝতে অনুমানগুলি ব্যবহার করা ।
  2. ধারাবাহিকভাবে অবশিষ্টগুলি মডেলিংয়ের মাধ্যমে কীভাবে একটি রিগ্রেশন মডেল তৈরি করা যায়
  3. লিনিয়ার মডেলটিতে অলৈখিক ইন্টারঅ্যাকশন শর্তাদি কখন যুক্ত করবেন তা নির্ধারণ করা হচ্ছে
  4. কীভাবে বনাম বনাম একটি সিদ্ধান্ত গাছ বনাম একটি লজিস্টিক শ্রেণিবদ্ধের মধ্যে সিদ্ধান্ত নেবেন । আমি বেশ কয়েকটি ইউসিআই ডেটাসেটের মধ্য দিয়ে গিয়েছিলাম এবং দেখিয়েছি কীভাবে আপনি চালিয়ে যাওয়ার আগে কোন শ্রেণিবদ্ধার জিততে পারবেন tell

দুঃখের বিষয়, কোর্সের জন্য কোনও ভিডিও বা পাঠ্যপুস্তক নেই, তবে আমি এমন একটি বক্তব্য দিয়েছি যা ক্লাসের মূল বিষয়গুলি সংক্ষিপ্ত করে তুলেছে। আমি একই ভিত্তি জুড়ে এমন কোনও পাঠ্যপুস্তক সম্পর্কে সচেতন নই।


এই সহায়ক উপকরণগুলি হজম করার জন্য আমি এক বা দু'দিন সময় নেব, তবে আমার দৃষ্টি আকর্ষণ করার সময়: কেন এই বিষয়টিকে আচ্ছাদন করার জন্য আমাদের কাছে একটি পাঠ্যপুস্তক / সংস্থান নেই? যখনই কেউ কোনও প্রকল্পে জড়িত তাদের এই প্রশ্নটি সম্পর্কে ভাবতে হবে কেন এটি গুরুত্বপূর্ণ নয়?
হাইজেনবার্গ

1
দুর্দান্ত প্রশ্ন (+1) এবং উত্তর (+1)। @ হাইজেনবার্গ: আমি টমের সাথে এই বিষয়ে একটি নির্দিষ্ট পাঠ্যপুস্তক না দেখে সম্মত। তবে, তার সংস্থানগুলি ছাড়াও, আমি দুটি অনলাইন সংস্থান প্রস্তাব করব (সেগুলি এমএল অ্যাপ্লিকেশনগুলিতে মনোনিবেশ করা সত্ত্বেও): 1) এনআইএসটি ইঞ্জিনিয়ারিং স্ট্যাটিস্টিকস হ্যান্ডবুকের ইডিএ বিভাগ ; 2) ইডিএর জটিল মডেলগুলির জন্য অধ্যাপক অ্যান্ড্রু গেলম্যানের একটি আকর্ষণীয় কাগজ
আলেকসান্দার ব্লেক

0

এমন কিছু জিনিস রয়েছে যা আপনি আপনার ডেটা চেক করতে পারেন।

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

এই পয়েন্টগুলি অনুসারে এবং আপনার তথ্য থেকে আপনি যে ধরণের তথ্য বের করতে চান তা অনুসারে আপনি কোন অ্যালগরিদম ব্যবহার করবেন তা সিদ্ধান্ত নিতে পারেন।


আপনি কীভাবে এই 4 টি তথ্যের প্রতিটি আমার অ্যালগরিদম পছন্দকে প্রভাবিত করতে পারেন তা ব্যাখ্যা করতে পারেন? আমি কেবল জানি 2 জন শ্রেণিবিন্যাস বনাম রিগ্রেশন স্থির করবে। অন্য 3 সম্পর্কে কি? (বিশেষত # 4 - আমার 10 বছরেরও বেশি সময় ধরে 165 টি দেশের প্যানেল ডেটা রয়েছে)
হাইজেনবার্গ

2- তে আমি ইনপুট হিসাবে শ্রেণিবদ্ধ ভেরিয়েবল সম্পর্কে ভাবছিলাম। অ্যালগরিদম সম্পর্কে চূড়ান্ত সিদ্ধান্ত আপনি যে সমস্যার সমাধান করার চেষ্টা করছেন তার উপর নির্ভর করে। এর আগে এখন জানার উপায় রয়েছে। 2-তে সম্ভবত কোনও সিদ্ধান্তের গাছ আপনাকে সহায়তা করতে পারে। 3-এ আপনাকে ওভারফিটিংয়ের বিষয়ে সতর্ক থাকতে হবে। 4- এ আপনাকে নিজের কর্মক্ষমতা মূল্যায়নের সিদ্ধান্ত নিতে হবে to আপনি যদি কোনও নির্দিষ্ট সমস্যা ব্যাখ্যা করেন তবেই আমরা আপনাকে কোন অ্যালগরিদম ব্যবহার করবেন তা সিদ্ধান্ত নিতে সহায়তা করতে পারি।
ডোনবিও

আমি আমার বিশেষ সমস্যা সম্পর্কে আরও তথ্যের জন্য আমার প্রশ্নটি সম্পাদনা করেছি।
হাইজেনবার্গ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.